修复与治理
受治理 AI 修复企业指南
借助负责复现、诊断、提议和验证的修复集群闭合可靠性回路, 始终在人工授权之下进行。
Zof AI 可靠性实践团队
企业指南 · 受治理的自主能力
默认即受治理的自主能力:生产影响型修复需经人工授权,提供审计证据,以及从 SaaS 到安全隔离区的多种部署选项。
为什么修复必须受治理
无人监督的自动修复在企业软件中是不可接受的:它违反变更控制、使审计失效,并放大影响范围。受治理的修复以速度换取问责。
代理加速调查;任何改动生产或受监管数据路径的操作,都由人工授权。
修复代理做什么
修复代理在受控环境中复现故障、分析遥测和图谱上下文,并草拟修复方案, 代码、配置或测试更新, 并附上影响摘要。
它们不会悄无声息地修补生产环境,而是准备好可供审查的变更集。
检测 → 分析 → 推荐 → 审批 → 修复 → 验证 → 审计
整个工作流是线性的且全程记录在案:由测试集群或监控系统进行检测,附带证据链接的分析,以类型化差异(diff)形式给出的推荐方案,通过 RBAC 进行的审批,在预发布环境或经由 PR 完成的应用,验证重跑,以及审计导出。
跳过验证属于违反策略,而非走捷径。
人工授权
指定审批人、职责分离以及紧急破窗(break-glass)角色均可配置。审批会记录由谁审批、何时审批以及适用的策略版本。
与 ITSM 工具集成常用于符合 CAB 流程的发布。
RBAC 与职责分离
角色将提议、审批和部署权限相互分离。QA 可审批测试变更;平台负责人审批基础设施变更。智能体按角色继承最小权限。
定期的访问权限审查应将智能体服务账户和运行器身份纳入其中。
预发布环境优先的修复
所有修复路径默认指向预发布环境或可镜像生产约束的临时环境。晋级到生产环境需要明确的晋级审批。
预发布环境优先可减少返工,并为审计人员提供清晰的边界。
基于 PR 的修复
智能体会创建拉取请求(PR),并附上关联的证据、测试计划和回滚步骤。审查人员在熟悉的工具中进行评论;合并后自动触发验证套件。
基于 PR 的流程在缩短起草时间的同时,保留了代码评审文化。
回滚与验证
每个提议都包含回滚说明和合并后的验证范围。验证失败将阻止晋级并重新启动分析。
回滚演练应在 PoC 阶段进行,而不是等到首次事故时才执行。
审计证据
审计包包含运行 ID、构件、审批人身份、差异哈希和验证结果,可导出用于 SOC、ISO 或内部风险审查。
保留期限应与您的合规计划一致,而不仅仅依赖供应商默认设置。
安全审查清单
使用受治理修复清单进行控制项映射。在规划预发布试点时,可与我们的团队探讨受治理修复方案。
修复集群在 Zof AI 中实现了这一工作流。
