评估与采购
如何评估 AI 测试平台
一套可促成决策的框架,涵盖架构、治理、执行触达范围、修复、安全和 TCO。
Zof AI 可靠性实践团队
企业指南 · 受治理的自主能力
默认即受治理的自主能力:生产影响型修复需经人工授权,提供审计证据,以及从 SaaS 到安全隔离区的多种部署选项。
买方通常会犯哪些错误
团队往往将测试生成演示与受治理的 ARI 混为一谈,忽视桌面/本地部署的触达能力,并在评分卡中遗漏修复审批工作流。
另一个错误是只看许可成本,却不计入所节省的维护和事故工时。
供应商评估框架
评分维度包括:系统模型、智能体编排、执行平面、遥测、RCA、受治理修复、安全控制、集成以及商务契合度。
根据您的事故历史为各维度加权, 如果故障多集中在集成层,缺乏图谱的供应商得分会很低。
架构
梳理控制平面与执行平面的部署位置。询问哪些组件运行在供应商云端,哪些运行在您的 VPC、飞地(enclave)或桌面端。
架构方面的回答应当用图示说明,而不是含糊其辞。
用于评估的参考架构
智能体模型
厘清专业化分工、集群编排和人工审查面。一味强调单一“万能智能体”的说法往往掩盖了维护负债。
要求在 PoC 期间进行实时策略编辑。
执行触达范围
用证据而非幻灯片上的说辞,确认 API、Web、桌面、VDI 和气隙(air-gapped)等模式。
如果去年正是在某个混合旅程上蒙受损失,就实地跑一遍该旅程。
遥测
要求明确构件类型、保留期限、脱敏机制以及与图谱实体的关联。
审计团队关心的是导出能力,而不仅仅是仪表盘。
根因分析
询问故障如何关联到依赖关系和变更。泛泛的堆栈跟踪是不够的。
RCA 应能自动驱动修复提议的生成。
治理
验证 RBAC、审批路由、职责分离和审计导出。
受治理的自主性应在合同中予以明确。
修复
修复默认必须经过人工授权,并配合预发环境验证。拒绝接受“全自动生产环境修复”。
使用受管控的修复检查清单。
安全
审查身份、签名、出站流量、PAM 和数据驻留情况,不要轻信无法证实的合规认证宣称。
面向飞地(enclave)采购方,请使用安全部署检查清单。
集成
CI/CD、问题跟踪器、聊天和 ITSM 集成应达到生产级水平,而非仅停留在测试版阶段。
在 PoC 期间衡量配置所需时间。
总拥有成本(TCO)
应纳入脚本维护、不稳定测试的人力投入、故障复现以及发布延迟等成本,而不只是订阅标价。
可靠性投资回报指南提供了面向高管的关键指标。
PoC 要求
PoC 应在约定的周数内覆盖一个复杂工作流、图谱搭建、测试队列运行、证据导出以及分阶段的修复审批。
预先明确成功衡量指标。
RFP 问题清单
下载AI 测试平台 RFP 模板,获取关于智能体、飞地执行和审计的结构化问题。
将 RFP 与亲身实测的评分卡相结合,不要只依赖营销话术式的回复。
评估部署灵活性
询问规划在何处运行、执行在何处运行、以及哪些数据允许出站。纯云端工具无法满足网络分段和受监管的采购方。
请查看 /deployment 上的部署对比。
混合部署、主权部署和飞地部署要求
应关注已签名胶囊、客户自控运行器、仅出站通信模式以及诚实可信的“准物理隔离”试点,而非那些不切实际的“零连接”宣称。
面向受限网络的安全飞地部署。
兼容 Kubernetes 的执行
平台团队应核实执行智能体与现有集群、命名空间及密钥处理机制的兼容性,而非被迫引入一个全新平台。
评分卡
为每个评估维度设置加权分数;要求供应商附上证据材料。
向高管汇报时应突出风险降低成效,而非功能数量。
对比:传统自动化测试 vs 自主可靠性基础设施
传统技术栈擅长在 CI 中运行预定义的 Web 测试。ARI 则增加了持续的系统建模、跨多界面的测试队列、图谱感知的精准定位以及人工授权的修复。
在指导委员会就脚本维护展开“自建还是采购”的讨论时,可使用此表格。
分数反映的是企业评估中观察到的定性模式,并非针对特定供应商的基准测试结果。
| 传统测试自动化 | 自主可靠性基础设施(ARI) | |
|---|---|---|
| 系统上下文 | 依赖手工维护的服务地图;测试与拓扑相互脱节 | System Graph 将测试、服务与变更影响相互关联 |
| 覆盖率维护 | 每次 UI 变更工程师都要更新脆弱的脚本 | 智能体借助人工审查和图谱信号自适应调整覆盖范围 |
| 执行范围 | 依附于 CI 的 Web/API 运行器 | 云端、API、桌面端点智能体以及安全飞地运行器 |
| 故障分析 | CI 产物中的日志和截图 | 图谱感知的根因分析(RCA),为修复建议提供输入 |
| 修复 | 手动创建工单;缺乏受管控的修复闭环 | 配备人工授权与验证机制的修复队列 |
| 治理 | 仅有代码仓库权限控制 | RBAC、审批、已签名胶囊(capsule)、审计导出 |
