背景

在当下的AI发展的黄金窗口期,非专业应急背景出身,临时支持了一个月的应急工作,就应急响应这一点与以往相比多了一些新的体会,记录下当下的思考,希望可以对类似的同学有一些帮助。不求覆盖全貌,按需展开。

写作时间:2026年6月10日 23:34:55
写作时长: 30min

核心结论

1、应急响应的本质与目标:在风险发生时,看清风险的本质,看清风险全貌(溯源),控制风险的进一步扩散(止损),属于 IPDRR 的 RR (response recover环节)。相对考验人的综合素质 (视野、执行力、沟通协调能力、抗压能力、响应汇报能力)

2、业界应急衡量做的好和不好的指标: MTTD(detect)风险发生到感知到风险的时间、MTTR(recover)风险感知 到风险恢复的时间。

3、实战派眼中,一家公司应急响应做的好不好,衡量成熟度的几个指标:

  • 溯源:基础数据(数据覆盖度、数据字段完整度、数据ready 时间、数据存储时长、查询速度、平台关联能力)、标准化场景查询模板(覆盖度、召回率:用了 xx次/累计 xx 次)、多人协作平台、 应急流程SOP与执行完整度、标准化溯源报告模板(IOC、时间线、资损)、AI Agent场景覆盖率(skill 成熟度)
  • 止损:止损场景playbook(场景覆盖率、有效率)、AI Agent成熟度(harness可用性)

常见问题

Q1:溯源过程中的常见问题与根因?
常被吐槽的点:溯源慢、溯源不清楚、溯源漏了。理想状态是结合目标,不断完善成熟的溯源平台与能力,在此发展的过程中,常见的问题与根因:
1)基建问题:数据问题、查的效率低、场景化playbook建设程度低、过于相信 AI不够 harness
2)视野问题:主R攻击视野本身不全、信息传递效率低、结论无交叉 review
3)执行问题:分工协作效率低、各个同学交互接口不明确(查询内容交叉)
4)等

关键异常点底线:ioc、行为动作、基线异常

Q2: AI 时代 如何高效溯源?
理想的协作方式:
1、输入风险源头,输出溯源排查项:人提供最原始的风险事件情报/告警,提供排查思路(溯源表),结合 AI 输出确认 整体排查项
2、人review 各个风险排查项的关键SQL:查询条件、预期的结果、确认有 demo 数据、再进一步扩散。一步一步 harness扩展,不要:给我查一下 xx 有没有风险就结束。
3、人检查每一步AI 的关键结论,各个结论需要有完整的数据证据,支持一键跳转查看原始数据(支持一键重查)
4、结合风险场景,不断扩展新的思路,重复执行2和3。
5、按照标准溯源模板,遵循金字塔原理,输出完整溯源报告。

关键点:覆盖全的查询数据集、准确高效的查询SQL、清晰可 review 的结论表(diff 情况)

整体感受:

1、各家公司的基建、数据基本都不相同,因此AI 时代的溯源建设似乎只能各自为政,甲方很难有一套标准的解决方案产品来 cover AI的溯源场景。
2、溯源+止损永远也做不完,形成标准的 SOP,通过持续的运营来完善这个 SOP 迭代各自的能力,大概就可以交卷。
3、上述只讨论了 有情报,有线索的情况,但甲方常常面临模糊线索的问题,这就是另一个话题了,在此不再展开。