浅谈甲方基础安全建设 —— 应急响应之我见

背景

在当下的AI发展的黄金窗口期，非专业应急背景出身，临时支持了一个月的应急工作，就应急响应这一点与以往相比多了一些新的体会，记录下当下的思考，希望可以对类似的同学有一些帮助。不求覆盖全貌，按需展开。

写作时间：2026年6月10日 23:34:55
写作时长： 30min

核心结论

1、应急响应的本质与目标：在风险发生时，看清风险的本质，看清风险全貌（溯源），控制风险的进一步扩散（止损），属于 IPDRR 的 RR （response recover环节）。相对考验人的综合素质（视野、执行力、沟通协调能力、抗压能力、响应汇报能力）

2、业界应急衡量做的好和不好的指标： MTTD（detect）风险发生到感知到风险的时间、MTTR（recover）风险感知到风险恢复的时间。

3、实战派眼中，一家公司应急响应做的好不好，衡量成熟度的几个指标：

溯源：基础数据（数据覆盖度、数据字段完整度、数据ready 时间、数据存储时长、查询速度、平台关联能力）、标准化场景查询模板（覆盖度、召回率：用了 xx次/累计 xx 次）、多人协作平台、应急流程SOP与执行完整度、标准化溯源报告模板（IOC、时间线、资损）、AI Agent场景覆盖率（skill 成熟度）
止损：止损场景playbook（场景覆盖率、有效率）、AI Agent成熟度（harness可用性）

常见问题

Q1：溯源过程中的常见问题与根因？
常被吐槽的点：溯源慢、溯源不清楚、溯源漏了。理想状态是结合目标，不断完善成熟的溯源平台与能力，在此发展的过程中，常见的问题与根因：
1）基建问题：数据问题、查的效率低、场景化playbook建设程度低、过于相信 AI不够 harness
2）视野问题：主R攻击视野本身不全、信息传递效率低、结论无交叉 review
3）执行问题：分工协作效率低、各个同学交互接口不明确（查询内容交叉）
4）等

关键异常点底线：ioc、行为动作、基线异常

Q2: AI 时代如何高效溯源？
理想的协作方式：
1、输入风险源头，输出溯源排查项：人提供最原始的风险事件情报/告警，提供排查思路（溯源表），结合 AI 输出确认整体排查项
2、人review 各个风险排查项的关键SQL：查询条件、预期的结果、确认有 demo 数据、再进一步扩散。一步一步 harness扩展，不要：给我查一下 xx 有没有风险就结束。
3、人检查每一步AI 的关键结论，各个结论需要有完整的数据证据，支持一键跳转查看原始数据（支持一键重查）
4、结合风险场景，不断扩展新的思路，重复执行2和3。
5、按照标准溯源模板，遵循金字塔原理，输出完整溯源报告。

关键点：覆盖全的查询数据集、准确高效的查询SQL、清晰可 review 的结论表（diff 情况）

整体感受：

1、各家公司的基建、数据基本都不相同，因此AI 时代的溯源建设似乎只能各自为政，甲方很难有一套标准的解决方案产品来 cover AI的溯源场景。
2、溯源+止损永远也做不完，形成标准的 SOP，通过持续的运营来完善这个 SOP 迭代各自的能力，大概就可以交卷。
3、上述只讨论了有情报，有线索的情况，但甲方常常面临模糊线索的问题，这就是另一个话题了，在此不再展开。