写点什么

爱奇艺 SOAR 探索与实践

发布于: 2021 年 01 月 09 日
爱奇艺SOAR探索与实践

安全团队注重威胁检测,往往购买了各种安全设备,同时自研安全产品,试图通过增加检测功能,追求更小的 MTTD(平均威胁检测时间),以及更大的威胁检出率。但面对外部日新月异的攻击手法,频频爆出的高危漏洞,不断增加的安全服务,企业安全运营面临巨大的压力,一方面出现安全人力不足,另一方面,对安全运营的专业能力要求过高。这个时候,急需一个系统来提升安全运营的标准化和自动化水平。


SOAR 提出了通过事件智能分析、事件编排、安全工具整合的方式,加快事件的快速预警和响应,从“人到安全工具”交互转变为“机器到安全工具”交互,应急响应转换为持续自动化响应,从而降低人工成本、降低 MTTR、提高安全运营生产力。近来 SOAR 产品备受关注,目前国内比较知名的厂商有雾帜智能,绿盟,盛华安,360 等,阿里云-云安全中心也上线了 SOAR 相关功能,如自动化溯源等。国外有 Rapid7/Splunk 也很早在 SOAR 领域开始了布局。


SOAR 作为安全编排与自动化,情报和事件响应平台融合的新兴安全解决方案,可以帮助企业在有限的人力下,处置更多的威胁,降低 MTTR(平均威胁处置时间)。爱奇艺内部引入 SOAR 之后,通过开发安全组件拉通各个安全服务,一方面安全剧本自动化执行降低了人工运营的压力,另一方面,MTTR(平均威胁处置时间)也降低 75%左右。


笔者总结了爱奇艺内部 SOAR 实践的一些经验,欢迎各位读者一起探讨交流。


SOAR 架构

下图是爱奇艺 SOAR 系统的整体架构,其中,核心的组件有:工作流引擎、图形编排组件、安全组件和剧本、IM 机器人和小程序。



调度引擎

目前市面上开源的工作流引擎不少,如 Flowable,Oozie 等。经过综合评估,我们选用 StackStorm 作为底层的编排调度引擎。业内如 Netflix 公司也使用了 StackStorm 作为监控自动化处置的底层引擎。


StackStorm 采用模块化的架构,由多个松耦合的能水平扩展的服务组成,这些服务之间通过消息总线(message bug)进行通信,提供 Web UI,CLI 以及完整的 REST API。


StackStorm 的优势:

  • 工作流引擎可使用 yaml 编排,方便运营人员编写,及二次集成开发;


  • 支持 webhook 触发器及 Sensor,支持 python,方便安全服务集成;


  • 支持条件语条,fork/join 等,满足安全工作流基本需求;


StackStorm 工作流程:

  • Sensor 感应并触发事件;


  • Rules Engine 对事件进行规则匹配,如果匹配,产生任务;


  • Worker 执行任务,一般是调用到外部系统;


  • StackStorm 记录审计任务执行的细节;


  • 任务执行结果返回给 Rules Engine 进行进一步处理。


图形编排


Walkoff 优势:有良好的拖放工作流编辑器



安全剧本/安全组件

安全组件对应 Stackstorm 的 action,使用 python 对现有安全服务的接口进行包装后集成。安全剧本对应 Stackstorm 的 workflow,并尽可能地复用现有的安全组件,提高开发效率。目前我们的组件和剧本对接了 gitlab,方便版本存储及回滚,实现标准的 SOP。



落地场景

对于 SOAR,我们主要在两大安全场景落地使用。一种是高频场景,主要是日常运维,安全等级一般较低,但重复程度较高;另一种是低频场景,主要是高危安全事件响应,紧急程度较高,需要快速响应。


高频场景

1.场景示例:  漏洞单自动验证,由扫描器发现的漏洞,业务处理后标记"已修复"的,自动完成验证,关闭或重新打开工单;


3.评估指标: 节省人力时间(人/天)。


统计指标如下图所示:



低频场景

1.场景示例: 服务入侵自动溯源调查;高危漏洞通报(如 Struts,Fastjson)自动关联威胁情报;主机 jar 包/代码 jar 包进行通报整改响应;

2.安全价值: 实现无人值守,快速、标准化、自动化应急响应,减少安全损失;

3.评价指标: 流程处置时间 MTTR(平均威胁响应时间)。


以高危 jar 包漏洞通报为例,通常这类漏洞危害较大,且在短时间内推动所有业务完全修复较为困难。我们通过 SOAR 及相关资产清点,优先处置对外及重点业务的高危 jar 包,保证企业相关业务安全。


ROADMAP

当前进展

  • 实现了安全组件、安全剧本的代码编排以及图形化编排, 实现标准化的事件调查及响应流程,并有效缩短了 MTTR。


运行效果如图  (部分内部敏感组件已隐藏)



  • 针对移动端开发了对应小程序及群聊机器人,方便安全人员在移动端可以通过公司内部聊天软件实现 ChatOPS 及快速安全应急响应。群聊机器人,方便安全人员进行 ChatOps。


  • 完成移动端小程序开发,方便安全人员远程处置安全事件。



评价指标包含以下三类:

  • 编排能力指标: 实现了 35 个安全组件,11 个安全剧本,17 个安全服务联动;


  • 自动化能力指标:  评估每个安全剧本执行次数及人工触发执行次数;


  • 能效指标: 目前包含自动化确认及协助调查节省的时间。


部分运营指标如下图所示:

未来目标

短期目标:

  • 支持更多 SOAR 组件,连接更多服务,保证组件复用率;


  • 形成案件库及知识库,以便支持后续的智能分析预警,沉淀安全人员的处置经验;


  • 更准确丰富度量指标,数据驱动决策。


长期愿景:

  • 通过安全编排自动化,提高事件响应和安全运营效率,并从根本上遏制和消除安全威胁。


参考


  • 傅奎: 争分夺秒——基于 SOAR 的应急响应加速解决方案

  • 安全运营持续优化之路—— 基于 ATT&CK+SOAR 的运营实践

  • CyberSky-SOAR 安全编排自动化与响应系统

  • https://github.com/nsacyber/WALKOFF

  • Workflow Processing Engine Overview 2018: Airflow vs Azkaban vs Conductor vs Oozie vs Amazon Step Functions

  • Introducing Winston — Event driven Diagnostic and Remediation Platform

  • 自动化响应技术如何提升事件响应效率 SOAR,为 SOC 插上一对隐形翅膀


原文链接:爱奇艺SOAR探索与实践


用户头像

科技赋能娱乐,“码”出快乐生活 2020.02.13 加入

爱奇艺技术产品团队秉持高效、开放、创新的理念,分享前沿技术,传达爱奇艺生态理念及技术进展。

评论

发布
暂无评论
爱奇艺SOAR探索与实践