写点什么

安全大讲堂 | 孙朝晖:全量数据是一切网络安全分析的起点

  • 2022 年 3 月 21 日
  • 本文字数:1991 字

    阅读完需:约 7 分钟

安全大讲堂 | 孙朝晖:全量数据是一切网络安全分析的起点

随着产业数字化发展进入深入区,网络空间不断壮大,网络的边界也变得难以界定,站在网络的角度看安全,传统的安全分析有着怎样的短板与不足?未来大数据分析应该更注重哪方面的能力建设?


近日,腾讯安全云鼎实验室「安全大讲堂」邀请北京派网软件 CEO 孙朝晖,基于安全业务视角,深度剖析网络大数据分析的应用现状,探讨“网络大数据分析发展趋势”,为企业网络安全建设发展提供了前瞻性建议。


从网络的角度看,传统安全厂家、安全专家在研究流量时,更多集中在 HTTP、DNS、隧道协议、远程控制协议等常用网络协议上,但事实上,这些协议的流量在整个网络世界的占比约为 40%,只是网络流量的冰山一角。我们在进行网络分析的时候,更应该关注的是水下的部分,也即是现在业界比较热门的话题——“全流量”


在未来 10 年,可以说,全量数据是一切网络安全分析的起点,即分析设备或者分析引擎要切切实实关注全流量数据,每一帧,每一个会话,每一个数据包。


为什么强调“全流量”?这要从数据分析的两种建模方式说起,即已知中寻找异常和未知中排除正常。


所谓大隐隐于市,异常的通信内容隐蔽伪装在常用协议中,是很多恶意应用的常用手段。如果能对已经识别的协议,根据协议、目标去向、域名、URL、DNS 请求、用户身份、地理位置、UA 等元数据,建立数据仓库,再根据它们的波动、差分、排序等统计规律寻找异常变化,最后对锁定的异常变化会话数据进行深度的原始数据分析,就可以找到很多问题的答案。


这便是已知中寻找异常,也是安全厂商及安全解决方案中常用的方式,如 IDS 告警、WAF 告警等都属于这一建模方式的应用。


而未知中排除正常,在现有的安全解决方案中相对比较少见,因为特别多的网络流量会被各种识别引擎剔除出来,在未知中寻找正常,需要排除这些已知的应用对安全的干扰。通常情况下,被识别引擎确定为未知的协议数据有三种:小众协议、已知协议数据的漏识别以及广泛使用的非正常协议。


利用同目标其他识别结果的交叉校验,我们可以排除大量已知协议数据的漏识别,再结合交叉地理位置、使用频度等情况,剩余的小众协议和广泛使用的非正常协议就会快速地浮出水面。在我看来,这和零信任在本质上有相似的逻辑,在未知中排除正常时,应该和零信任的概念相结合。


以网络安全行业较为关注的典型 IDC 流量模型为例,一般我们认为,IDC 正常的业务场景应该是业务流向从外到内,下行远远小于上行。



在进行虚拟货币排查的时候,一般有两个判断思路。


第一种是从威胁情报中获悉,也是常用的技术手段。各个威胁情报厂商都有相对丰富的矿机样本,用户在使用时,只需要在安全设备上开启该功能进行检测即可。


第二种则是使用流量识别的方式,也是我前面提及的,从全量数据出发进行分析。本质上说,虚拟货币的识别并不需要外挂很多安全检测产品来实现,通用型的网络设备即可解决该问题,用户只需借助现有网络设备的精准应用识别能力,针对虚拟货币等异常流量进行甄别和记录。在我看来,这就是典型的已知中寻找异常的应用场景。


如果两个 IDC 之间搭建了一个隐蔽的通信隧道,如何进行安全分析?


同样地,也有两种方法:行为分析法和目的筛选法。


行为分析法的线索非常简单,隐蔽的隧道通常会去往国外未知协议,且经常会使用已知协议伪造固定域名。按照 URL 日志检索未知流量的日志,可以发现大量访问固定域名的 URL 记录,通过 nslookup 进行查询,可以发现其域名为伪造域名,这就是典型的利用 v2ray 软件搭建的 FQ 通道。


FQ 的最终目的是访问国外的一些服务器,或者与国外进行大量交互,从这点出发,可以直接按照流量流向的 TOP 目标进行筛查。这就是目的筛选法,和行为分析法一样,都是典型的在未知中排除正常的应用场景。


我们在日常排查中也曾发现类似的事情:逐一按会话日志筛查与这些目的 IP 交互的会话信息,发现与***.***.76.236 频繁交互的 IP 为***.***.26.20,二者端口号都是 18888,且其中大多会话均与国外交互,交互的协议多为未知流量。我们继续按此逻辑逐一排查 TOP 目标 IP,发现大多均与***.***.26.20 有交互,因此可以判断,***.***.26.20 非常可能是一个 FQ 节点,在众多未知流量中被发现的非正常流量。




回到最开始的话题,网络安全分析的未来发展趋势,我认为,至少未来 3~4 年内,我们还应该更多地关注统计中间表的建立,比如 ICMP、DNS、NTP 等。这些能够概括网络基本属性的统计中间表,都属于多样式的确定性规则,因此,人工智能在网络大数据识别处理上的应用助力非常有限。

而且在我看来,在网络流量、大数据分析对安全协助的层面上,只有一个办法,即通过日常的统计规律来完成对流量的识别,借助人工智能来提高检出率的想法并不是太现实。不过在域名、URI 和 FLOW 三个方向上,人工智能还是拥有较大的发挥空间。


以上是本次「安全大讲堂」特邀讲师北京派网软件 CEO 孙朝晖的分享精华整理。下一期将为大家带来中国信通院云大所云计算部副主任陈屹力的分享精华整理——《未来云原生安全能力建设将强调体系化的安全防护》,敬请留意关注。


用户头像

还未添加个人签名 2020.07.20 加入

还未添加个人简介

评论

发布
暂无评论
安全大讲堂 | 孙朝晖:全量数据是一切网络安全分析的起点_数据分析_腾讯安全云鼎实验室_InfoQ写作平台