当前位置:首页 > 新闻 > 正文

从图灵机到态势感知——物联网安全的智能模式

发布时间: 2019-02-25 16:30   作者: 丛磊   来源: 人工智能杂志

  物联网设备距离人们的生活很近,有可能是贴身的,甚至是在身体内部的。而工业物联网中,物联网设备多部署在生产网中,直接影响、控制着生产环境。因此,物联网设备一旦出现安全问题,带来的影响绝不是简单的用户体验下降,而是可能导致重大的经济损失,甚至造成生命危险。而安全问题是典型的识别问题,利用AI算法实现的物联网安全“黑盒”态势感知,避免了陷入到具体的安全技术细节,充分强调了采集数据和行为分析的重要性,正成为目前安全领域的新趋势。

  一、AI的局限性

  企业客户经常会问:“我打算买一个AI系统,它是真的用AI实现的吗?”想要回答这个问题,就要回到AI的源头——被誉为“人工智能之父”的阿兰·图灵。这位神一般的人物为后人留下了两个最重要遗产——图灵测试和图灵机。图灵测试是一个相当难以通过的测试。按图灵测试的标准,市面上几乎所有产品都无法被称为AI,因为它们在本质上都无法在长时间内和人一样形成有智慧的交互。但如果换一个思路,比如对于图像识别,让一个AI和真人在幕布后一起识别男女的图片,那么人们有可能在短时间内不容易分清哪个是AI,哪个是人。于是也可以说,很多应用其实都具有一定的AI成分。而图灵机则给人们描绘了一个现代计算机的蓝图。这个计算机的最大优势在于无限的指令运算能力和无限的存储能力,即无限的算力。利用这个算力,人们可以从复杂的数学模型中最终逼近并给出最优解。

  然而,无限的算力并不等于无限的能力。算力的应用是有前提的。这个前提就是一个问题可以被“穷举”并且具备“收敛”条件。从纯理论上讲,所有的问题都可以被穷举。因为人们生活的世界按照现有的物理体系来说是不连续的,最终是由一个个夸克组成的。从实际问题上看,不仅仅类似无人驾驶、象棋、围棋的这种问题可以被穷举,甚至所有的NPC问题以及一些更复杂的文学问题也可以被穷举。以2018年的全国高考作文“绿水青山图”为例,假设高考作文的字数要求在2000字以内,《新华字典》的汉字数量在3000个左右,那么理论上,遍历30002000次就可以得到所有的作文可能,再加上必要的剪枝(如常用标点、不可能的前后词组合、主题筛选等)算法,配上未来的量子计算机,也许在未来,人们是有可能完成这个遍历的。但是收敛条件并不是在所有问题中都存在的。在NPC的推销员问题和棋类问题中还是比较容易找到一个收敛条件的,但是对于类似高考命题作文这种场景,则很难给计算机提供一个“什么是好作文”的评价体系。(即使未来可以通过更强大的深度学习使计算机具备判断好作文的某种“感觉”,但这种“感觉”的来源和人类的思维也是截然不同的。)

  因此,可以得出这样的结论:现阶段的AI适合于可以给出收敛条件的问题场景(比如识别男女图片,识别色情文字等),而不适合于无法给出收敛条件的问题场景(比如高考作文“绿水青山图”、“读《三国演义》对当代社会的启发”等)。而在很多时候,具备收敛条件的问题可以等同于识别问题,无法给出收敛条件的问题可以等同于理解问题。所以也可以说,目前的AI适合于简单的识别问题,而不适合于复杂的理解问题。

  二、AI与安全

  既然AI在目前阶段还有很大的局限性,那么AI适合于安全问题的场景吗?很幸运,答案是:适合。因为安全问题就是典型的识别问题。当拿到一个用户或机器的行为时,通过分析最终得到的结果无外乎是两种:安全的或者不安全的。对于答案如此清晰的问题,理所当然可以利用监督学习标注大量的安全样本以作为训练集,进而训练得到合适的模型,最终进行识别判断。但是不同于常用的文本、图像、视频识别场景,在安全领域中样本的标注成本很高。

  图1所展示的是一个著名的物联网病毒的流量抓包。该病毒可以通过Telnet暴力破解、登录物联网设备端口。一旦登录成功,病毒会自动隐藏自身进程并迅速发起流量攻击。这种威胁的样本分析和标注必须是专业的安全人员才能做。这个门槛要远比男女头像的标注要高很多。

  样本标注是很多企业要把AI与安全相结合的过程中遇到的最大困难。要想突破这个困难,就必须依靠AI中的无监督学习和半监督学习。无监督学习无需样本标注,只需要行为达到足够的规模,就可以通过离群分析等算法自动识别出异常行为。而半监督学习可以通过对于样本的有限标注,通过梯度下降算法逐步逼近最优解,从而达到类似于海量标注的准确率。因此,在安全领域中,无监督学习和半监督学习是未来更适合的方向。

  三、物联网安全的“白盒”与“黑盒”

  物联网安全(即IoT安全)是安全领域中的一个新领域。物联网不同于传统互联网或者移动互联网,它的终端并不是人,而是机器。这导致相当多的传统安全识别手段失效。比如设备指纹技术,一般的设备指纹是通过分析端的鼠标、键盘甚至传感器位置偏移等信息判断是否是真人,进而断定是否是威胁行为。而在物联网中,所有的端都是机器,都不会具有人为操作的设备指纹特征,这会使得这种技术完全失效。再比如威胁情报(Threat Intelligence),IP地址的识别是传统威胁情报的重要数据组成,但在未来IoT IPv6使用的情况下,原来的IPv4地址库就会不起作用,这使得基于威胁情报去进行威胁识别变得几乎不可行。

  很多原来的识别技术在物联网环境下不可用了,但是物联网的安全问题却比原来的互联网更加严重甚至更致命。首先,不同于互联网中HTTP系列协议一统天下,物联网中的协议更杂、更多。NB-IoT、蓝牙、ZigBee、NFC等协议都有很广的适用场景。其次,不同于互联网的终端数量,物联网的终端数量会多几十个数量级。这么多的终端从行为到脆弱性上会更复杂、更难以控制。最后,在传统互联网上,人们只是打打游戏、看看视频,这些应用和人们的身体以及人们的生活起居并没有太深的联系。而在工业中,互联网更集中在办公网而不是生产网。在物联网中,很多设备离人们的生活更近,有可能是贴身的,甚至在身体内部。而工业互联网中,物联网设备则更多是部署在生产网,直接影响、控制着生产环境。这些物联网设备一旦出现安全问题,其带来的影响绝不是简单的用户体验下降,而是可能导致重大的经济损失,甚至造成生命危险。

  IoT面临的安全问题大体上可以分成三类:

  第一类,端的安全,也就是设备端的安全。其中包括从最底层的硬件到固件再到上层软件服务的安全,也包括账号安全和端上数据本身的隐私保护问题。比较常见的问题包括因为密钥存储方式不当甚至连基本的一机一密都保障不了,导致用户账号被黑客轻松获取;也包括因为本地开启了一些服务,从而被黑客通过“后门”轻松地进行远程控制。

  第二类,协议的安全,主要是指从设备到网关再到云端的所有通讯协议的安全。比较常见的问题包括协议的破解和欺骗,比如GSM短信劫持、DNS欺骗、协议重放攻击,等等。协议上的漏洞可以使黑客的攻击轻松得手,后续进行进一步的犯罪。

  第三类,云端的安全,也就是服务端的安全。这部分的内容和传统的互联网安全比较像。传统互联网会遇到的问题,物联网也同样都会遇到,包括暴力破解以及针对云端API的DDoS攻击等。

  那么,如何保证IoT的安全呢?这里面有两个思路:第一个是“白盒”安全,第二个是“黑盒”安全。

  “白盒”安全

  “白盒”安全指的是,在完全了解物联网设备的前提下(比如掌握源代码,掌握实现机理,掌握协议逻辑等),通过强大的安全团队的各种测试、渗透、自检等方式,发现IoT设备的隐患并保证其安全。“白盒”安全一般都是物联网设备厂商自己做,前提是他们拥有一个自身强大的安全团队,然后从芯片、固件、代码、设计、数据存储、协议等方面进行各种各样的测试和改造,最终保证IoT的安全。“白盒”安全之所以被称为“白盒”,是因为将IoT看成是自己的白盒,里面没有任何秘密可言,这样人们就可以充分地发现里面存在的安全隐患,并采用相应的技术进行防护。比如对于手机的GPS欺骗,已知在Android上可以使用Xposed通过Hook Function(钩子函数)修改GPS结果,那么在做业务逻辑的时候,就可以使用相应的移动基站定位进行防伪。如果移动基站定位和GPS定位相去甚远,就可以认为该手机是一种恶意行为。这就是典型的“白盒”安全,即完全了解作恶的行为逻辑并针对这个行为做出技术上的防御。

  “白盒”安全也有很大的局限性,其最大的缺点就是对企业客户自身的要求很高,要求企业有很强的技术能力。这背后其实是要求企业有一支专业的安全技术团队,了解黑产圈,了解他们的利益链条和攻击手段,并最终做出适当的防御。然而,并不是所有的企业都具备这样的能力,尤其是中小型的物联网厂商。因此,现在有一种叫“黑盒”安全的理念渐渐流行起来。

  “黑盒”安全

  “黑盒”安全指的是,不用了解物联网设备的内在原理,而是通过观察外在表现以及一些算法的建模,就能发现异常的IoT资产。举一个最简单的例子,比如某个智能电视的系统因为某些漏洞(比如Telnet漏洞)导致被植入了挖矿木马,那么其在外在表现上一定会存在着和正常电视不一样的情况(如CPU消耗,对外的连接数和连接目的地址,对外的请求流量,对内的IOPS指标和内存消耗等)。如果可以对这些数据进行建模,那么就可以很轻松地发现这台被黑的智能电视。在整个过程中,不需要了解智能电视的代码和内在逻辑,也不需要通过专业的安全人员挖掘智能电视的潜在安全隐患,就可以在第一时间发现问题。这就是“黑盒”安全。

  “黑盒”安全比“白盒”安全的适用性更强,因为其不再重点依赖于专业的安全人员,而是需要强大的AI分析和数据建模能力,通过算法比对发现隐患和问题,最终保障安全。相比于“白盒”安全,“黑盒”安全还有一个最重要的优势——从在实际企业应用的过程中发现,“黑盒”安全往往可以发现未知问题。因为“白盒”安全是通过专业安全人员的技术经验完成的,但再强大的技术经验也只能发现已知问题,无法发现人经验覆盖不到的领域。这正是“白盒”安全的局限性。比如在前面“白盒”安全中所举的GPS伪造的例子里,假如黑客有一种技术可以伪造基站的地理位置,那么之前所说的防御手段就失效了。但对于“黑盒”安全而言,无论怎样伪造,只要这台手机的外在行为和实际地域覆盖范围不符,就仍然会露出马脚,进而被算法捕捉到。

  “黑盒”安全的技术实际上也是“态势感知”的一种体现。通过采集实时的IoT表象数据,再通过AI算法,将其中的问题点捕捉到,这本身就是“态势感知”的重要部分。

  以上内容精选于《人工智能》杂志第八期

  本文作者

  丛 磊

  白山合伙人兼技术副总裁,拥有超过15年的一线互联网公司技术开发经验。2006年至2016年在新浪任技术总监,主导研发了国内第一个PaaS云计算平台SAE。2016年加入白山,主导新产品方向的研发,于2017年推出国内首个基于无监督学习的SIEM安全系统ATD。拥有多项算法发明专利,同时担任可信云评委。

  欲阅读完整文章,可通过以下方式购买《人工智能》杂志!

  订阅2019年《人工智能》杂志6期共计360元

  银行转账:北京赛迪出版传媒有限公司

  开户行及账号:中国建设银行股份有限公司北京紫竹桥支行11050170560000000152

  银行转账,请备注:人工智能

  接收详细信息请发到:aiview@ccidmedia.com;或是添加客服微信:13601092749

收藏