大数据给信息安全“惹祸”的同时,也潜在巨额价值
吴丰恒
[如果现有大数据能够被利用,将至少带来3万亿美元的收益。当入网连接增至“千亿”,其产生的网络价值将有可能是现在的百倍以上。对于业界而言,迫切需要找到安全、规范的大数据使用方式,开发其红利]
“如果担心被发现,最好不要去做这件事。”谷歌公司高管这样回答关于防止隐私泄露的询问。
在《第一财经日报》记者参加的2014年中国计算机大会(CNCC2014)上,来自科研院所、安全厂商的资深安全专家纷纷聚焦“信息安全”,不过,没有专家能确保“绝对”的“信息安全”。
“过去,隐私保护的研究主要在小数据集上,模糊化、匿名化、加密和密码保护都是防止隐私泄露的常用技术。现在大规模数据采集技术、新型存储技术、高级分析技术,都使得隐私保护面临巨大挑战。”中国人民大学信息学院教授孟小峰在上述论坛上表示。
传统手段已失效
我国IMT2020(5G)推进组预测,到2020年,全球移动终端(不含物联网设备)将超过100亿,2020年全球移动数据流量将比 2010年增长200倍。到2030年,“万物互联”的时代全面到来,全球物联网连接数将达到1000亿,移动数据流量将比2010年增长近2万倍。
过去两年,全球积累的数据量就已经超过了以往人类所有历史的总和,让过去基于小数据集的隐私保护技术难以应付。
“大数据的广度带来了多元技术的融合,使得传统的模糊化技术、匿名技术几乎无法生效,大数据的深度带来了实时分析,使得传统加密和密码技术遇到巨大的瓶颈。”孟小峰说。
孟小峰举例说,移动轨迹通常蕴含着丰富的个人敏感信息,例如家庭住址和行为模式,而在每150万条个人移动轨迹数据中,在不依赖外部背景知识前提下,只要随机给出2个时空数据点,就可以甄别出50%的个人移动轨迹。随机给出4个数据点,被甄别出的几率可达到95%。基因数据中隐藏着个人疾病情况,根据美国一项研究,对20万名志愿者基因信息进行匿名化处理,然而通过把志愿者的匿名数据和美国公众选民信息融合,可甄别率达到了84%~87%。
设备、应用爆炸式增长的当下,用户也很难察觉自己何时、何地泄露了何种信息。
360首席隐私官谭晓生表示,在新的技术环境下,网络的边界已变得模糊,“一切都可能成为被攻击对象。”
“很不幸,昨天我听说360安全服务器也被攻破,对搞安全的人来说,这一点都不奇怪。今年我们实现了对特斯拉的破解,公布的是开了车门、开了车厢,没有告诉大家的是,我们把引擎‘打着了’,车是可以开走的。我们把漏洞通报给了特斯拉,他们的人当天下午就飞回了总部。”谭晓生说。
“万物互联,它的脆弱性是怎么引进的?能不能彻底解决?如果不能彻底解决,能不能有减弱它的办法?很遗憾,这是由我们当下计算机体系结构的脆弱性造成的,我们只能想办法让它发生得少一点,或者发生了危害会小一点。”谭晓生说。
新技术和立法
大数据带来信息安全问题的同时,也潜在着巨大的经济价值。根据麦肯锡的分析,如果现有大数据能够被利用,将至少带来3万亿美元的收益。当入网连接增至“千亿”,其产生的网络价值将有可能是现在的百倍以上。对于业界而言,迫切需要找到安全、规范的大数据使用方式,开发其红利。
“互联网带来的红利是让信息流动更便捷,信息变得对称。当我们试图采用加密技术、隔离技术保障安全的时候,这和互联网本质是违背的,所以国内数据防泄露几乎走不下去。”谭晓生说。
谭晓生介绍,360希望促使技术人员报告漏洞,“不要害怕去报漏洞,公开漏洞是逼迫开发者把漏洞去掉。”另外,谭晓生也认为需要提升基本安全能力,“已知的大量漏洞是因为程序员不懂安全,现在电路板设计基本没有防止非法调试,45分钟破解22种设备,就是在电路板串口上调试,知道漏洞后就开始窜改。”
在孟小峰看来,大数据时代的安全理论应该有相应变革,“从过去建立在被动保护基础上的理论体系,演变成具有主动保护模式的隐私管理框架。而不能出现了什么泄露问题,有了矛再去构建盾。”
中国工程院院士邬江兴认为,建筑在图灵可计算理论、冯诺依曼结构上的计算机体系,在功耗、效能、安全等多方面都面临瓶颈。邬江兴提出拟态计算、拟态安全理论,通过系统结构创新来改进现有计算机体系,“把动态性、随机性、多样性导入计算机,增量改造芯片、操作系统、软硬件,构建拟态芯片、操作系统、防御体系。”
除了技术上的创新,在一些专家看来,国家亟须对大数据利用加以立法规范。北京邮电大学互联网治理与法律研究中心主任李欲晓认为,在信息网络环境下,个人信息及隐私等都具有了财产属性,以营利为目的的企业可能会对存储于云端的隐私等信息进行商业化利用,造成用户的隐私泄露。国家应将个人信息保护纳入国家战略资源的保护和规划范畴,制定相关行业标准,并通过立法防范侵权行为。