2022-08-19 10:49

掀开隐私计算的神秘面纱

1.5万
“有两个百万富翁,虚荣心作祟,想比比谁更有钱,但又不想让对方知道自己到底拥有多少财富。那么如何在不借助第三方的情况下,证明谁更有钱呢?”

这个著名的“百万富翁问题”,是1982年图灵奖首位华人科学家,中科院院士姚期智,在其论文《Protocols for Secure Computations》中提出的。

随后,多方安全计算(MPC)横空出世,作为早期的著名密码学分支技术,后与联邦学习、可信执行环境等技术集合并称为隐私计算。

虽然姚院士已成为隐私计算领域的灵魂人物,但我国真正进入隐私计算元年的时间却相对较晚,直到2018年,随着技术的不断进步和场景的丰富,隐私计算才真正地被互联网大厂、通信运营商、金融机构、大数据公司等巨头进行深入探索。

2020年前后,隐私计算赛道吸引了更多优秀的初创公司加入,至此,隐私计算终于走进了大众视野。

可经过这两年的发展,这项技术却越发神秘了,大多数情况是只闻其名,不见其身的状态,那些使用了隐私计算的政府、金融机构闭口不谈,技术这种东西又很难可视化呈现。那么究竟什么是隐私计算?这项“神秘的技术”在我们的生活中又扮演着什么样的角色呢?


01 什么是隐私计算?

我们还是先举个例子吧。

一种新药的研发或一个复杂病症的攻坚,需要建立在很多临床数据、研究数据、实验数据的基础之上,可能会涉及到医院、实验室、化验室、卫健委等多个机构/部门。

这些机构之间,就像一个一个并不相连的小岛,彼此拥有属于自己的数据资产,但是想要让这些“资产”流动起来,并不容易。

首先,不想传。2020年,中共中央国务院首次将数据作为第五类生产要素,可见数据的重要性,机构当然更明白数据的价值,纷纷将其作为重要资产看待,想要与别人分享自家资产,这并不符合商业的本质。

其次,不敢传。数据在流通过程中被盗取、被泄露、被攻击,都是肉眼可见的直接隐患,暂且不论数据的权属究竟是归于机构还是消费者,就单单数据泄露后引发的一系列安全问题,就已经触犯了法律的红线,因此,数据安全,机构才安全。

但是从社会效益角度来看,共享数据,促进数据间的交互,是推动社会进步、生活质量提升的必然进程。那么,就像“百万富翁问题”一样,如何在不依赖第三方的情况下,实现数据的安全流通呢?

姚院士提出的“多方安全计算”就是多个数据提供方在不直接共享数据本身的情况下,进行联合计算以得到计算结果,在这一过程中,数据所有权和数据使用权实现分离。但多方安全计算技术开销大,需要付出很大的性能为代价,并需要针对特定场景定制化专用协议,复杂度相对较高。

寻找安全高效的隐私计算方式从未停止,2010年7月,Global Platform正式提出了可信执行环境(TEE)的概念。即在硬件中为敏感数据单独分配一块隔离的内存,所有敏感数据的计算均在这块内存中进行,并且除了经过授权的接口外,硬件中的其他部分不能访问这块隔离的内存中的信息,以此来实现敏感数据的隐私计算。

可信执行环境属于硬件技术,这就要求技术厂商足够安全可信,但目前主流的硬件技术都掌握在英特尔、高通等国外企业手中,国内硬件研发仍处于起步阶段,目前来看,TEE在我国的发展还有很长一段路要走,现阶段并不是最适合我国的隐私计算解决方案。

直到2016年,联邦学习技术诞生,这是一种分布式机器学习架构,底层融合了多种机器算法和算子,比如多方安全计算、差分隐私等。其特点就是数据不出库,无需进行数据交换的前提下,实现模型训练,由于数据就在本地,并没有拿出去跟别人交换,所以更大程度地保证了数据的安全性。目前来说,联邦学习符合国内的市场需求和情况,所以很多公司的研发方向都在朝着联邦学习进行。

除了以上三种隐私计算技术外,差分隐私、同态加密、零知识证明都正在技术探索的道路上加大马力。

“数据可用不可见”是隐私计算领域的口号,我们通过计算过的数据,最终得到结果、结论,但是我们始终不知道究竟是哪些数据得出的结果,也从另一方面奠定了隐私计算的“神秘性”。

如果细究这类技术,真的是完全脱离了第三方吗?其实并不是,提供隐私计算技术的服务方严格意义上也属于第三方的范畴。

因此技术服务方的安全可信,成为我们强调的重点,我国提出要加强核心技术的自主可控,也正是出于此目的。


02 隐私计算的发展概况


国外的隐私计算企业布局早于中国,较于国内企业侧重于隐私计算平台框架的集成创新,国外企业在隐私计算技术领域的布局更加全面,下到底层算力安全芯片,上到隐私计算平台。如Intel SGX、TrustZone、AMD SEV等国外TEE技术方案经过多年的积累沉淀,目前相对成熟;微软、谷歌、Meta等大型科技企业分别在多方安全计算、联邦学习等领域持续探索多年。但是国外隐私计算在整体的商用实践较为局限,在面向企业的服务中,医疗行业是较为活跃的领域之一。此外,谷歌、Meta等大型科技企业在探索面向C端的隐私计算应用,还有部分企业将隐私计算应用于数字货币相关场景。

而隐私计算虽然在我国起步较晚,但在数据要素安全流通的市场需求和政策需求的推动下迎来发展契机,金融、政务、运营商等领域均在积极展开隐私计算基础平台建设,并逐渐开始在应用层展开场景实践。

在产业需求的推动下,隐私计算跨平台互联互通建设、国产芯片厂商对可信硬件的研发、软硬一体机产品创新等均在如火如荼地开展。基于此,技术服务商还在探索基于数据运营商业模式下的更大市场机会。

2021年中国隐私计算市场规模为4.9亿元,预计至2025年将达到145.1亿元,2030年达到800~900亿元;以银行为例,预计至2025年,国有商业银行、股份制银行、40%~50%的城市商业银行均将完成隐私计算的平台建设。

目前国内的技术方主要以金融科技企业和互联网企业为代表,相关进展情况如下表所示:

通过上表可知,国内企业隐私计算平台建设,基本基于多方安全计算和联邦学习计算技术,适配各种数据应用场景。重点布局金融场景,同时加速在政府、教育、营销、医疗等应用的探索。同时,为了进一步加速隐私计算行业的发展,并构建自身技术为主导的数据开放合作生态体系,百度、微众等企业纷纷开源自己的隐私计算平台技术。

与此同时,银行等金融机构也纷纷开展隐私计算领域的布局和建设。其中,平安集团旗下平安科技,自主研发了首个面向金融行业的商用隐私计算联邦学习平台“蜂巢”,并将其快速应用于保险业、证券业间的跨机构合作之中;浦发银行则与百度深度合作,共同探索分布式身份认证、可信计算、数据协作、合规积分等隐私计算领域相关技术和场景应用研究。

03 隐私计算+区块链


国内很多原生区块链公司也在开展隐私计算方向的研发,包括:和联共识、趣链科技、纸贵科技等。那么为什么区块链公司更愿意主动涉足隐私计算领域呢?

在零壹智库发布的报告中提到:区块链与隐私计算的结合是必然,二者互为刚需。

第一,隐私计算让区块链上的数据更安全。

区块链是一个分布式账本,数据存储在区块链上具备不易篡改、可追溯的特点,如果是单一维度的数据存储,可能隐私计算的作用并不大,但区块链的愿景,其实就是为了构建一个安全可信的数据网络,那么在多方参与的情况下,数据的多样性、复杂性就可见一斑,隐私计算在其中扮演着保护多方数据协作的重要使命。

第二,区块链让隐私计算的过程更可信。

隐私计算的目的是取代第三方的安全技术,然而隐私计算的技术服务方却很难摘掉第三方的帽子,如果在隐私计算的底层加上区块链,那么整个隐私计算的过程就全部上链了,而区块链能提供的就是透明的过程和可追溯的历史。如果“第三方”不得不存在,那可以做到更透明一点。

如今国内的隐私计算市场鱼龙混杂,技术的攻关和产品的研发在不断创新,但我们认为技术优势并不是取胜的关键,目前隐私计算最需要的是高质量的数据源以此来验证模型的准确性,以数据喂养算法,才是隐私计算得以落地的核心。

但高质量的数据源并不是一件简单的事,如今掌握数据的机构、单位、部门,都是具备行业甚至社会影响力的重量级“选手”,自愿参与,且能真正找到适合自己的落地场景还需要不断地进行市场教育和市场挖掘。

和联共识于2020年底开始布局隐私计算赛道,目前在联邦学习、区块链+隐私计算方向已经形成了初步的研究成果,未来将借助和联共识的优质合作伙伴优势,解决隐私计算技术落地难的问题。

本文链接:https://www.8btc.com/media/6772384
转载请注明文章出处

评论
登录 账号发表你的看法,还没有账号?立即免费 注册
下载
分享
收藏
阅读
评论
点赞
上一篇
下一篇