澎湃Logo
下载客户端

登录

  • +1

对话蚂蚁集团副总裁韦韬:如何让数据流通从主体信任走向技术信任

澎湃新闻记者 吴天一
2023-07-07 09:17
来源:澎湃新闻
未来2% >
字号

·企业以前可能会因为对方是信誉的主体而进行数据交易,但这种规模难以扩展,信任被破坏的风险也非常高。但未来,企业会趋向于因为对方使用了安全可信的技术而进行数据交易。

·天空计算作为伯克利大学RISE Lab提出的一种新的云计算架构,其目标是实现云之间的互操作性,让用户可以跨越不同的云厂商和服务,按需获取最优的计算资源和服务,是一个解决云计算异构互联相当好的思路。因此,数据对“密态”有要求,对“天空”也有要求,就诞生了密态天空计算。

我们所处的时代已经离不开数据,数据喂养诞生了大语言模型,也带来信息爆炸下的安全合规等问题。随着数字化转型的不断推进,作为生产要素的数据的重要性在各行各业不断显现。数据的交易与流转成了有效利用数据的重点,但目前仍存在诸多问题,如数据泄露、数据滥用等。

2022年12月发布的《中共中央 国务院关于构建数据基础制度更好发挥数据要素作用的意见》(“数据二十条”),为数据要素市场化带来了规范和指引。数据如何流通?怎么保障安全?仍是行业有待探索解决的问题。

2023世界人工智能大会“数据要素与隐私计算高峰论坛”期间,蚂蚁集团副总裁兼首席技术安全官韦韬对澎湃科技(www.thepaper.cn)表示,数据流转目前的诸多问题,很大一部分原因是技术造成的。目前,很多数据主体之间的交易流转源于主体信任,即基于互相之间的信任而产生,但“未来数据要交易、流通,需要转向基于技术信任的流转模式,数据密态是实现这种技术信任的必经之路。”

韦韬进一步指出,以前数据的流转、交易是以明文形式为主体来做的,拷贝成本非常低,容易造成二次分发级联失控。而加密后的数据,安全性能够产生实质性提升。可信隐私计算是实现数据密态的最有前景的技术之一,可以在数据持有权不失控的前提下,有效实现数据使用权的跨域管控,保障数据要素合法合规流转并有效产生产业价值。

目前的隐私计算行业还处于较早期的阶段,韦韬表示,“密态天空计算”或许是该行业发展的未来。

“密态天空计算”是指基于技术信任的数据跨云互联,提供数据的跨云密态流转和计算服务,其目标是允许基于数据密态的应用能跨多个云厂商运行。天空计算(Sky Computing)作为伯克利大学RISE Lab提出的一种新的云计算架构,其目标是实现云之间的互操作性,让用户可以跨越不同的云厂商和服务,按需获取最优的计算资源和服务。 “密态天空计算”是对跨云的“天空计算”更进一步的发展。

“数据需要安全性、隐私化,所以对密态计算有要求。”韦韬指出,“数据在交易流转的时候,不能限定在一家、两家,而是在全行业流通。这就需要异构互联来解决。”

“未来的数据一定是以密态方式流转”

澎湃科技:目前的数据市场为什么数据流通性较差?

韦韬:此前,数据的流转、数据的交易是以明文形式为主体来做的,而明文数据的持有和使用其实是失控的,在流转和交易时,容易导致二次分发和失控,一旦失控,就会导致数据“你有我有大家有”的状况,数据就失去了交易价值。因此第一代基于明文的数据交易模式没有取得成功。

数据要素未来的安全合规流转,首先面临的是确权的挑战。“数据二十条”在确权问题方面非常关键,帮助行业往前迈了一大步。搁置所有权争议,采用持有权、使用权和经营权三权分置的方式,非常有效地促进了数据要素的流通。

大家去年谈得最多的除了确权问题还有定价问题。在我看来,无论是协商定价,还是分润,数据一定要流通起来,这是前提。数据只要安全合规流通起来,数据要素就会帮着相关行业产生明显的价值收益,定价也会是水到渠成的事情。

澎湃科技:未来数据流通会如何发展?

韦韬:未来的数据流转正在从基于主体信任的模式转变为基于技术信任的模式。企业以前可能会因为对方是信誉的主体而进行数据交易,但这种规模难以扩展,信任被破坏的风险也非常高。但未来,企业会趋向于因为对方使用了安全可信的技术而进行数据交易,基于技术的信任体系才能支撑全行业数据要素广泛安全可控地流转。

未来的数据一定是以密态方式流转。蚂蚁集团在2021年12月正式提出了数据密态概念。密态方式流转的优势在于保障了数据资产的持有权,即明文数据或其等价物的持有权不会失控。而针对使用权,我们认为使用权需要跨域管控,就是指当数据要素作为一种要素,在主体之间流通时,即使它不在持有者的运维域内,持有者仍然能够对其使用进行有效管控。

这是一个全新的核心模式,既能保障数据资产的持有权不失控,又能实现使用权的跨域管控。在这种情况下,数据要素的经营才能得到保障,相关的提供方、加工处理方、运维方也能各自获得收益。

澎湃科技:数据流通发展中会遇到什么难题?

韦韬:首先第一个是安全合规问题,第二个是会用易用问题。

要保障数据流动的安全合规,第一要推动行业的安全合规,保障数据不滥用、不泄露。这方面行业有明确的指引,比如隐私计算会解决数据的可用不可见、可算不可识、可控可计量的问题。要推动行业建立通用安全分级。不同的技术体系应该建立统一的安全标准,不同的技术路线投入成本和安全性能有很大差异。如果没有一个指导性的规则,可能会导致行业倾向于选择性能好但安全性差的技术路线,给整个行业带来风险。

数据要素流动合规挑战的一个核心问题是匿名化。匿名化是涉及到个人信息相关的数据要素流动的一个前提。在开放空间中的高维关联环境下,绝对匿名化只能以个体颗粒度数据价值的绝对毁损为前提。所以如何在一个可信的安全受控环境中实现相对匿名化,是数据要素行业发展需要探索和实践的重要方向。

其次是会用易用问题。在技术角度,数据加密本身并不新鲜。伴随20多年的互联网发展,数据加密已经在金融支付、电子商务等场景下广泛应用。但这些数据加密大多停留在存储和传输阶段。一旦涉及“计算”,数据往往需要回到安全性弱、容易失控的明文状态。而“数据密态”的核心任务,就是要把加密延展到计算环节,意味着即使在运算期间,也不会出现明文数据。今天行业里广泛应用的隐私计算技术就是这样一种“数据密态”技术。

但今天隐私计算技术的会用易用问题对于中小企业来说,有非常高的门槛。中小企业缺乏隐私计算和数据密态相关人才,所以现在大部分都是交给隐私计算创业公司,这是很好的创业领域。但对于全行业来说,如果整个行业的发展都依赖于相对有限的专业人才的重人力投入的话,那么发展无疑会遇到严重的瓶颈。所以未来我们认为一定要赋能整个相关的数据ISV(Independent Software Vendors,独立软件开发商),让他们支撑住中小企业所需的隐私计算和数据要素密态领域的应用能力。而这个的关键是“密态计算即服务”(C2aaS,Cryptographic Computing as a Service),只有通过服务的方式提供密态计算能力,才能有效降低ISV和中小企业快速应用的技术门槛。

“如何在不公开数据的情况下使用数据?”

澎湃科技:数据密态是一个相当“硬核”的概念,如何通俗地解释?

韦韬:先说定义,在数据进入流转进行共享、计算直到销毁的完整传播链路中,保持数据处于加密状态不出现明文,将数据持有权与使用权分离,实现数据使用权的跨域管控,以确保数据流转的全程安全可控。

我先举一个例子来简单地解释隐私计算的概念,隐私计算是指在保护数据本身不对外泄露的前提下实现数据分析计算的一类信息技术。现在假设有ABC这3个人,在不能透露具体工资数额情况下,如何给3个人的工资求和呢?

其实非常简单,A把自己的工资数额拆成3个随机数之和,第一个自己留着,第二个随机数给B,第三个随机数给C;B也把自己的工资拆成3个随机数之和,以此类推……最后3个人手上都各自有3个随机数,先各自对自己手上的3个随机数求和,然后3人再共同把这3个“和值”再求和就是3个人工资总和。在这个过程中,所有人的工资数都转化为了随机密态因子流通,没有任何人的具体工资泄露。

完整的可信隐私计算的要求则更高。这个过程中,我们如何保证ABC这3个人中两个人不互相串通?获取其他随机数的过程中,如何保证没有暗箱操作?由谁来公证?这些就是可信隐私计算要解决的问题。

在技术上看,数据密态其实是密码学界一直希望达到的境界。在行业上看,数据密态也契合了未来数据持有权和使用权分离的发展趋势。

澎湃科技:蚂蚁提及密态天空计算是数据密态的未来,如何理解这一概念?

韦韬:密态天空计算是在数据密态的基础上更上一层楼。上述提到的工资求和问题中,数据密态解决了安全性问题,但只适用于小范围的,两方、三方的数据,那么ABC这3个人算工资的方法是否适用于其他数据的计算方式?当DEFG等更多人带着不同的计算方式参与进来该怎么办?成本、性价比问题如何解决?

上述提到的小型企业,通过专门的隐私计算公司在云端提供收费较低的C2aaS(cryptographic computing as a service,密态即服务)是一个解决方案。而不同公司提供的云服务之间又存在壁垒,这就涉及到了异构互联的问题,多方数据交易使用不同的加密方法,需要在保证安全性的前提下打通各方壁垒。天空计算(Sky Computing)作为伯克利大学RISE Lab提出的一种新的云计算架构,其目标是实现云之间的互操作性,让用户可以跨越不同的云厂商和服务,按需获取最优的计算资源和服务,是一个解决云计算异构互联相当好的思路。

因此,数据对“密态”有要求,对“天空”也有要求,就诞生了密态天空计算。

澎湃科技:目前数据要素市场的发展如何?数据密态技术发展如何?

韦韬:我们认为数据要素市场的发展可以分为3个阶段,也就是我们去年提出的密态三步项目:

第一阶段是计算密态化,即所做的计算都是基于明文数据集,通过密态计算得到密态结果,相当于直接从数据源到结果,这就是计算密态化。在这个过程中,主要是让行业感受到建立隐私计算的概念,确信数据“可用不可见,可控可计量”的安全是可以保证的。

第二阶段是大数据密态化,这是我们今天基本上处于的阶段,也是要真正把隐私计算深度应用起来,能够解决更复杂问题的阶段。它跟第一阶段有本质区别。大数据里面涉及到的数据处理、机器学习等都需要大量的中间结果。第二阶段中,这些中间结果也需要是纯密文的。所以这就对算法提出了更高的要求。这个阶段对于行业的主要挑战是要降低技术门槛,解决会用易用的问题。

第三阶段,即真正将这一技术投入使用的阶段。当我们真正会用以后,行业推广会面临使用成本问题,我们要根据情况来判断。在数据密态化方面,把成本降下来就一定要把规模扩大,尤其是把基础设施规模扩大,实现广泛普惠的互联互通。

澎湃科技:目前在隐私计算方面有何应用?

韦韬:隐私计算在金融风控、互联网营销场景有很多应用,对其他场景、比如医疗、能源、供应链等场景也有不少应用需求。

蚂蚁集团曾在去年7月宣布面向全球开发者正式开源可信隐私计算框架“隐语”,隐语第一次在业内提供多种不同隐私计算的技术路线,包括联邦学习、多方安全计算、可信执行环境等。这样能够较好地符合各种部署环境下不同的网络适配要求、不同安全的等级要求,支撑各种场景应用。

比如,蚂蚁基于自研“隐语技术栈”开发了金融级应用产品蚂蚁“风洞多方安全计算平台”。这项产品具备安全、高效、行业定制三大特点,可满足金融级全链路风控、大规模生产环境、精准决策等金融场景的三大高要求,同时可自主接入易用。借助这项产品,江苏某银行在信用风险管理方面已识别出超过11万名高风险客户,阻止了数十亿人民币的高风险贷款的发放。

此外,蚂蚁链为杭州国际数字交易中心提供底层技术支持,助力“杭数交”打造“3+1+N”数字交易平台。通过区块链和隐私计算技术解决数据共享与隐私保护之间的矛盾;通过安全风控和人工智能技术助力海量数据高效分类分级,确保数据安全可控。

这些产品都是对于数据要素密态流通、未来数据要素市场化发展中非常基础的技术设施,都是在搭建一个最比较底层的东西,相当于是整个数据流转的技术基础设施。

澎湃科技:成为一套技术基础设施的话,要解决哪些问题?

韦韬:第一步要解决技术信任基础设施的构建问题。然后根据不同的安全等级需求,提供不同层次的可信计算技术,比如单纯的可信计算(可信平台模块,TPM/TCM),或者是可信计算(TPM/TCM)与机密计算的结合,以及结合了TEE(可信执行环境)和密码学技术的可信密态计算(TECC)。

可信计算技术可以为技术信任基础设施提供良好的技术保障。目前有很多云计算服务,但不少云端缺乏可信支撑,用户对云服务的信任度,还主要取决于对云企业及其运维人员的信任。

如果云端能够提供符合国家标准的可信计算服务,并且通过可信技术验证其硬件软件是否满足预期,就可以在云端构建一个不依赖于运维人员信任的技术基础设施。如果有一个可信云或者可信云PaaS(Plantform as a service,平台即服务)的技术设施,摆脱以前的点对点模式,在这个技术设施上,我们就可以结合各种计算技术,构建可信密态数据节点。各个数据云平台计算的参与方,可以把自己的数据以密态计算因子的形式参与到这些数据节点的计算中,而且不丧失可控性。所以这需要推动可信技术基础设施的共建。

“不能既当‘球员’又当‘裁判’”

澎湃科技:数据密态的服务方是否会泄露数据?如何获得企业信任?

韦韬:相当于例子中的ABC使用共同的一套系统传输信息,且系统和传输过程全公开、有监控,政府和公众随时可以进行监管。

蚂蚁作为技术提供方,坚持开源的原则,并不断将算法开放给行业和社会,邀请大家共同审视我们的数据安全问题。同时,我们也邀请了清华、浙大等国内顶尖的研究机构来验证我们的算法安全性,并参与了行业标准的测评。我们保证测评所用的算法和实际使用的算法是完全一致的。当然,我们也尊重行业内其他技术方案的选择,有些创新可能需要闭源的方式进行。但闭源的方式也应该通过行业测评机构或者安全研究机构的认证。

技术角度上,大数据密态化是指各方将自己的明文数据转化为密态计算因子,在密态枢纽上进行数据计算,既不会泄露原始数据,又能够充分利用数据的价值。其安全性的保障并不取决于计算在哪个云上进行,而是取决于计算的节点是否可信,是否能够通过可信计算技术进行验证。

但与此同时,天下没有免费的午餐,数据密态,少则增加几十倍成本,多则几千倍成本。代价背后是非常复杂的密码学协议,比如在软件领域里面,可能错一个比特,整个安全性就丧失了。

澎湃科技:如何在数据密态的安全性和成本间获得平衡?

韦韬:国家对数据保护实行的是“分类分级”制度。每个行业都要根据国家制度和行业标准来确定分类分级原则,并对其进行安全保护和监管。

这就意味着我们要根据数据的价值和敏感性来权衡是否使用隐私计算。有些数据虽然需要交易,但并不是很重要,就不一定要用隐私计算。有些数据则是非常重要的,比如个人信息和国家重要数据。可信密态的技术可以把成本控制在行业普惠的水平,中高安全级的成本可以控制在十倍以内,能够很好的支持行业大规模使用的需求。

总体来看,历史的机遇、技术的变革,将数据流通推向了前所未有的高潮,也带来了更加严峻的数据安全挑战。数据流通密态化是未来趋势,隐私计算的方法体系、平台框架、技术标准都面临全新变革。同时,我们也呼吁更多的同行参与到数据密态技术设施建设工作当中,助力全行业数据流转,迈向“密态天空”。

    责任编辑:郑洁
    校对:刘威
    澎湃新闻报料:021-962866
    澎湃新闻,未经授权不得转载
    +1
    收藏
    我要举报

            扫码下载澎湃新闻客户端

            沪ICP备14003370号

            沪公网安备31010602000299号

            互联网新闻信息服务许可证:31120170006

            增值电信业务经营许可证:沪B2-2017116

            © 2014-2024 上海东方报业有限公司

            反馈