打破数据困境的思路,正如蜜蜂采蜜归巢。
人工智能中的数据困境
距离我第一次听到大数据已经将近10年时间。大数据发展到今天,实际上是因为有移动互联网,包括云计算的驱动,推动数据海量发展,也推动了我们目前以深度学习技术为核心的这一波人工智能的浪潮。
从2019年开始,我们常常会遇到一些人工智能难以落地的难题,或者在应用上没有普适性,或者产品在通用性不够等问题,这些问题是伴随着这一波AI技术的革命、革新逐步暴露出来的。
数据作为核心的资产,无法共享时,会形成一个个数据孤岛,阻碍AI落地。各行各业实际上都存在数据壁垒,如何来突破这一块,让AI生态能够更好的发展,是现在所有的AI人想解决的问题。
对于数据来说,第一个问题是数据孤岛,第二个问题是对于数据的隐私保护。全球都在对数据使用做出各种各样的限制,对于一些隐私数据的使用规范,已经有了很明确的法律层面的界定。实际上这也是数据资产化的一种趋势。
我们国家一直以来都非常重视数据安全、网络安全。近年来相继出台了《网络安全法》等各种各样的信息保护法,我所从事的金融行业,像金融标准委员会等,也对数据有相关规定。
未来的趋势是,法律会越来越严。趋严之后,大家对数据的使用也会越来越规范。
我从事的金融行业,在做AI模型的过程中,有很多数据合作的需求。因为,模型本身从冷启动开始的时候就需要一些数据,对于这些数据需要关心它的来源是什么?它的安全性是什么?它是否能够让我能够合法合规地使用?
如果数据不安全、不合规,我相信没人公司愿意在这样的大环境下铤而走险去使用。
在目前法律趋严的情况下,大家对数据使用方面也是需要特别地小心。去年,国家层面对爬虫进行过一波整治。实际上,爬虫存在很明显地在没有经过用户允许的情况下滥用数据的行为,这是国家严令禁止的。
2020年4月9日,国务院在构建要素市场化配置机制的意见当中,首次把数据和土地、劳动力、资本、技术等作为要素,明确提出来,就加强数据整合、安全保护,制定出这样一个数据隐私的制度。
我觉得培养对数据隐私保护,及合法合规使用数据的意识,是非常重要的,希望大家能够重视起来。
接下来,我会从传统AI技术模式出发分析一些瓶颈或者限制出现的原因。
实际上,传统的AI技术必须从海量的数据中学习或者挖掘一些相关的特征,利用数学理论,去拟合一个数学模型,找到输入和输出的对应关系,比如深度学习中训练网络的权重和偏置,模型效果与数据量级、质量、以及数据的真实性等有着密切的关系。
对企业的限制
科技头部公司有着成熟的技术和产品,数据渠道和来源较为广泛。
而对小型或初创公司来说,与数据信息具有强依赖关系的技术模式,使其不能突破数据瓶颈,无法实现商业化落地。另外,传统的数据合作方式,仍存在周期冗长、流程繁琐等问题。
对个人的限制
这一技术模式使个人几乎无法参与到AI产品的迭代中,用户不能从他们的设备、位置等方面收集个人数据来完成功能优化。
怎样打破数据的困境?如何在保护隐私的情况下,让个人端和商业端共赢,实现全行业共同的增益?
我尝试给出一个答案——联邦智能,这是我经过长时间思考和多次改版提出来的理念体系。
联邦智能以联邦学习为龙头、为核心,依据联邦数据部落,依托隐私的联邦推理,以联邦激励机制为纽带所形成的一整个AI新生态或者新常态。
解决之道:联邦智能重塑数据生态
这里展示的是联邦智能的架构关系图,其构成部分包括:联邦学习、联邦推理、联邦数据部落,以及贯穿于整个框架体系中的联邦激励机制。
首先,我将对联邦数据部落做下简要介绍。在大数据时代,业界存在诸多与数据存储相关的表现形式,如:数据库、数据云等等。
那么我们在这里为什么会提出数据部落?实际上,每个数据可以定义为单位个体,它们之间相互独立,但又信息相通,具有合作的关联属性,因此我们将这些数据单元的集合,称之为数据部落。
在部落中,既有来自各行各业的数据,又有来自各种端部的数据。
我们的初衷,是希望部落之间能够达成数据不出本地的一种合作机制。大家能够把自己的数据贡献出来,共同去完成建模过程。
在这一过程中,大致会包含数据过滤、数据对齐,以及一些特征信息的聚合等内容。在联邦学习这一联合建模的过程中,机器学习、深度学习均有参与,不过就目前来讲,还仍未出现一个“All in One”的解决方案。
我们联邦数据部落中的数据信息,通过联邦学习,最终会形成联邦模型,而这一模型会反哺各行各业,包括:智慧金融、智慧城市、智慧医疗等各种场景。
实际上,我们的联邦模型还能提供联邦推理这一服务应用。其中,联邦推理是基于加密方式完成推理计算的,这一过程无需上传任何相关设备存储的明文数据,或者是个人隐私数据,从而保证了数据的安全和隐私性。
整个系统会融入有联邦激励机制。我们设计激励机制的初衷,是希望这一机制能够保证各联合方既能作为贡献者,又能成为受益人,以此激励在这一生态中的合伙人可以做好促进联邦智能生态往繁荣方向发展。
关于联邦激励机制的相关工作,我们将在后面展开介绍。
实际上,联邦学习是一种加密的分布式机器学习技术。传统的分布式机器学习技术在数据分布上是一致的,但在联邦学习中所表现的是数据独立且分布不同。
在联邦学习过程中,会考虑很多的底层技术,如多显卡加速计算的线程分配、参数交换机制等,这里面我们就需要着重考虑基于加密方式的隐私保护问题。
如上图“联邦学习系统”所示,它本质上是基于本地数据的本地训练,云端会发布相应的初始模型,并联合各方由本地发起训练,共同完成模型构建过程。
联邦学习机制是允许跨行业的,同时可以跨B端和C端。
目前来看,国内B端市场对联邦学习表现有非常强烈的需求意向,特别像金融行业,由于国家对金融数据有着严格管控,使得联邦学习在智能金融场景的应用会比其他行业更为前沿。
联邦学习的优势主要包括以下四点:
1、数据本地化使得数据本身不会泄露到外部,能够完全满足用户隐私保护的需求。
2、从算力上我们可以做好边端的计算下沉。特别在5g时代来临后,限制参数交换速度的网络瓶颈会被逐步打破,从而更好地加速联合训练。
3、在联合建模过程当中,可以实时进行基于加密机制下的参数交换,实现原始数据不泄露,这种无数据直接交互和传输方式也符合政策与法律法规要求。
4、我们可以确保参与各方的身份和地位是相同的。通过设计的激励机制,使得大家有益于参与联合训练过程,从而更好地维护联邦智能生态。另外,联邦学习将更有利于数据相对弱势的一方,并最终实现共同增益。
我们提到的联邦数据部落,是要把每一个数据孤岛部落化,以此纳入联邦合作的体系中来。
对于整个数据部落来说,例如IOT数据、医疗数据、个人手机数据以及各个行业数据,这些原始数据实际上是互不相通的,没有任何数据流转通道。
其中,我们会对各方间的数据获取渠道进行加锁设置。当数据合作方加入到部落中后,实际上存在一些工作,具体表现为如下三点:
1、首先我会提供一些相关的标准化工具,在原始不交换的基础上,对来自个人或企业终端的本地数据进行预处理,比如针对缺失数据、重复数据、偏离数据的数据清洗、数据降噪、数据降噪等工作。
实际上,我们的目标是在大家达成协议的基础上,能够选择联合终端中高质量的数据进行去中心化的本地训练。
2、为了使用与某项业务场景相关的数据,我们需要做出特征标记与筛选。
因此,“联邦数据部落”会对训练数据进行特征化处理,包括:数据分类、特征标记、数据聚合等方式,使其有针对性的发起训练。
3、我们会对联邦数据部落中的数据进行质量评估,这也是形成联邦激励机制评价指标的重要步骤。
联邦数据部落依据数据量级、数据有效性、数据信息密度、数据真实性等评价指标,对参与联邦学习训练的数据进行质量评估。同时也起到了数据监测与评估量化的作用。
在联邦推理中,我们希望模型在应用环节也能起到保护数据隐私的作用。
联邦激励机制是一个综合性的闭环学习机制,实际上我们也融入宏观经济、管理范畴的一些概念。在我们的联邦智能生态中,它所表征的是对贡献度与收益的评估机制。
在数据资产化的背景下,联邦企业所贡献的数据量级如果足够大,且质量好,会直接为联合模型带来效果增益,而这一效果提升也会映射到参与联邦的本地模型上,并为企业带来实际的价值与收益。我们会以此量化这一过程中涉及的贡献度。
同时我们发现,在这一良性激励的带动下会吸引更多的人来更新生态,最终形成贡献与收益的动态平衡,这也是联邦激励机制的整个闭环过程。
在联邦激励机制下,支付对象包括联邦数据部落与联邦结算中心。在联邦数据部落中,一部分成员即是数据贡献者,也有应用需求,可以说既是生产者,也是消费者。
而另一部分成员,只会提供数据支持,如大数据公司。在联邦结算中心中,流向它的我们称为用户支付。
这一支付评估额维度是依据联邦部落数据的本身价值,包括现有贡献价值和未来价值,以及联邦启动的初始资金和联邦后的实际效益,同时其中也会包含一些梯度定价策略。
另一方面,从联邦结算中心流出的是激励支付,它会依据各联邦成员的数据量级、数据质量以及数据成本进行激励性结算支付。
在这一闭环的流转下,我们将希望吸引更多的人参与到联邦激励中,同时大家也可以从中获得收益。
联邦智能的应用实践
整个平台里面,因为本身平安集团现在也是一个综合性的集团,蜂巢能够提供智慧金融、智慧城市、智慧医疗商用级的一站式解决方案,希望能够激活数据价值。这是我们整个平台的使命。
联邦智能未来还有很多路要走
互动问答精选
更多HKSAIR及行业资讯,敬请关注香港人工智能与机器人学会公众号
长按识别二维码,关注我们