[新闻] 聚焦2024数博会|蓝象智联徐敏深剖AI大模型发展过程的数据安全挑战| 数博会官网

聚焦2024数博会|蓝象智联徐敏深剖AI大模型发展过程的数据安全挑战

作者: 蓝象智联    来源: 蓝象智联   编辑: 和璟祎  时间:2024-09-02 16:27:51  

  8月29日,2024中国国际大数据产业博览会“数据安全产业发展”交流活动举行。本次活动以“深化数据安全实践,促进数据价值挖掘”为主题,由国家数据局指导,贵州大数据安全工程研究中心主办。

1725265801195.png

  蓝象智联CEO徐敏受邀出席本次论坛,与数据安全领域的顶尖专家学者及知名企业代表深度探讨AI大模型发展过程的数据安全挑战。

1725265900742.png

  以下是徐敏观点论述:

  1、AI大模型的发展现状与未来走向

  人工智能发展的几个核心要素是:算法、算力、数据、场景,这几个核心因素彼此协同作用,来推动人工智能的发展。过去几年中大模型算法的进展,则是一次从量变到质变的过程,大模型时代中算法、算力、数据、场景的合力模式和业务效果和之前相比,都是数量级的提升。

  所以大模型的发展现状和趋势分析,可以从算法、算力、数据、场景这四个要素综合来看,这四个要素彼此促进、也彼此限制。

  算法方面GPT-4、SORA等大模型技术的发展正在进入一个加速发展期,我们相信就像当年美之间军备竞赛,我们期待未来是百花齐放的,可以涌现出众多超级新星,但短期之内可能还是少量高手间的神仙打架,其他人在默默地学习和追赶。

  算力方面大家除了要关注GPU这些核心芯片的进化,同时也要关注网络、系统架构、能耗等多个方面的技术,例如我们之前的数据交换网卡是面向大数据量数据交换包、但每个数据包的数据量都不大的应用模式设计的,那现在在大模型的训练和推理阶段,网络交换机的工作模式是数据包总量不大、但数据包的数据量很大的传输模式;再比如,GPU因为比较贵、也在不断进化中,那不同GPU混合部署情况下的性能如何提效、降耗能,也都是很值得优化。当然这些后面也都是蕴含商机,特别是国家在提算力网整体布局的大环境下。

  数据是AI大模型的生产资料,大模型的语料需求目前通过互联网数据、企事业单位和政府公共数据、打标或合成数据等模式在提供高质量数据供给。

  最后是场景,和前面三个因素相比,中国场景方面的活跃度最高,大家都在探索大模型应用场景,也有不少创业公司已经吃到大模型场景的第一杯羹。目前的探索大家在2C领域相对比较多,但受限于当前的投资环境,所以明星应用还不太多;2B领域大模型场景也非常多,但要解决的问题也很多,例如如何和现有大B系统架构如何无缝集成、以及更重要的是敏感数据的保护、以及大模型结果的准确性和精度的保证等。

  最后,我们可以根据中国IT技术的发展路径来探讨中国的AI大模型的发展模式。十几年前我们的IT技术高度依赖于国外的一些技术,就像IOE,但随着互联网的发展,大量的场景倒逼着中国互联网公司自研技术的进化,并最终成功地在大量场景下替代或超越了之前传统技术的能力。可能在AI大模型的发展中,初期是技术催生场景,但发展一段时间后,一定会出现场景倒逼技术进步的现象,而且场景和数据对算法和算力等技术方面的推动作用,会远远大于今天的想象。

  2、AI大模型发展中数据安全问题的表现与应对

  首先是数据泄露风险,AI大模型需要大量的数据进行训练,这些数据可能包含敏感的个人信息。如果数据在收集、存储或使用过程中没有得到适当保护,可能导致隐私泄露。另外,也有可能通过推理攻击(InferenceAttack)从模型中恢复出训练数据。

  第二是偏见和歧视,模型可能会学习到数据中存在的偏见,进而放大社会上的不公平现象。

  第三个是模型越狱,通过某些方法绕过或打破AI模型中原本设定的限制或安全措施,从而使模型表现出不合规或者不合法的行为。例如我的一些高校师兄弟们发现大模型对输入的命令有很严格的限制,但对大模型产出的结论作为二次命令输入时,就可以绕开安全限制。

  另外,还有数据投毒攻击,通过在训练数据中注入恶意数据,攻击者可以操纵AI模型的输出,从而达到破坏系统或执行恶意行为的目的。

  那么应对的方式,例如在大模型的训练和推理过程中使用各种隐私保护技术的组合,例如差分隐私、同态加密、联邦学习(FederatedLearning)等技术来保护训练数据的隐私。当然这也是蓝象智联我们公司最核心的能力,我们自己也正在做隐私计算和大模型的结合方面的工作。

  其他的方向,数据中毒防御措施:通过数据验证、对抗训练和提升模型鲁棒性来防范数据中毒攻击。

  另外像大模型出来结果是否精准,不进行所谓的胡说八道,也有一些办法去处理,我有个老师在做这个方向的研究,类似于人类的测谎仪,当撒谎时,会出现脉搏心跳异常、出汗等身体反应,大模型也是类似,举个例子,要出来一个结果可能内部有15步推导,他们提过白盒的方式解析了一下,如果出来的是一个正确的答案,那过程中15步推导每一步的结果概率都是很稳定、而且很高,例如98%或者100%;但如果出来的是一个胡说八道的结果,他们发现过程中15步中,有很多步的推导中的结果概率是较低的,而且各步之间的结果概率也非常不稳定,有高有低。这个发现后面工具化开发后,就可以来辅助做结果精确性的判断。

  其他的,还需要通过法律法规和伦理审查等方式来确保大模型技术发展的正向价值。

  3.AI大模型发展语境下的数据安全生态治理建言

  大模型首先是一个复杂系统,复杂系统的治理必然不是简单的事情,幻想通过一招鲜的方式去达到效果是不现实的。

  我们可以对照互联网行业的生态治理,这里面有国家政策、法律法规的顶层设计、有在互联网数据流通渠道上的监控、有对互联网平台的治理要求以及互联网平台的自治措施、还有最后一公里中用户的参与,响应的从行政处理到公安司法介入的手段,而且这一系列动作底层也有相应的不断进化的技术能力的支持。

  大模型的数据安全生态治理的复杂性不亚于互联网行业的生态治理,可以参照互联网行业生态治理的成熟经验,例如制度法规标准为引导、学术、技术和产业平台协同合作。同时大模型又是一个新兴技术,我们当前的治理能力肯定是落后于技术发展的速度的,在这种情况下,通过沙箱或者受限环境下的试点应用积累经验,逐步完善和进化,不能一下子全放开、也不能一棍子全打死,这也是一个平衡的艺术,管的目的最终还是用。就像一个小朋友在长大成人的过程中,一定会经历青春逆反期,接受他的不完美,来帮助他变得更完美。