主讲
大数据智能的研究与应用进展
非常感谢贵阳市组织的这次高峰论坛,这次峰会也感谢中关村大数据产业联盟临时接洽我这次到贵阳来,给大家做一个报告。我看在座的有很多做这个领域做的非常深的研究工作,还有实践工作。今天的这个题目是“全域无线免费Wifi和块数据下的产业创新发展”。“万物互联”就是Wifi跟物联网是关联在一起的,我的报告没有针对Wifi对城市的感知做分析,而是在互联网的大情况下它所产生的价值,主要是大数据的智能。
数据来源于我们现在看的是三元世界,三元空间。一个是网络空间,一个是物理世界。人类社会交互和信息空间,物理世界通过无限的传感穿戴式设备,通过人机,脑机的界面形成一个新的空间,DATANATN,数据界。数据的价值就是我们昨天到分论坛谈论了很多,我们可以用数据做导航,可以用数据做预测,可以用数据做决策。我们把数据分成三个方面,各方面的应用分为三类,一个是对现状的感知,一个叫未来预测,一个叫预测与调控。我们做大数据战略分析的时候更多的是决策与调控方面的考虑。我就快速的跟大家讲一讲,对于感知性,包括我们对城市环境的检测在微观层面上对特定事件的检测,包括对大量数据分析做一些科学的发展。预测未来的话,包括我们对城市交通,污染,以及对重大突发事件的预测,决策调控在我们知道未来可能发生的情况下,可能发生某种状况的情况下,我们有什么办法可以让世界、让状态按照我们期望的方式发展。基于大数据的决策与调控这里面包括金融以及其他方面的应用。
关于数据方面,我们刚才讲了更多的空间来源,主要从计算讲有四个问题:一个是数据自身网络化存在所导致的数据的特性;比如网络化数据传播的正发性和关联的抑制性和多样性,它的特性导致我们对这个数据的度量和计算存在困难,就是数据复杂性。由于在网络空间里面存在结构和在线、离线的数据互相关联,存在新的计算复杂性问题。在数据处理方面从感知到传输到存储再到计算如何设计、系统结构和系统架构、我们叫系统复杂化。我们最后把数据存起来干什么用,我们刚才说对现在的感知和对未来的决策调控,在数据里面发现规律!对数据进行预测,实际上就是学习和判定复杂性问题,尤其在网络空间大数据,挑战问题从数据成层面,判断层面存在着思维复杂性。我们最终目的是从数据到知识,从知识到智慧型的决策,从数据如何形成智慧,这是我们今天的主题就是“数据智能”。大数据智能跟脑智能有什么区别?我们人做的事情只要让机器会读、会看、会听、会写、会说。大数据智能实际上能够从大量的、散乱的、无规则的数据里面发现一些规律,发现一些现象,能够预测做特定的状况,特定的情况做调控。这里最大的区别就是涌现性,数据是涌现出来的。可能你一开始并不知道,我们举一个简单的例子:蚁群效应。蜜蜂群体行动所产生的群体智慧,个体看上去很单一,很弱小,但是群体有大智慧。而数据智能通过数据碰撞最后形成智慧的决策。大数据智能跟前者有相关性,独特性,它的核心在于涌现性。大数据目标是希望通过对个体智能分析和判定能够形成所谓群体智能的分析和计算。这叫大数据的智能,核心在大数据表达、度量和涌现方面。我们讲人肉搜索,群体智慧在这方面的众包方式都是体现大数据智能的计算方式。人,可以是一个单元,一个小的方面就是大数据的一步。最后叫群体智慧;如何实现群体智慧,如何实现大数据智能。要解决三个问题:第一个,我们刚才提到的大数据里面的复杂性叫“数据复杂性”,“系统复杂性”;我们要解决这三个复杂性,在大数据杂乱无章的里面尽量解决度量,解决群体抑制大数据,规模大的时候,就是一种新的解决方法,复杂性要解决如何涌现的数据。关于大数据的精简表达与度量,抑制数据,网络传感数据,数据的分布抑制,结构复杂,还有表达的尺度是多样的,大数据在网络空间大数据所存在的特点,这就是“挑战性”问题。要解决这个“挑战性”问题就是在传统数据表达方面有很多工作,复杂性理论,数据度量,以及尺度如何计算,是我们面临比较难的问题。这里面从统计角度,从结构的角度,从抽象的角度表达。
第二个在大数据复杂计算性方面,传统的算法主要是解决函数的问题。我们希望在变量和参量之间要求它的模型:一个函数,或者一个计算的方法。我们认为一个方法,一个问题可解,是一个多项式就是可解的。在数据规模小的时候我们更多寻求算法的问题,在数据规模大的时候,在数据似乎无边界的数据,无穷大的时候,那个时候我们线性复杂的问题都无法用传统的模型求解。这种情况下要从数据上做文章。我们最近几年在做973的时候,在做从数据的角度提高数据计算,降低数据计算复杂性问题。传统的更多的是从方向性方面,多项算法解决这个问题。在大数据情况下,这个数据规模非常巨大,要从三个层面去解决:第一就是简约计算,一个大的空间是一个全量数据。我们真正计算的时候希望能找到核数据,随着数据规模变大的时候,它是相对稳定的,这样就可以找到计算方法;第二叫分步式计算,我们用把数据做“化整为零”这样的方式实现计算的简约,它要解决数据横向的问题,怎么把数据结构做组合,一个简单的矩类问题做切割之后结果并不是一致的。算法模型上如何一致性问题就是我们要解决的问题;第三就是增量式计算,大数据很多,我们怎么样在全量依赖的基础上解决这个增量计算。
第三个挑战是大数据涌现挑战。数据的涌现激励是什么,数据架构怎么支撑以及涌现的过程是不是可度量、可重现。从技能模式有很多传统的方法,包括商业职能以及相关的工作。我们现在解决了三个方面就是涌现度量、交互的个体和群体,形成它的相变点求解的问题。我们提的方法通过预测模型构建一个环路。我们前面讲的大数据,智能的问题,数据的表达,计算和涌现机制的发现。我们其实在这几年我们也在这方面做的研究工作。
下面我举一个具体的例子:第一关于数据表达方面的。我们讲文本数据表达方面,我们在一个大的网络里面短信、微信、评论和论坛等各种数据,其实是大的种类是短文本数据。短文本数据往往信息比较确实,往往是口语话的语言,相互距离长的问题。由于大规模系数导致计算的复杂性加大,我们提出一个办法:不去计算这个词的出现,而去找这种表达特征之间的共性关系。原来是按“点”做计算,我们现在按“边”做计算,通过按“边”我们发现这个精准度提高20%左右。短文本对短信比如对我们微信,或者微博数据做分析的时候它的精度可以得到大规模提升。第二就是关系度量,就是人的影响力的问题。对人的影响度量,一个人B的影响对C的影响,传统的办法是要对每个用户之间的人极影响,这个结果是非常大的。如果11个人都在社交网络里面进行交互,我们把每个人的影响力算出来,最后求综合影响力,这个计算复杂性非常高。这一个人对每个人的影响力的时候,只是看其他人对他有什么可接受性,我们叫每个用户的影响力,我们现在只需要算每个点之间对特定用户的影响是什么样子的。 如果求两两影响现在提高了很多倍,这是一方面。另外一个是举一个关系网络里面的数据。如果我们求两个人,这两个人是不是兴趣相似、这两个人是不是关系亲密、或者找两个网页之间是不是相关。谷歌里面讲是不是内容相关,这是一种办法,还有这两个互相有连接,这两个有连接他们有相关。如果找两个人是不是很相关,往往在这两个人是不是很相似,他们是不是都很关心大数据,是不是都很关心古典音乐或者某一个明星。另外看他们两个人有没有互动,有没有互粉、互相评价,如果互相评价就是有相关。这两个网页是不是像刚才说的是两个纬度,第一是他们兴趣是不是相关,第二他们是不是有产生交互,关系。这两个纬度视角的东西,在一个空间里面到底谁重要,谁不重要,如何让这两个纬度的东西最后在一个度量里面。什么意思呢,我们原来的搜索里面把不同纬度的东西放在一个模型里面做参数学习。我们提出一个新的办法,就是把数据相关、内容相关放在一个空间里面进行度量,内容相关跟连接相关很难在一个物理的空间,我们这里的极坐标空间可以用一个空间进行度量,这个度量很有意思,有一套理论。可以把研究工作大量引入我们度量方法。
还有在计算方面我们的研究工作。一个在排序方面,我们知道无论信息检索,还是产品推荐,还是用户推荐方面,它是确定数据问题的,你查询某个关键字是什么,是否匹配的问题。我们要找到最前面相关的问题,现有的问题是你把最后的结果统一排序叫全量排序,这个数据量非常大。数据检索的时候能够搜到一千或者一万个结果的时候,往往用户只看前面100个,如果只对前面100做排序可以大大减少计算复杂度,同时标注复杂性。用局部的结论求解全局的结果。从平方降到线性复杂度。最后影响最大化,我们讲在信息传播或者产品推荐,我们在大规模的社交网络里面,你能不能用最短的时间,最小代价把你的信息最大规模扩散出去?我们现在找中央的媒体往外扩散,可是我们知道这个有偏向性,中央媒体会使民众的产生逆反心理。最有影响力的是谁?可能是国家主席。不见得他们讲的话是老百姓最爱听的。有时候草根的力量是非常大的。我们在一个复杂关联的社交里面不仅仅要找到大微的问题,要找到有效的结点,找到最小的覆盖,能够把你的影响最大扩散出去,我们叫影响力量一最大化。影响力最大化实际上用现在的传统的做法来讲,它是一个组合优化的问题。我们知道组合优化问题如果精确求解基本不现实,你在一个社交网络里面有一个用户,你在最短的时间内把你的产品扩散到所有群体里面,精确求解是无法求解的,我们通过这个算法可以用时间证明,用快一千倍的办法尽快把我们的消息扩散的东西扩散出去。
另外还有群体智能,群体形成智慧的判定。关于功劳的分配问题,我们知道最后的效益的分配,功劳分配这是最基本的问题。比如公司股权的分配,在团队合作里面工作绩效的考核,因为大家是一个合作关系,到底谁的贡献大。往往我们传统的分配方法就是比比谁的贡献大,还有一种方式方法权威,比如或多或少往往是我们找一个评委会评。这些的话,所有的评我们要找到权威来评或者找一个领导来评,这些权威是公正的,这些权威的信息是客观科学合理的。我们知道每个人、每个权威都是有一个片面性跟局部性,我们如何用更客观的办法对所谓的权益和权力进行分配。这是社会基本问题,这个基本问题我们做研究的人写文章,我们写文章的时候,看谁的文章贡献最大,我们放在具体的案子下面看:比如诺贝尔奖,我们知道诺贝尔奖,我们现在知道一个文章有上千个作者,如果这篇文章出来影响力非常大的时候,到底谁的贡献大。这个文章获得诺贝尔奖,不是一千个人都拿,那到底谁拿,比如爱因斯坦他一年写5篇文章,5篇文章都可以拿诺贝尔奖,那就是他一个人拿这个奖。现在第一作者真的重要吗?最后一个才是思想理论者,我们给的所谓群体判定方法,就是说A层面上这篇文章两个作者,这个文章获得诺贝尔奖,这个文章被其他人关注和引用,我们用被引用强度判断每个作者的功劳比例。这是2014年的7月份这个发布的方法,这个对100年诺贝尔化学奖,物理奖,经济学奖判断率是86%,这个红的是我们判定正确的作者,每个圈表示一个作者,每一篇文章是底下具体的文章。有时第一个作者获奖,有时候最后一个作者获奖,有时候中间作者获奖。专家评判有专家自己的专业知识也有他的误差,我们做这个评判的时候完全根据它的方法。根据作者自身在写作影响力的评价。我们准确率86%,传统的预测准确率在30%,我们极大的提高了这个判断力。也是通过群体的作用进行决策和判定的问题,另外还有流行度,流行度也是一种在大规模网络上的相互关系,通过一些有效的办法,直接建模关注度来解决。我们对微博,对论坛,哪一篇文章十年内被引用得最多,这个准确率也是86%。我们刚才说的是用网络化的数据,然后做预测的问题,做数据的度量问题,做一些计算比如排序,推荐,去做这样方法的优化,大规模的算法的优化问题。我们形成相关的系统,比如大数据的平台系统和对数据的存储管理,尤其这类的关系数据。最后我们还有一个我们自己提供的一套大数据的分析引擎。你可以在分布式存储情况下,提供自适应的框架,这一点对结构化进行有效的处理和分析,这是互联网网络方面大数据检测的应用,包括多源头的信息,这是大量群体,数据的关系。这是我们自己构建大规模的知识平台,叫大规模知识网平台。
我们认为网络也罢,大数据也罢存在三个科技问题,我们今天讲的数据智能里面一个是数据复杂性,计算复杂性和系统复杂性,系统复杂性体现在涌现复杂性,计算复杂性体现在计算模式,变换尺度变换空间去度量。大数据智能更多是涌现复杂,最后应用到系统方面,包括交通,环境,医疗,金融,医疗里面群体的医疗诊断问题,实际上最后我们形成相关的系统,包括数据的存储,数据分布式计算和分析和开放式的计算网络。我的报告就到这里,谢谢大家。