嘉宾演讲| 数博会官网

主讲

 政府开放数据平台——开源,开放标准与开放数据

  大家下午好。我带了计时器,翟总讲得非常精彩,我也听得欲罢不能,但我要控制时间。前面浪潮讲的是政府开放标准以及开放数据,和数据商品化的关系在哪里?我特别要说,微软在云上面有应用商店、数据商店,比较了解什么是数据商品化。但是我要说的是,这几年,微软不断地往开源、开放的方向移动,不断往这个方向前进,开源、开放包含应用、包含数据,会是这个时代以及下个时代成长的发动期。刚刚我接受采访,他们问我:“你对数据商品化、数据开放有什么观念,有什么想法?”。政府的信息公开化和数据开放是一回事吗?不是。举一个简单的例子,引用我非常尊敬的郑博士的说法,政府的信息公开就像政府炒了一盘饭,公开给大家吃,大家可以加一点葱花之类的。但是数据公开是什么?数据公开是给你米,而不是一盘炒饭,要做把它成蛋炒饭、馒头或者其他的花样都可以,这才是数据公开,为什么呢?今天跟浪潮的武总说到政府开放数据平台的原因是中国政府是全世界最大的开放数据的拥有者。我们缴税,得到各种政府服务。但其实政府还有好大的金矿没有开放出来,就是数据,如果能够开放出来,国民经济、全民的知识的权利都会得到很大提升,而不是把饭炒好以后吃这个饭,这就是开放数据和所谓的政府信息公开是不一样的概念。

  政府开放数据,分寸在什么地方?我认为有三个,只要这个数据不牵涉到国家安全,不牵涉到个人隐私,不牵涉到商业机密部分,有适当的立法来保护数据使用、数据的引用、数据的公开,如果这个方面做好的话,可以引导国民经济生产力,我相信是不可限量的。为什么说这么多?政府开放数据,走开源、开放的道路,跟微软曾经走过的道路很接近,微软走了很多年,封闭、避源、商品化,但我们发现要把基础的原材料能够开放出来,其实参与开源与开放可以创造更多的经济价值,围绕开放技术,也就是我现在所做的技术,三年以前成立这样的公司,我们所做的就是在微软技术以及非微软技术之间搭建桥梁,把好的非微软技术引到微软的平台,把微软好的性能开源出去、开放出去。第一,我们所做的一个是在云计算上面,一个是在移动端,如手机、平板、电脑。在云和移动端之间所扭转的就是应用和数据,数据可以是商业数据,可以是开放数据,也可以是大数据。怎么做这些事情?我们通过开源的项目,开源的软件。第二,推动开放标准。第三,跟开源社区做非常紧密的合作。经过三年的努力,现在微软全心全意在走向开源。微软开放技术也达成了历史使命,从7月1号开始微软开放技术回归到微软。

  今天为什么先介绍微软的开放、开源?先把历史介绍一下,我们是有资格来说的。微软在开放性上面,以前说微软开放,在二十年前、三十年前,只要把源代码开放出去就是开放。现在很多的开源界的人还是这么想,只要开源出去就是开放,但我要告诉大家,这个已经过时了。在移动计算和云计算、大数据时代里面,开放不仅是开源,开放包含四个层面,第一,软件的开源是一个很重要的因素。第二,大家都跟随一个标准,而不是你开源我开源,大家彼此语言不相通,你谈你的我谈我的,开放的标准是开放的一个非常重要的指标。第三,互操作性。我举个例子大家比较容易理解,比如微软的云计算,在安卓的手机上的信息要推送就要通过百度,所以我们跟百度合作。跟新浪、微博作为个人身份认证、登陆很多服务时,就用微博、QQ,微软也跟它们合作。百度和新浪、腾讯,它们的源代码不是开放的,也不一定遵循业界的标准,这时候就需要公司跟公司之间彼此维持一个互操作性。所以开源、开放标准、互操作性兼并的话,可以说是开放。这几点加起来要说的就是这些东西都需要人来做,不管是政府、软件公司,还是程序员、企业,必须要人来做。那些人聚集在一起,这些社区有的做开源,有的推动开放标准,有的推动互操作性,这几个加起来,就是微软这十几年来所学到的,什么叫做开放。所以我铺垫了一大堆,微软真的爱开源,这不是随便说的,是经过筚路蓝缕,经过很多年的积淀厚积薄发。就是因为在移动的时代、云的时代、大数据时代,如果不走开放,不走开源,不走标准,不走互操作性,任何公司都没有办法在云的时代、在大数据的时代走远,包括微软。

  简单说一句,全球最大的开源项目网站——Hadoop,差不多几百万的开源项目,这些数据都是实时的。到2004年、2005年已经有1600个开源项目和开源社区合作。谈到大数据,其实2008年开始,我们就对大数据最原始的开源的项目贡献源代码。这显示一个结果,就是微软怎么样让开源在开放里面一路走下来。微软在全球、在中国也参与了很多标准互操作性的标准工作组。等一下提到一个标准——跟开放数据相关的标准,跟今天提的开放数据绝对有关联。谈了这么多,开放、开源、互操作性、标准等等,把它落地实践,在一个公有云上面,或者移动端上面。这里面在操作系统的层面,不管是Linux、Windows,或者是数据库、开发框架、语言等等,都是全面支持开源的软件。

  对微软在开放方面多年的投入,下一个我要讲的是开放的数据有三个部分,第一个是开源运动,可以从个人,也可以从政府开始,这不用多说。另外,开放的标准、数据标准有哪些?如果在国内能把标准沟通清楚,甚至互操作性沟通清楚,可以谈开放数据。后面谈一些实际建设的一些开放数据的平台,在全球有十几亿的用户。先讲个人,在座有没有很多人看过TED?T代表Technology,E代表Entertainment,D代表Design,就是技术、娱乐和设计,里面有个talk是关于统计和大数据的,里面有个大师特别有激情,拿一个超长的棒子在舞台上跳来跳去,各国政府提供的数据来做有趣的统计和分析,里面有东方的崛起,鼓励大家看,有中文字幕,非常好。这个图是中国和印度在2048年人均收入会达到美国今天的收入,更有趣的是日期都定出来了,是7月27日。我记得特别清楚,因为是我儿子的生日。那天为什么是2048年7月27日?因为是这位先生一百岁的诞辰,根据统计分析到2048年7月27日,中国和印度的收入可以达到差不多美国人的收入水平,这是一个统计的、大数据的狂热爱好者,对东方和发展中的地区也非常了解。这点有很多资料,大家可以上网去玩。原来中国在过去某一个人的健康状况、收入状况等等,趋势是怎么样的,大家可以自己看看。

  回到前面说的什么叫开放数据?它可以广泛地、便捷地让人和机器获取公开数据,跨越技术法律使用的鸿沟。刚刚几位专家提到,现在很多的政府开放数据,第一,政府跟部门之间有很多鸿沟,怕这个怕那个,怕影响到法规之类的。第二,放出来的东西其实质量不是很高,不能为人进一步的挖掘和使用,也不是机器可以获取的形态,还有很多技术门槛、法律和使用的门槛。在全世界很多国家,考虑到这一点,也做过了很多实践,获取了很多教训,它的来源是什么?我们是纳税的公民,纳税产生很多东西,这个数据是不是我也可以享用?为什么要经过你炒一盘菜我才吃?为什么不能在里面创造经济价值?但是什么数据能为广大公民享受他应有的权利来使用?有三点:第一,不能和个人隐私相关;第二,和国家安全无关;第三,不侵犯到商业机密。这些考虑立法,考虑清楚以后,让想使用他的企业和个人,引用相关的法律规章,把数据的来源清洗干净,这些可以让机器随便公开。

  欧盟做过数据公开所产生的经济效益给欧洲带来经济价值,到底来源是什么?可以看到是一个很多的国家,像澳大利亚、美国、英国、世界经济论坛、新加坡等等,它们对政府开放数据,让市民使用,提高经济增长,提高施政的透明度,提高政府服务的质量做了很多工作,甚至包括肯尼亚也在往这个方向走。中国政府公开非常有问题,各国政府都在这么做,很多民间企业、个人,或者是社区,他们想分享数据的时候怎么办?或者是遵循一定的标准,或者是大家同意来做互操作性。开放数据就是数据交互的一个共通的语言,怎样搭建彼此语言的规范?用微软、IBM,很多公司,以及大量的公司提供开源的项目、跨平台多语言的实现。另外一个非常受欢迎的叫CKAN,做了开源的内容、管理的门户,里面开放数据的目录、索引都是在公有云上面。后面这两段是我加的,为什么?因为在中国把这个东西跟它合作,把它本地化,做了一些本地化政府所需要用到的模板,做好以后贡献到开源社区去。在这个主流里面,我们做本地化,这些本地的模板,相关的已经接受了,全世界很多国家都在采用这样的模板。根据开放的标准以及开放顺序的门户结合,这个已经很细节了。但我要告诉大家,这个架构已经是在国内外,尤其是在国内,已经做实际落地的实践,而不是一个标准、框架拿出去。而是在国内有人在用,把原始数据自动上传,包括数据的检索、数据的存储、数据的可视化、地理空间的调用。这段很有意思,地理空间很快,比如免费自行车,怎样让人家看到自行车什么时候用得最多,或者哪个地区都没人用?政府可以调用免费的自行车,还有餐馆的食品安全信息等等。数据发布部分,怎么样做各式各样丰富的界面,透过社交媒体、第三方可视化工具,这些都是实际的,而且已经在实现当中。

  刚刚讲了开放数据的标准、开放数据的平台等等,下面我们看一些案例,什么叫Gapminder.org,这个可以自己玩一下。这个讲的是中国和美国在人均收入和它的寿命的长度的比较,贵州很早就被提到,从一九三几的数据开始,上海人均收入和国民的寿命事实上超过了美国的平均值。大家知道美国人均寿命最低的是哪一个城市吗?是华盛顿。所以是很有趣的,在收入方面,我们要追上美国可能还需要一段时间,但是人均寿命,中国这方面做得非常好。

  在中国开放风起云涌,上海是2009年开始的。微软在几个项目里面,比如武汉市开发区政府开放数据平台,做了很多相关和政府开发数据来帮助经济开发区的这些企业了解政府有哪些服务。也让这些经济开发区的企业可以获取到自己相关的运营数据,可以开放出来。在西安西咸,这里面有两个应用,其中一个应用比较有意思,就是渨水的治理这么多年来都没什么进展,现在怎么把它变好了呢?把政府治理水污染的信息发布到网上,同时用社交媒体进行追踪,政府抱怨水的污染。所这两个结合在一起,发现民众有知道的权利,知道政府做哪些东西,怎么样治理渨水,同时有反馈渠道,他们发现通过社交媒体这些负面反映的曝光率大幅度降低,这就是政府开放数据的好处。

  西咸还在做另外一件事情,西咸有一个项目叫海绵城市,西咸非常缺水,要把城市变成一个海绵,能把降雨这些东西能够相关循环使用,能让西安的弱水的再使用率达到40%,而不是完全流失,用了数以万计的物联网的传感器收集信息,背后把这些数据传到微软的公有云的大数据上来。然后针对地考量,到底海绵城市的效率怎么样?应该和哪个方向结合?这就是政府数据公开跟物联网、大数据结合的美妙之处。

  这是我最后一张片子,大家听到这么多,觉得好像很多人也在做,个人在做,社区在做,政府在做,我可以做什么?我们怎么样采取下一步行动?大家到这个网站看一看,包括微软的技术网站,到各国政府看一看,我讲的都有中文翻译。TED上面的,东方崛起,还有一篇文章我给大家推荐一下,郑磊在复旦大学的这篇文章非常好,欢迎大家随时联系我,今天就讲到这里。谢谢大家。