嘉宾演讲| 数博会官网

主讲

城市计算--用大数据解决城市中的大挑战

  谢谢大家,今天我跟大家分享一下我们在城市计算最近的实验。现在城市越来越大,问题越来越多,交通拥堵,这样那样的问题。在过去看几乎不可能,城市的设计很复杂,牵一发而动全身,现在因为有云计算单元的成熟,从气象条件到地理数据,如果使用得当我们就可以从这些数据里面发现问题,并进一步利用这些数据解决我们城市面临的问题。基于这样的挑战和机遇我们从2008年开始提出城市计算这样的愿景,包括从城市数据下面的感知到城市数据的管理到城市数据的分析和挖掘再到服务和提供。然后把这4个环节连成环,在自动不干扰人的生活的情况下,利用大数据解决我们城市计算大挑战,这是多任务的系统。我们有很多不同的数据就是今天的主题块数据来自不同的领域行业。我们任务很多:可以缓解交通拥堵,可以改变城市计划,我们需要同时用到一个数据源,如何利用不同的数据源做到1+1大于2,这是很大的挑战。我今天在这个方面展开介绍一些实际的案例。

  从2008年开始我们从智慧的城市规划,交通到现在的环保做了一系列的工作。今天我就举一个例子,讲讲我们如何用大数据看一下空气质量的前世今生。大家知道我们现在空气质量并不是很好,现在在城市里面建了空气质量检测站点,建这样的站点很贵,而且需要后续维护,在北京也只有35个站点,我们空气质量分布是非常不均匀的,这是真实的数据。投入的字数就是空气质量指数AQI,越大越不好,绿色表示优,红色表示严重污染,我们看到同一城市,相邻两站它的相差很大。为什么,因为空气质量受很多复杂东西的影响,房屋扩散条件,是不是有绿地,这些因素在城市各个角落里都是不一样的。现在的问题来了,如果这些问题没有建空气质量检测站点,这个地方空气质量是多少,我们现在开会的地方空气质量是多少我们不得而知。我们结合两部分大数据做实时的细腻度质量空气分析。所以两个大数据,包括第一部分是已有站点的历史和实时的空气质量度数,第二包括来自5个不同行业的数据源,气象条件,刮风,下雨,气压,风速,交通流量问题,车的速度是多少,车的方差是多少,这个区域里面有多少厂矿,多少公司,多少企业它的密度是怎么样,有多少红绿灯口,有多少高速路,把这些数据融合起来就可以建立一个地方的空气质量跟它对应的数据模型,以后哪怕这个地方没有建空气质量站点我们也可以算出这个地方的空气质量,有了一公里乘一公里的空气质量信息我们就知道政府的决策,知道什么时候该开窗户,什么时候关窗户,去哪里跑步。那这个东西到底有多准呢,大数据模型跟传统方法比有什么优势,我们怎么验证我们的方法,我们现在已经在60个城市验证了我们的方法。每个小时,每个站点对这个结果进行验证,如果他说是100,我们读出来是80,这个误差就是20%。这个比传统的物理模型,机理模型提高很多倍。现在这个东西已经被官用,商用,民用。这个数据目前在环保部官方使用。我们为什么说民用,民用大家手机里面有可以下载,你有安卓和Iphone里面就可以用,你只要点任何一个地方都可以告诉你这个地方空气质量是多少。以前只能告诉你这个城市是多少,这个站点度数是多少,还有我们可以告诉你未来,未来48小时这个地方空气质量是怎么样。我们可以看一下这个站点长什么样子这个是公开的。我们可以点地图任何地方告诉你这个地方的空气质量,PM2.5是多少。

  现在我们做到京津冀联动,很多时候这个城市联动不在城市,而是在外面,我们做一公里乘一公里的空气的细腻分析,就可以计算出这个地方的空气质量。这个图显示北京空气质量排名前200名的地方,这个地方大概是集中在南边靠近河北的地方,可能河北有一部分污染真的传播到了北京。还有预测,这个预测我们是做细腻度的预测,我强调一下,我不是说整个城市怎么样,因为那个信息对我们帮助有限,我告诉你某一个站点未来48个小时空气怎么变化,其中前6个小时可以做到预报,预报每个站点空气质量读数是多少。这个预报就是一个细腻度从空间尺度和时间尺度来讲也是细腻度。我不是用这个站点本身数据做这个站点空气质量预测,我把周边300个站的数据输入,我们做的时候把北京,山东,天津,石家庄的数据全部拿来输入,最后我们就可以预测这个地方空气变化怎么样。我们可以点地图任何一个站点,我们可以看到这个地方未来48小时的不变化是什么样子。有一段时间空气质量上升到100度,我们是不是把更远的工厂关掉呢,我们有了这个就可以预判就不用关闭工厂。我们做大数据,为什么用大数据,为什么说空气质量预测很难,因为空气质量预测有很多复杂因素决定,我们没有详细的数据。比如我们知道他受到汽车尾气排放影响,我们不可能拿到每辆车的汽车尾气排放量,我们没有办法得到气象在未来48小时,每个小时到底刮风还是下雨,风速,风向怎么样我们做不到,天气预报准确只有40%,如何把这些做得更好,它第一个难点就是这些。每个时间段预测的时间长段不一样,我们要做分别的预测。我们这个楼周边的情况跟贵阳市又不一样。我们在北京在不同时间段建立了很多个模型,有很多模型在算。这个准确率怎么样,我们在20个城市做了验证,北京,天津,广东,深圳,还有成都也已经上线了,在北京准确率比较低在前6小时可以做到85%,在深圳可以做到89。这个图显示红色区间是真实的,空气质量变化有多么剧烈,可以发现我们的预测跟真实值跟得非常紧密。我们跟传统模型进行了比较。如果拿天气预报模型做这个方法我们有4个方向可以看,第一我们做得更细致,做空气质量预测预测整个区。我们做48小时预报,现在空气质量预报根据天气预报这样只能做12个小时的预报。大数据的特点是数据积累越多我们准确率越高。我们整个城市预测只需要在几秒之中完成,传统要做6个小时,传统是每天预报一次,我们现在可以一小时预报一次。

  我们要看看未来到底什么原因导致空气污染,这个问题非常复杂,我们先回答子问题到底有多少尾气排放来自于车辆,我们问一下,有谁能告诉我,在过去一个小时我们贵阳市所有在路上跑的车辆它的总油耗有多少,以及它的总PM2.5的排量是多少,这个问题我们可以回答就可以跟我们空气质量数据关联我们可以做决策。这个做完大会我们在联合国官方报告做了第一报告,我们对整个城市五过去10分钟每条路的车辆的尾气排放来算,我们用了一部分车GPS,这个图左边就是北京各个道路车辆油耗分布情况,红色是高油耗路段,绿色是低油耗路段,下面是全部总和,这样的数据可以给我们带来什么样的结果,有人说最低油耗数据这个肯定可以做,以前只能是一做最短时间,最短路径。那规划人员看出来有不同看法,为什么有些地方总是高油耗路段,我们能不能把这些地方做改进,做到真正降低油耗,降低雾霾。

  下一个图更有意义,这个是整个城市一氧化碳的排量在各个道路上的分布,红色是高排放路段,绿色是低排放路段,下面是排放综合。有了这个我们就知道有些地方尾气排放并不是很高,我们以后限行只需要局部限行,这也是把空气污染物度数跟我们大数据结合。我们现在回过头看一下什么叫大数据,大家在很多地方听了不同的报告,根据我们的经验,第一不是一个单一数据很大,是多元数据的融合。大数据不是全数据不是什么数据都有有可能我们拿到的是数据车的采样。大数据不是密数据,他可能只是一个采样点数据,它很稀疏,比如我们空气质量站在在整个城市只有几十个。第四,大数据并不是我们所有模型在,我们只要拿模型算就可以得出结果,我们今天讲的块数据对我们数据融合分析我们还是要大量投入分析,请大家保持冷静的态度。大数据是端到端的实力,从数据获得,管理,到分析到可视化需要很强的知识,需要真正数据科学家推动,大家问我什么是数据科学家,他需要什么。下面就是真正的数据科学家,他知道这个信息跟什么因素相关,他理解各种各样的数据,知道不同数据里面反映什么含义,把数据跟问题对接。他知道各种各样的模型,包括数据管理模型,数据挖掘模型,以及可视化的模型。数据科学家需要站在这个平台上看三个问题,把三好看透,提取智能,拿到数据放到自己的模型里面有机结合,最后做到端到端的结合,这就是真正的数据科学家。我的演讲就到这里,谢谢大家!