嘉宾演讲| 数博会官网

主讲

企业大数据与隐私保护

  各位下午好。这个论坛超出我来之前的想像。贵阳市、贵州省对大数据的重视程度很令人敬佩。大家对联想的认识可能还停留在笔记本电脑、台式机的阶段。但是联想在过去几年里已经通过企业的并购或自己的发展在云计算服务方面,包括企业的硬件设备、IBM的X86服务器已经成为联想的一部分。联想公司本身也是全球性的大公司,它在全球160多个国家有业务,每年完成的总业务量是420亿美元。这样一个大公司,必定会产生很多的大数据,来看一下,联想对这一块有什么看法,又是怎么做的?未来希望有一些成功的案例或者方案分享给业界的其他企业。今天我要讲的主题是:企业大数据和隐私保护。为什么要考虑企业大数据?因为刚才讲的很多是政府或者其他方面,但其实企业未来大数据成功与否、企业能不能利用好大数据起到很大作用,因为企业是产生经济价值、经济活动的本体。如果看IDC的预测,到2020年,主要的IT的成长都是跟移动互联网、大数据、云计算有关,而如果看一下右边的图,它的互联网,包括社会媒体,基础其实也就是云和大数据,所以大数据在未来,到2020年的整个成长里面,起到一个很关键性的作用。

  再来看国内,2014年,大家对移动互联网或者互联网+等不同的概念已经有很多实际的认识,比如大家用微信、滴滴打车,最重要的还是要看到移动互联网里面的三个要素:互动、连接、传播,但这三个其实都离不开数据在背后的支持。因为如果没有数据,没办法进行互动;如果没有数据连接,就没有办法做互动。要把图片、视频从一个地方传到另一个地方,也需要大量数据。所以,大数据和云计算必然成为这里面的关键技术。这个定义就不去说了,我想讲一下,大数据从哪里来?大数据来源于三个方面:

  第一,所谓的企业的传统数据,比如CRM、ERP、网店交易,或者一些财务的数据的量也在不断成长。比如网店交易的事情,之前相对比较少,现在越来越多。

  第二,数据源就是机器和传感器所产生的,之前大家讲得比较多的IOT或者物联网。在过去的物联网讲的是工业的物联网,最近又开始炒智能家庭,所以说这一块包括智能电表,或者家里的一些设备的数据的产生,会对数据量产生极大的冲击,也会把量的提升到在网页上完全不同的层面。比如在社交媒体上做的一些评论也是大数据的来源之一。大数据和传统的企业数据结合以后,可以提高企业的效率,同时,企业对外界也会产生更好的认识。如果要做一个智能的医疗的话,这个时候对用户会产生很大的价值,这里面需要采集很多用户本身的一些体征的数据,而且这些数据不是一天采一次,可能一天采多次,这样就避免了在医疗方面现在所碰到的人多医生少,或者一些慢性病的护理会产生各种各样的问题。第二就是生产的厂家现在把很多的传感器已经放到设备里面。比如汽车,汽车里面有很多传感器,通用汽车就把一个服务放到车里面,像沃尔沃也有相应的汽车传感器,起什么作用?起的作用就是当你开到一个人生地不熟的地方,汽车突然熄火了,它马上就可以把位置定出来,而不需要手机。它是通过卫星进行定位,同时可以对汽车的工作状况进行实时的采集,这样就知道发动机、一些重要部件会不会产生问题,可以在设计上进行改善或者提供相应的服务。

  第三,商家可能会对新来的客户特别感兴趣,但是怎么样获取客户要做很多工作。有一个方法就是通过实时的视频的分析,能够知道对每一个进到店里面的客户到底来到店里以后干了什么事情,比如看了产品就走了。这样的话,对这个客户的认识远远超过之前每一个进来就走掉的客户,但这也需要对视频进行采集,对大数据进行分析,最后对这个用户进行画像等等。理解客户,比如客户在社交媒体上发表了一些言论,在线上发了一个贴,或者买了某一个东西,这样对于未来做的一些市场活动可以更加地精准。这些思想可以对企业产生一定的价值,不管是对设备、提供的一些服务,对客户的理解,企业都会对大数据产生一些兴趣。

  如果企业要做大数据,有些什么样的工作要做?第一,要获取数据。获取的数据有一些是从网上来的,有一些是从设备上采来的,还有一些是从第三方。论坛的主题是做数据的交易,数据交易以后企业的很多数据可能都是从第三方抓取过来的或者买来,这样,数据能从第三方源源不断地到我们这边来。第二,做数据的规整和处理。像Hadoop今后可能都会做一个平台级的服务,对数据进行处理。还会对数据进行分析,像刚才提到的学习,还有其他的工具,可以在规整数据之后,对它进行分析,然后产生各种各样的数据的价值。对一些网上的评论可以进行分析,用户可以画像,如果要关心供应链库存怎么样,也可以进行跟踪和优化,联想也在形成这样的平台。下面专门提几个联想已经应用的几个案例。

  第一,联想是全球性的公司,在世界各地有多个数据中心。员工在世界各地都有,所以很关心每一个数据中心需要多少带宽,它的performance怎么样,会不会太慢?慢了以后是不是要增加带宽?这样做的直接影响就是费用,如果增加带宽费用就会上去,都是以百万美元来计成本。相当于我们给联想的IT部门做了IT数据的可视化,然后对它进行分析,大数据的分析,因为来的数据几科是实时的。有一个统一的IT的面板,每一个站点里面的应用和用户会对它进行分析。第三,对应用本身进行监测。就看每一个应用是被哪些用户用,在哪些时间点用,在每一个周期是怎么样的,里面有没有可以找到的规则,对它将来准备一些更多的设备或者做数据中心的调整都会有很大的作用。这个在联想的IT系统里面已经实施。

  联想作为一个电脑、手机厂商,十分关注用户对联想的设备到底是什么样的评论。大家可能觉得联想是一个比较传统的IT企业,对用户可能关注度不够。现在联想每天都从微博和每一个国内的大的电商的网站把所有跟联想相关的数据全部采回来,采回来之后对它进行自然语言的处理,用处理的方式和其他的一些分析的工具对它进行很深入的了解。对联想每一个产品的功能、用户对联想的打分、评论是正面的还是负面的、提出的建议几乎是实时的跟踪,这些内容直接反馈到联想产品的指控部门和市场部。你们看到的这些页面就是联想内部的经理人看到的。看到这些以后,大家可能就会有疑问,回到我主题里面的另外一个——隐私的问题。很多数据已经在网上存在了,只要是有心人就可以采到很多数据。问题在于会不会侵犯隐私问题。在1890年的时候,哈佛的法学评论上已经对个人隐私有一个定义,它的定义是:一个自然人自身所享有的、与公众利益无关的而且不想让公众知道的信息。如果你看了这个,你就会知道每天在网上,不管是浏览网站、上微信、上QQ,或者任何一个社交媒体,你的蛛丝马迹都可以被一些有心人抓到。一些比较恶意的wifi、热点,采集到你的银行数据以后,直接偷盗你的银行信息,导致经济上的损失。

  我们要看一个比较重要的问题,怎样把隐私进行很好地保护?保护从多层面看需要一个完整的体系,包含法律、技术,还有政府部门的监管。并不是中国的隐私大家不关心,而是大家不知道怎样来跟踪一个法律。虽然国内有各种各样的法律和条例对于隐私进行关注,像消费者法或者其他的法律,但是没有完整的、关于个人隐私方面的法律。这样就导致了一些漏洞,被一些不法厂商或者无底线的厂商做了一些不应该做的事情,受害者就是消费者个人。国家现在也在做一些事情,通过行业的自律和一些相关的法律进行威慑,技术层面可以加密,可以做安全的论证,访问权的控制,云计算可信技术的结合来保证在云上的数据的安全。最近工信部做了可信舆论证,联想的云计算整个的技术也通过了这样的论证。一个企业要对隐私管理好,Forrester提出构建隐私管理的5个步骤,大家可以作为个参考。

  第一,定义数据隐私范畴。企业需要根据其业务范围,了解相应国家、地域的相关法律条文,对不同的数据类型进行有效保护。

  第二,明确企业角色和责任。企业常把隐私保护误解成数据安全而让技术专家提出方案。其实,应该有隐私专家以保证各方面合规。

  第三,建立法规与业务要求之间的映射。隐私管理需将各项标准、法规转化成为实际业务中的要求。在特殊情况下需借助外部法律援助。

  第四,让隐私保护成为企业文化。隐私保护必须成为企业文化,认识到当前缺陷,制定计划进行纠正,再以政策与流程加以落实。

  第五,跟上变化步骤。需要应对法规条例不断变化。目前,对政府与企业而言,隐私保护都处于一个不断完善的过程之中。

  作为总结跟大家说一下,跟大会的主题也比较切题,大数据会带来一些十分令人兴奋的变化。第一,在技术架构上,大家谈到最多的就是Hadoop在我们自己用的过程中已经远远不能跟上业务所要求的。我们之前所产生的数据的结果是每周能够产生一次报表,后来到业务部门去以后,至少每天一次,现在更多的业务部门开始用以后,要每一刻钟或者十分钟就要一个。这样的情况下,原来的架构远远不能跟上需求。就要考虑实时运算、实时反映市场的变化,这样作出反映会比较快。比如有人发了微博,最好在十分钟、五分钟之内反馈回去,而不是一天或者七天以后再反馈,这样完全不能让客户满意。第二,私密性和安全变得越来越重要。第三,所谓的洞察,数据来源实际上是从各个不同的地方来,不会从一个地方来。我刚才提到企业的数据有三大来源,如果仔细想,可能还不止三个。一定要找到一个办法,能够把不同来源的数据进行很好地整合,能够对某一种事件或者某一方面的认识有一个完整的方向,而不是单向的或者单方面的。

  大家对手机应用、智能设备用得很多,未来因为大数据,这些应用和设备会变得越来越智能,有些智能到可能无法想象,可能替你做一些预测,给你一些建议,而这些建议、预测可能正是你想要的,为什么能做到这样?是因为它已经理解了用户的习惯,它所给出的推荐是你所想要的,这是更聪明的应用。另外就是基于IT的一些大数据的洞察,还有数据的服务。之前讲到很多大数据是针对大客户、大企业。对于一些小企业也有大数据的服务,但是小企业的问题在于没有这样的技术能力和财力进行大数据的采集和大数据的分析。所以这个时候提供所谓大数据云这个概念,让小企业或者中型企业也可以享用大数据的好处。最后,真正的智能还是要对自我学习,这个已经发生或者发生了很多,而且未来会做得更多。我的演讲就到这里,谢谢各位。