嘉宾演讲| 数博会官网

主讲

  大家下午好,首先感谢大会,感谢这个商业分析委员会邀请我来做这么一个报告。这个报告是加入猎聘以后的工作总结,在这里面我会做一些具体案例的分析来讲述一下我们怎样用大数据来帮助人力资源做更好的工作。

  这是我的简单背景介绍,我就不一一念了。那个我强调一下我自己的背景是来自于机器学习和数据挖掘这部分,我经常会被别人问为什么我现在开始做招聘了,到这么一个行业,因为我之前做过商业数据挖掘,做过搜索和互联网广告。那我的一个解释就是通过这些年的工作,我觉得就是人才真的是越来越金贵,这个印证了我在2003年的时候,那时候还在美国硅谷工作的时候看过一部电影里面的一句话,到现在还记得这句话,就是《天下无贼》里面黎叔很悠然说了这么一句话,就是二十一世纪什么最贵,他给出的答案是人才。所以人才贵了以后人才很重要了以后,相应人才的数据也变成了一个非常重要的数据。

  那么我们来看一下我们猎聘网的大数据情况,在座有哪些不太了解猎聘网能举一下手吗?我需不需要解释一下猎聘网是做什么的。好,有一个哈有几位啊,那么我解释一下啊,猎聘网是一家做中高端招聘的网站,在我们的网站上面有我们的用户,就是我们的这个人才,然后我们的企业就是我们的客户会在上面直接发布职位,人才就可以去搜索,或者用我们的推荐系统发现他感兴趣的职位进行投递,企业也可以直接进行招聘。另外,猎聘网还有一个特色是猎头,猎头是猎聘商业模型里面非常重要的一环。猎聘可以认为是中国最大的猎头社区,我们有20多万的猎头,这个猎头每天就是帮助人才和企业实现人工匹配的作用。

  另外下面有一个GCDC,就是是猎聘网有一个部门专门为了针对中高端招聘设置的部门,GCDC是Global Career Development Center的一个缩写,它是可以帮助人才去美化简历,去做一些职业发展的建议,另一方面它也帮助企业HR去做招聘的工作。很多HR对招聘的领域并不太了解,这时候我们专门垂直化的GCDC的服务人员可以帮助你做招聘的工作。这是猎聘的一个基本商业模型,到目前为止我们上面已经积累了2900多万注册用户,我觉得下个月的话会突破3000万。我们会每天我们服务过了40多万家企业,每天在线的职位有70万-100万,每天我们可以通过数据流水线,就是我们内部的各种各样的就是数据日志收集到大概1亿的各种各样的事件,所以猎聘手上有很好的人才数据。

  那么我们用大数据做的第一件事是什么?我们再2014年初的时候开始一个项目,做了一个职位就是职位推荐的项目。那职位推荐现在已经不仅在PC上可以使用,而且我们有一个APP叫猎聘同道上面也可以使用,打开这个APP第二个页面就是职位推荐的页面,会根据你填的基本信息,你的求职意向,更重要是根据你的行为,你在看什么职位,你投递的是什么职位,相应的去不断学习你的倾向,而且学习就是说还有HR那边招聘的反馈是什么样的,进而推出个性化比较精准的这么一个结果。

  那么这里面的一个截屏是我今年春节前截的一个屏这个CTO的一个职位推荐的结果,他把我丢到比较高端的CTO群里。大家本来还在七嘴八舌聊天,丢完了以后大家都在沉默,我不知道是怎么回事,后来有个人冒了一个泡来说我得去找我的猎头,他看到了上面有一些很高端的职位吧,他觉得他比较感兴趣。这就是可以通过我们的这样一个技术,实现精准化的推荐。

  我们是怎么做的?从技术上来讲哈,就是说我们会先对这个基础的信息,包括职位的信息,包括你的简历,还有公司的信息做一些信息的抽取和结构化,形成了我们的用户模型,然后职位画像和企业画像。接下来我们会用多个策略,主要是一些技能、基本要求,还有你的大家协同的行为,协同推荐的算法来做的。每个策略相对来讲是一个比较简单的策略,它不可能实现特别好的结果。那么怎么办?我们用“三个臭皮匠顶一个诸葛亮”的方法,通过把不同策略的结果进行融合,用机器学习的方法吧结果进行融合起来,最后形成最右边的这个推荐结果。右边那个结果是一个产品经理的推荐结果,这跟前面这个是完全不一样的。

  通过这套算法,我们可以使用户不费什么力气就可以看到他会感兴趣的职位,而且如果你不找工作你也可以看看职场的这种变化。通过这个技术,我们可以用户在我们的网站上50%的投递来自于我们的推荐系统,因为很多用户不再搜索,因为搜索其实是件很麻烦的事情,因为找工作大概比这个和你做一个网页创造一个关键词就可以得到一个一些你想要的结果不一样,你会有很多条件。但我们这个技术就不用你再去填那些烦恼的条件,可以自动的去学习你的偏好。这是我们用大数据做的第一个应用案例。

  另一方面,我们也看到,我们在职场的发展当中,往往需要认识很多的人,尤其是跟你同行业,同资本的人,尤其是哪些比你资深一点的人,他会给您带来很多的帮助甚至带来直接的工作机会。围绕着这个需求,就是我们拥有大量用户,超过2900万用户的基础上,我们做了一个推荐系统,第二个推荐系统就是我们的人脉推荐系统。在这个上面我们的技术手段跟前面总体的框架是类似的,我们做完了基础的用户画像、企业画像之外,我们同时研究就是说用户已有的社交网络的结构,通过这些在这些基础的设计上,我们再用不同的策略,每一个策略就是一个小的简单的模型,我们主要用行业、职能、社交图谱,就是你的这个朋友关系是个什么样子的、还有最后就是你的行为,你在关注一些什么人,关注一些什么企业,把这些基础的策略推出了一些初步的结构之后,最后再融合现在右边的一个中和的最后个性化的你可能感兴趣的一个结构。通过这种方式,我们实现了职场上的兴趣驱动的陌生人社交网络。这个算法上线以后,取得了一个不错的效果,在早期的时候没有这个算法之前,我们是用规则用一些规则的点来简单的做的,效果不是特别理想。用这个算法之后我们把这个用户的发起量提升了三、四倍,这个转化率就是用户他发起了以后,对方接受,也提高了50%,所以说这个算法,这个大数据驱动的算法取得了一个很好的效果。

  接下来我们手上有了很好地职场人的求职啊企业招聘的这些数据之后,我们还能做什么?这里边我们可以深入的去挖掘这些数据,进行统计分析。我先说一下我们做的一个分析的的框架,首先还是依然围绕着我们最重要的三项数据,就是职位数据、用户数据、公司的数据,用文本挖掘的方法形成基础的画像。接下来把用户的行为和企业HR的行为,把它用起来,形成把这个静态的这些画像联合在一起,形成了一个实时的中国中高端人才他的招聘求职的一个全景服务。接下来有了这么一个校对好的数据以后,我们就可以用用各种各样的统计的方法来做分析,我们往往会用一些降维的方法,会用一些描述性统计的方法,最后可以得到基于大数据的人才数据分析报告。

  举个例子,这是去年下半年我们当时做的一个专门针对数据分析师的一个行业研究,我们自己是做数据这一行的,我们就对自己这一行的这个情况和发展自然就会感兴趣,那么就做了一轮分析,我们先看一下这个整体需求的情况,在2014年2月份的时候,在大数据概念还没有被广泛传播的时候,在猎聘上只有250多个职位,但是去年的8月份,这时候在猎聘网已经接近3000个职位了,所以你会看到就是短短的不到两年的时间,这个需求量是出现了一个爆发性的增长。这个背后的原因肯定是跟这个大数据的概念普及有很大的关系,企业发现说这个数据对他有价值,企业手上慢慢也积累了不少的数据,所以就有了对分析人才的一个大的需求。

  这里面我们有条黄线那么是用来做什么的?就是说猎聘网的业务也在快速地发展,就是红线是一个职位数,黄线是一个占比。占比的话你会看到就是说在2014年、2015年出现了一个高速的发展,这里面就可以排除掉猎聘本身不断获取这个新的企业用户带来的一些这个影响,所以你可以看到整个需求量是在增长的。另外一个是我们在职场上这个工作,第一要务还是挣钱养家,所以这个钱是一件不得不谈的事情。那么我们看一下就是说分析师的薪资情况,你可以看到很有意思,就是红线是这个一个互联网各种岗位平均薪资的情况,蓝线是分析师的薪资情况。看到就是说这个横轴是人才的工作时长,你会看到说刚毕业的学生如果做分析师的薪资待遇跟普通岗位是持平的是差不多的,但是在后期随着他的工作经验和技能的增长,他的身价是快速发展,也超越了平均的一个水平。很明显的超越了,到了这个工作十几年之后,你的薪资的话企业往往是会用很高的价格来雇佣你。50万到70几万都有,所以这个分析师这个行业从赚钱的角度来讲是一个蛮不错的一个选择。另外的话就是分析师也经常会问自己就是说我们到底要学什么?我们要掌握什么样的一个技能,能够让我在职场的发展里面能够就是不断地保持一个竞争优势,那么我们就对这个企业,尤其是高薪分析师职位的招聘需求里面做了一个文本挖掘,把这些关键的技能词抽取出来以后做了一个简单的描述性统计,加上一个词云,你就可以看到,这个企业在招聘的时候他会看中这个分析师的哪些技能,这些技能就是可以认为是一些核心的要素,这里面你会看到除了数据分析,数据挖掘,数据建模这些明显的还有大数据这些大家都知道的字眼之外,其实对于业务方面,他也有很高的要求,比如说销售啊,市场啊,营销啊,这些都是企业在招聘这个分析师的时候,经常需要你对这个业务也要很懂,只有这样的话你才能够达到一个高级分析师的水平。

  那刚才提到的是这些应用都是针对个人的,那么我们在应用端也是做了很多的事情,那首先就是这个列表就是一个企业HR工作的六大模块,如果有这个做人力资源工作的朋友应该会很熟悉这六大模块,这里面我就不一一念,这里边每一个都可以对应一项就是数据分析的一个应用,所以你就可以看到,在这个企业HR的工作里面,每一块数据分析都可以发挥很大的一个作用,下面我会围绕着我们做的一些工作,来讲一讲就是具体我们能够用我们的大数据帮助企业HR做哪些事情,首先就是说第一个模块就是人才规划,就是说企业在创办企业之后,它要企业发展的时候,它肯定要想一想我要怎么去规划我的人才,怎么去把我的团队建起来,首先这个时候他就需要知道这个行业还有你需要招的这批人,在市场是一个怎么样的情况,首先这里面我们做的一个事情,就是非常有意思的一个事情,就是供需,就是因为我们因为这个网站上,他有人才,也有企业的需求,而且解决供需问题也是猎聘网的一个核心价值,那这里面去年的时候我们对互联网,互联网的这个人才供需情况作了一个分析,在去年6月份,这个金融泡沫还有互联网泡沫破灭之前,这个很多人都说互联网很热,它是不是真的很热,还是就是说只是互联网圈自己炒作的,我们看一下真实的招聘需求你就可以看见,这个红线是企业方的需求,我们把它做了一个指数化。而这个蓝线就是供给,你可以看到这个互联网的这个需求是比其他任何一个行业的需求都是他的三倍,这个需求之大真的是存在的,他的供给是远远不足的,他也就很其他好一点的行业相对持平而已,所以那时候互联网是的却是非常缺人,然后我们再看一下在这个行业里面哪些职位是比较热门的,这里面我们看一下这个互联网里面哈,当时这个研究生1还是以互联网为例子,首先排名第一个是什么?是工程师,愿意牺牲为这个码农或者程序员,这个程序员的需求是非常旺盛的,第二个是产品经理,第三个运营,做运营人员,这个是跟中国的这个互联网特色非常契合的,因为在去年的时候这个很热,然后老板好都公司都上很多的项目,那么想法很多,但是把它真正给做出来的人就主要靠工程师了。所以就产生了这个大量的工程师的需求,另一方面老板往往都是想点子的,所谓这个big idea,需要有产品经理帮他画图,变成这个产品的原型,所以这时候就会有很多产品经理的需求,接下来这个运营的需求是在中国非常有特色的一点,就是中国的互联网是一个很重运营的一个市场,他跟美国的不太一样,美国的互联网是往往是产品说话,品牌说话,在中国你产品好,如果你运营能力不强,这个竞争对手的同质化这个竞争是非常激烈的,你没有一个很强的运营是不会成功的,所以这时候就需要有大量的人力来做这个运营的工作,所以相应的这个运营的需求就会很大,然后我们再看一下这个流动,就是我们特别有意思的事情是因为我们做的是全行业招聘的,我们不想其他做的是一个垂直的领域,我们做的是全行业招聘的,我们就会看到各行各业人才流动的一个情况,这个也是去年的一个数据,可以看到在去年的时候,各行各业的人都在涌入这个互联网,其他行业没有这么多,所以互联网产生了一个巨大的吸引力,几乎形成了一个人才被动的一个现状。

  还有一个就是薪资,这个谈钱虽然跟老板谈钱都会伤感情,但是我们还是会每个人工作的时候还是会关注这个薪资的这个水平,你会看到我们跟传统行业做一个对比,这个灰线是传统行业的一个水平,就是从工作年限,他的一个发展的性质发展水平,然后红线是互联网工程师的一个发展水平,然后蓝线就是互联网平均各个职位的平均水平,所以你就会看到这个互联网他能够吸引人才,他是用什么?很多时候他是靠的一个高的薪资,他的薪资普遍的要比同等的这个其他行业的要高一截,所以他能够产生那么大的一个吸引力。

  最后我们再来看看这个教育,就教育方面我们又做了一个分析是对比了一下高薪程序员,这个例子是高薪的,就是年薪50万以上的,这个高薪程序员,他们来自哪些学校?首先第一个是来自清华大学,就是我的母校,我很高兴看到这个数据它分析出来了以后,接下来是北大,北邮这些名校,基本上还是名校占了比较大的优势,但另一方面也很有意思的一点是你会看到他占比都不高,即使在清华大学这个里面它占比也就是1.62%,所以是一个很长尾的一个分布,那这说明了什么?在互联网里面招工程师的时候大家不太看出身,关键看你有没有能力和经验,啊英雄不问出处,不像金融行业我们还有一些报告研究金融的,金融是比较看重出身的,看重出身和学历,互联网不是这样,这是一个做行业研究的一个例子吧,我们用这些数据是可以帮助HR做一些人才方面的规划的,另外一个实实际际的工具就是刚才谈了好几次的这个薪资的问题,传统的这个行业,传统的这个人力资源咨询公司,他也做薪酬报告,做这些工作,他是怎么做的?他是联合一些公司,有一些行内业内比较大的公司,做线下调研,做数据清洗,然后归类分类,最后形成一个报告,但是它这个周期很长,第一个他的周期往往要一年,第二个他只能调查一些比较大的公司,一些愿意和它配合的公司,所以他最后出来的报告往往会比较滞后,然后代表性也不会那么好,那么我们手上有的这个候选人,他填的这个各种各样的工资,现有的工资数据和求职工资要求的数据基础上,我们建了一个大数据的薪酬数据库,那么这个时候我们就可以拿到很新鲜的很珍视的数据吗,然后我们用这个比较好的,文本挖掘的技术手段把这个技能都分得很细,想这个互联网行业,工程师我们就分了十几个类型,可以分得很细,接下来我们用这个数据可视化的方法,你看这个图上有这个例子,你就可以看到说他的不同的分布怎么样?包括他的中位值是多少?75分位置是多少?通过这样的一个手段,我们形成了一个在线的这个薪酬数据库的这么一个产品,直接可以给我们的客户去购买,他这样的话我们每个季度可以更新一次,而不是每一年更新一次,这个时效性也会好很多,这是我们第一个做的数据直接变现的一个产品。

  接下来我们还做了一个事情是把推荐系统应用到企业端。就是我们会发现中国在做,中国在招聘的时候HR他的专业能力有的时候是会跟不上,HR会在理解一些比较深的,比较新的技术领域的时候,他会有困难。比如说像我么自己团队招聘的时候,我们买来新的HR同事我们都要要反复跟他说大数据是怎么回事,里面要怎么去找人,要怎么找关键词,什么企业合适,然后他往往也要2、3个月甚至半年才能够真正说跟我们配合得天衣无缝的。这个是一个有很高的专业门槛的,我发现说这个很多企业他的这个HR还没有这么一个能力,导致他的这个招聘的效果不好,这个为了解决这个问题,我们做了一套算法,通过对用户画像,公司的数据和职位的数据我们看HR他在喜欢招怎样的人,什么候选人喜欢投这样的职位。

  然后接下来还是用多策略的框架做了一些基础的策略从基础的一些条件,然后行为,协同推荐,还有这个技能策略方面,形成一个初步结果,最后再融合形成一个最终的结果推给HR,这个功能已经上线了,上线的时候发生了一个很有意思的故事。就是我们是一个工程和研究的团队,然后我们跟前面讲到了我们哪天有一个GCDC的团队,他们是以服务客户为主的团队,但是我们上线之前只是跟他说了这样的一件事情,上线的时候,他们开始的时候因为之前有一套算法并不是很好,他们也以为然哈,就以为说你们就再试一次,然后结果这套的算法想先以后效果就好很多了,然后我得到的反馈是说,他们会跟我们的产品经理说,你们这功能能不能暂停一下,我说为什么?他说我们的一个核心的KTI是给企业推荐简历,你们这个系统啊,一天24小时也不休息,然后又快,只要有一个新的候选人出来马上就可以开始匹配分盘,就跟他产生很强的竞争关系,所以他们担心他们的饭碗受到了威胁,这个是我在上线之前没有太想过这些事情。所以就想起来就是说,前面一段时间像AlphaGo出来的时候,也引起了业内,就包括其他行业很多人有一种紧张感,有一种恐慌的感觉,说这个人工智能机器人是不是要替代很多人的工作,那后来我们想了一下机器能做这事情,但是现在来说,还没有跟我们的顶级的猎头跟我们的顶级的客服人员比还是有一定的差距的。

  第二个来讲机器有一件事它能干的,他其实是还不会沟通,不会去跟企业的HR去沟通背后的深入的需求。有些这些信息是非常关键的,所以其实是我们应该是可以跟我们服务部门形成一个很好的配合,后来我找他们谈,我说我们联合推荐这个简历的KPI,这样子的话大家又在一起了。所以我再说一句题外话,就是我相信这种未来机器智能会替代一部分人工的工作,但人有人的用处,人擅长处理这种复杂不确定性的决策,还有深度知识的,还有具有高等的沟通要求的工作,这个是我觉得几十年来,机器都很难能够很好的替代的。所以将来的社会会是一个人机协作的社会。

  所以刚才举了一些案例,是说我们能够通过大数据的一些数据分析和挖掘算法去更好的帮助企业的HR,更好的去完成它的招聘任务,那么现在这张图列出的是去年我去华南理工做分享的时候的一个数据,我当时对华南理工并不了解,我只知道它是广东的一所名校,然后我就在我们数据库里面跑了一个简单的查询,调了一下就是说华南理工的毕业学生毕业以后去向如何,他们在做什么,在这个列表上面你可以看到,除了一些高管、总经理之外,都是工程师,尤其下面很多是做建设工程的职位,我去了以后,我就问老师,你们学校的建筑专业是不是最强,他们说是的,在华南地区,华南理工的建筑是第一名的,所以你会看到就是说这组数据能够出你的一个反映学校、教育机构产生的产品在这个市场上的一个情况。

  然后另外我又比较无聊做了华南高校的薪资的一个对比,你会看出一个排名,就说我们做了一个很简单的一个平均薪资,排名第一的是中山大学,第二名是华南理工,接下来是暨南大学,还有一些其他的华南地区重要的学校,这个基本上都是跟华南学校排名是吻合的,我在去之前,我也不知道它的排名是怎么样,我拿这数据去跟他们讲的时候,他们都笑了,说这是跟学校的名气是挺有关系的,在薪资上。所以我举这个例子就是说出人才数据对教育也是会有很大的作用,比如说我们的教育机构怎样去做行业的报告,做行业的规划,然后他的课程怎么设置,就是你的课程讲什么,这个内容我觉得是要尽可能的去贴近这个市场的的需求,还有是就业指导,就是学生该怎么样就业?怎样找到合适他的职位,这些职业发展报告都是能够帮助到他的。

  还有一个也是意外的惊喜,我会发现,我们的数据库上面拥有的校友的数据比普通高校拥有的校友数据还要多,他们做校友活动的时候,我们是可以帮上忙的,这个也是有学校跟我们要这个数据,这样他们搞校友活动的时候我们也是可以出一把力。这是教育方面。

  另外的话人才数据在政府和社会方面也有一个广泛的应用,像政府,各地政府他在搞这个创新创业的时候,首先要抓的我觉得不是建筑方面,建这些园区,先要抓人才,你要分析人才竞争力是在哪里。那么传统统计的话,你可能看到并没有看到的那么细,像我们的数据是可以告诉政府你的人才竞争力是在哪里?你的教育应怎样做一个更好的规划,还有你的人力资源怎样去优化,比如说这边有一家企业它不幸可能是要转移或者是要关门了,这些人才流向哪里?他怎么样去配置他?这时候这个数据也都是能够帮助到你,因为我们有一手需求的数据。

  还有最后一点是这个经济统计和预测,这一点我也是有一个案例,一个简单的案例想要去分享给大家。就是在去年6月份的时候我们有一位分析师是东北人,他就看东北企业和人才情况,发现说在6月份的时候人才在大量投外面的工作,然后企业招聘发的职位量需求也在直线下降,下降得非常厉害。然后8月份的时候我们国家才发布比较正式的新闻稿出来说,发现东北的经济出现比较大的滑坡。这时候你会看到说这个人才招聘数据他是一个有预见性的指标可以测量出来,我们现在就跟发改委做合作项目,他们跟我们签定一个合同,让我们去用我们的数据,不仅仅是猎聘的数据,因为我们现在已经开始全网抓数据,抓职位的数据,来研究跟中国经济、跟中国的就业相关的事情,这个是我觉得是这个大有可为的事情。

  最后讲一点自己在数据工作里面遇到的一些挑战吧,首先第一来讲就是说我们数据大数据这个领域在这些年得到了大力的推广,之后带来一个很大的挑战就是缺乏相应的人才。在这个市场上其实我们看见招一个三年以上有经验的数据人才都是非常困难的,所以需要有更好的学校和培训来帮助我们解决这个人才短缺的问题,没有这些人才,这些数据在那里也发挥不了作用。第二来就昂就是说我们再做大数据的时候仍然面临着模型的统计性能的一个挑战,大数据的一个特点是噪音是很多,那么怎么样去除这些噪音,怎么样让你的模型变得更有效,这仍然是一个技术上需要做很多努力的事情。

  接下来就是说可解决性和合理性,像我们做算法会用比较复杂的模型,但是我们去跟业务配合的时候,就需要一个很好的解释,否则他会质疑你为什么会产生这样的结果。而我们很多算法它是不具有很好的解释性,这一点上来讲在技术上也是挑战。还有一个是经济成本,各家公司都在想用大数据,但是第一看到数据人才很贵,第二个数据基础设施的搭建和维护仍然是比较昂贵的事情,将来可能云计算能帮助解决这些问题,但是目前来讲就是要实施一个好的大数据解决方案仍然是比较昂贵的事情。

  最后一点是隐私和合规性的问题,猎聘的话,在一开始因为我们是做中高端招聘的,很多候选人是不希望被无关的事情打扰,或者他的一些动向,一些想法是保密的一些事情,那么在猎聘的话我们就做了大约14-16条开关,能够帮助候选人快速的保护他的隐私,甚至有些开关一键摁完以后人家看不到你,包括在社交网络上,你可以看别人,但是别人看不到你,这是比较强的隐私保护。但是在社会上我们看到各种隐私泄露的问题,怎么样保护隐私的问题?保证我们能够合法合理的用好这些数据,这个是一个整个社会和国家立法要思考的一个重要话题。

  好以上就是我的主要的一些工作经验的分享,感谢大家聆听我的一些经验,谢谢!