搜索
查看: 5553|: 0

[其他] 一名好的大数据科学家,可以让公司的发展产生质变

[复制链接]

252

主题

2

回帖

2291

积分

金牌会员

积分
2291
发表于 2016-12-8 12:44:50 | 显示全部楼层 |阅读模式
本帖最后由 行云流水2016 于 2016-12-8 12:52 编辑

请点击此处输入图片描述

【导读】2006年Jonathan Goldman到商业社交网站Linkedin工作,那时的Linkedin还只是刚创业不久,网站注册人数不到8百万,但是很多成员会邀请自己的朋友和同学加入,因此注册人数迅速增加。但是用户要找到已经在网站注册的用户不太容易,比例达不到管理人员的期望值。很明显,有些社交体验缺失了,这时最早的大数据分析出现了。


Goldman是斯坦福物理学博士毕业,他非常着迷于越来越多的用户关联和丰富的用户个人资料。这些原本只能带来一堆杂乱的数据和笨拙的分析,但当他开始探究用户之间的联系时,他开始看到新的可能。于是他开始组织他的理论,检验他的猜想,建立模型,预测用户愿意与谁建立联系。他感到,他正在开发的新功能,能带给用户价值。但是LinkedIn的工程师们当时忙于提升网站性能,没有理睬,有些同事则公开表示不看好Goldman的想法:为什么用户想要LinkedIn告诉他们该和哪些用户建立联系呢?网站已经有一个导入通讯录的功能,能导入用户的所有联系人。


幸运的是,公司的联合创世人兼当时的CEO ReidHoffman根据自己在PayPal的经验,相信数据分析的强大力量,给予了Goldman高度的自主权。其中一项就是,Goldman可以绕开传统的产品发布流程,而以广告的形式把这个小模块发布在网站最受欢迎的页面上。


通过这个模块,Goldman开始了他的试验,用户可能认识一些人,比如和用户来自同一个学校或工作单位,却还没有在网站上建立起这些关系,如果把这些名字告诉用户,他们会作何反应。他根据用户在网站上注册时填写的背景资料,找出了每个用户可能最想与之建立联系的三个用户,然后定制了一套广告。几天之内,很明显地,奇妙的事情发生了,这些广告的点击率前所未有的高。接下来,Goldman根据“闭环理论”改进了他的推荐方法,闭环理论指的是如果你同时认识张三和李四,那么张三和李四很可能也相互认识。同时,Goldman和他的团队让用户对每个推荐的操作可以一键搞定。


很快LinkedIn的高层开始认识到这是个很好的主意,并将其列为标准功能。从那时起,事情真的开始起飞了。“你可能认识的人(People You May Know)”广告获得了30%的点击率,比其他任何的站内推广广告点击率都要高,共计产生了数百万个新页面浏览。得益于这项新功能,LinkedIn的成长速度大幅提升。



大数据科学家,一个崭新的火热职业



Goldman是一个很好的例子来说明组织中的重要新成员——“数据科学家”。这是非常高阶的专业岗位,要有在数据海洋中寻宝的好奇心和相应训练。这个头衔存在有几年了,第一次出现是2008由D.J.Patil和Jeff Hammerbacher提出的,他们后来分别成为了LinkedIn和Facebook的数据和分析团队的负责人。但现在已经有数千位数据科学家工作于创业公司和成熟的大型企业。他们在行业里的忽然走俏,反应了这样一个现状,企业需要处理的信息正以从未遇见过的规模和渠道涌现。如果你的机构存储了几个PB的数据,或者对于你的生意最重要的信息是表格式的,而不再是行列的数据,或者要回答你最大的问题需要各种分析手段的“混搭”,你赶上大数据时代了。


现阶段对于大数据的主要热情都集中在大数据的处理技术上,比如,使用最广泛的分布式文件处理系统Hadoop,和相关的开源工具、云计算、数据可视化技术。这些突破性技术都是非常重要的,重要程度就不亚于有能力与脑力并且会运用技术的人。对数据科学家的需求快速增加,已经超过了供给,事实上,人才缺乏开始严重制约某些行业。Greylock Partners是一家投资初创企业的风投公司,曾经投资过Facebook、LinkedIn,Palo、Alto、Networks和Workday,它非常担忧紧张的人才储备,因而建立了自己的招聘团队,负责给自己投资的公司输送人才。招聘团队的负责人Dan Portillo说,“这些公司一旦有了数据,就需要有人管理数据,发现真知。”


请点击此处输入图片描述

如何选择大数据科学家



从大数据中获利需要雇佣稀缺的数据科学家,管理人员面临三大挑战,识别人才,吸引人才,善用人才。和其他职责明确的岗位相比,这三项任务都不那么直接明了。首先,目前没有高校项目培养相关人才,同时,数据科学家在组织中处于什么位置,如何让他们创造最大价值,如何衡量他们的作用,这些都没有公认的标准。


因此,要想挖掘出数据科学家,首先要明白他们在业务中能干什么,其次,他们需要哪些技能?哪些现有的领域会用到这些技能?


数据科学家首要任务是在数据的海洋中探索发现,他们更喜欢用这种方式看待周围的世界。他们要在数字王国里游刃有余,把大量散乱的数据变成结构化的可供分析的数据,还要找出丰富的数据源,整合其他可能不完整的数据源,并清理成结果数据集。新的竞争环境中,挑战不断地变化,新数据不断地流入,数据科学家需要帮助决策者穿梭于各种分析,从临时数据分析到持续的数据交互分析。


数据科学家会遇到技术的局限性,但不会让技术阻扰他们寻找新颖的解决方案。当他们有所发现,便交流他们的发现,建议新的业务方向。通常他们很有创造力的展示视觉化的信息,也让找到的模式清晰而有说服力。他们会把蕴含在数据中的规律建议给产品经理和主管们,从而影响产品,流程,和决策。

由于这中行当还处于初级阶段,数据科学家常常会推广他们自己开发的工具,甚至进行学术研究。雅虎之前雇佣的一批数据科学家开发出了Hadoop。Facebook的数据团队开发了在Hadoop上编程的Hive语言。很多其他的数据科学家都丰富或者优化了这套工具,尤其是数据驱动的公司,比如谷歌,亚马逊,微软,沃尔玛,eBay,Linkedin和twitter。


什么样的人有能力做这些呢?什么技能让数据科学家成功呢?你可以把他们看成是数据骇客,分析师,沟通高手,值得信任的咨询师,这些东西组合到一起极具威力,也极其少见。


数据科学家最基本最通用的技能是写代码。也许五年后不太会这样了,那时很多人都会在他们的名片上印着“数据科学家”。一个更保值的技能是用所有相关方面都能听得懂语言进行沟通,另一个是用数据讲故事的特殊能力,通过口头表达或者视觉效果,或者两者都有。


但我们觉得,数据科学家占支配地位的品质应该是强烈的好奇心,想要深入问题内部的渴望,找到最核心的问题,提取成清晰的结论,并要经得起检验。比如,我们所知道的一位数据科学家,他研究的是欺诈问题,但他发现这个问题和DNA排序问题非常类似,在融合了两个完全不相干的世界之后,他和他的团队找到了一种能大幅降低欺诈损失的解决方案。


最后



现在你大概清楚了为什么这个新兴的角色会被称为“科学家”。比如实验物理学家,同样也需要设计仪器,收集数据,反复试验,并最终展示结果。因此,很多公司寻找能处理复杂数据的人才,很多招到的不错的人才都有物理或社会科学领域的学习和工作背景。有些最好的最有前途的数据科学家是研究复杂科学的博士生,比如生态学或者系统生物学。George是硅谷Intuit公司的数据科学团队的负责人,本身是天文学博士毕业。更普遍的是,当今业界许多数据科学家毕业于计算机科学,数学,经济学,和计算密集型的领域。



欢迎关注“云途数据”微信公众号(ID:yuntudata),每日分享大数据干货。



您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

大数据中国微信

QQ   

版权所有: Discuz! © 2001-2013 大数据.

GMT+8, 2024-11-24 00:53 , Processed in 0.075930 second(s), 24 queries .

快速回复 返回顶部 返回列表