很多牛逼的公司都宣称在建立数据科学部门,这个部门该如何组建,大家都在摸石头过河。O’reilly Strata今年六月份发布了报告 《Analyzing the Analyzers》,比较清晰的阐述了数据科学部门所需要的不同角色及其技能。重点内容翻译如下: 数据科学家的分类研究方法自我认识 请被调查者用常用的5级标准(从完全同意到完全不同意)来回答 “我觉得自己是一个XX” 这样的问题,能够获得数据科学家的自我认识结果。调查结果将数据科学家分为以下四类:Data Businesspeople、Data Creatives、Data Developer、Data Researchers。 技能需求 请被调查者对数据科学家所需的以下22项技能进行排序,分析不同类型的数据科学家的技能要求。其中的ML是机器学习的简写,OR指运筹学(Operations Research) 将它们结合起来分析 根据受访者的自我认知和技能排序,可以识别出不同类型的数据科学家所需要的技能。 数据科学家的类别Data Businesspeople Data Businesspeople 往往专注于组织管理和如何从数据项目中产生利润。他们往往将自己定位为领导或创业者,约 80% 的 Data Businesspeople 承担员工管理的责任。Data Businesspeople 还可能是咨询服务或合同类服务的提供者。Data Businesspeople 学历相对较高,大约 60% 拥有硕士以上学位,其中 MBA 接近 25%;而且很多 Data Businesspeople 都有工科学位的背景。Data Businesspeople 往往操作真实数据,90% 以上偶尔会操作 GB 级别的数据。与其他数据科学家相比,Data Businesspeople 年龄稍微偏大,接近四分之一是女性(相比略高),仅有四分之一的 Businesspeople 把自己称为数据科学家(相比略低)。 Data Creative 数据科学家往往可以独立完成一条龙的完整分析过程:从数据提取,整合、并进行分层,进行统计或其他复杂的分析,创造引人注目的可视化诠释和效果,开发具有更宽广应用前景的数据工具。而 Data Creative 则是其中能力最广泛的数据科学家,他们能够综合使用各种工具和技术解决问题、能够像黑客马拉松那样创新产品原型,是典型的万事通型人才。与其他类的数据科学家相比,Data Creative 更具艺术家风范。与 Data Researcher 相似,Data Creative 也有丰富的的学术经验,大约 3/4 拥有院校授课或发表论文的经历,一般拥有经济学和统计学等领域的学位。但不同之处在于,仅有较少的 Data Creative 拥有博士学位。Data Creative 具有深厚的业务经验,80% 的 Data Creative 按合同工作(接项目?);40% 创立了企业,甚至比 Data Businesspeople 还多。Data Creative 还被认为是黑客。他们往往还可能有深厚的开源经验,业余为开源项目和开放数据项目做贡献。Data Creative 相对更年轻,男性更多。有意思的是,他们也是最积极的回应我们最后一个问题的:“你觉得本次调查是否对你有用?” Data Developer Data Developer 专注于解决数据管理的技术问题 —— 如何获取,存储,以及学习。Data Developer 更倾向于将自己评价为科学家(在这一点上仅次于 Data Researcher)。对于那些从事机器学习和相关的学术研究的人来说,这是当然合理的。但是,还有一些 Data Developer,每日的工作仅仅是日复一日的开发代码。半数 Data Developer 具有计算机科学或计算机工程学位,约一半人为开源项目作出过贡献。更多 Data Developer 会强调自己具有机器学习/大数据技能。部分 Data Developer 做过咨询工作,承担过管理岗位、或为开放数据项目做出过贡献。 Data Researcher 走向“数据科学家”头衔的职业生涯路径中,最有趣是从在学校研究物理或社会科学开始,也有统计学专业的。许多组织已经深刻认识到,即使这些学生在校期间所学专业与企业业务领域完全不同,但他们被训练出的利用数据了解复杂过程的能力仍然极具价值。大部分具备统计技能的受访者,自认为是 Data Researcher。近 75% 的 Data Researcher 在同行评审期刊上发表过文章,半数以上拥有博士学位。(心理和政治科学学位也有可观的数字)。Data Researcher 很少创业,而且仅有半数具有管理经验。
|