搜索
查看: 5034|: 0

大数据入门书籍(二)

[复制链接]

24

主题

0

回帖

159

积分

注册会员

积分
159
发表于 2016-12-6 15:36:02 | 显示全部楼层 |阅读模式
  大数据是眼下非常时髦的技术名词,自然也催生出了一些与大数据相关的职业,通过对数据的分析挖掘来影响企业的商业决策。

  这群人被称做数据科学家(DataScientist),这个头衔最早由D.J.Pati和JeffHammerbacher于2008年提出,他们后来分别成为了领英(LinkedIn)和Facebook数据科学团队的负责人。而数据科学家目前也已经在美国传统的电信、零售、金融、制造、物流、医疗、教育等行业里开始创造价值。

  不过在国内,大数据的应用才处于萌芽状态,人才市场还不太成熟,每家公司对大数据工作的要求不尽相同:有的强调资料库编程、有的突出应用数学和统计学知识、有的则要求有咨询公司相关的经验、有些是希望能找到懂得产品和市场的应用型人才。正因为如此,很多公司会针对自己的业务类型和团队分工,给这群与大数据打交道的人一些新的头衔和定义:数据挖掘工程师、大数据专家、数据研究员、用户分析专家等都是经常在国内公司里出现的Title,我们将其统称为「大数据工程师」。

  那么如何进行大数据的入门级学习呢?首先我们需要了解大数据工程师是做什么的以及需要具备什么样的能力。

  一:大数据工程师是做什么的?

  用一句大数据研究员的话来说,大数据工程师就是一群「玩数据」的人,玩出数据的商业价值,让数据变成生产力。大数据和传统数据的最大区别在于,它是在线的、实时的,规模海量且形式不规整,无章法可循,因此「会玩」这些数据的人就很重要。

  分析历史、预测未来、优化选择,这是大数据工程师在「玩数据」时最重要的三大任务。通过这三个工作方向,他们帮助企业做出更好的商业决策。

  二:需要具备的能力

  数学及统计学相关的背景

  就采访过的BAT三家互联网大公司来说,对于大数据工程师的要求都是希望有统计学和数学背景的硕士或博士学历。缺乏理论背景的数据工作者,更容易进入一个技能上的危险区域(DangerZone)—一堆数字,按照不同的数据模型和演算法总能捯饬出一些结果来,但如果你不知道那代表什么,就不是真正有意义的结果,并且那样的结果还容易误导你。但是,有统计学和数据硕士和博士的能是很少的,又是学习大数据的那就更少了,所以,对于现在的大数据从业人员,90%都没有那么高的学位,只要你能完成企业交给你的任务,就行了。正所谓不看学历,只看能力,就是这个道理。

  电脑编码能力

  实际开发能力和大规模的数据处理能力是作为大数据工程师的必备要素。举例来说,现在人们在社交网路上所产生的许多记录都是非结构化的数据,如何从这些毫无头绪的文字、语音、图像甚至视频中攫取有意义的信息就需要大数据工程师亲自挖掘。即使在某些团队中,大数据工程师的职责以商业分析为主,但也要熟悉电脑处理大数据的方式。

  三:如何进行入门级学习

  虽然数据科学并没有一个独立的学科体系,统计学,机器学习,数据挖掘,资料库,分散式计算,云计算,信息可视化等技术或方法都可以来对付数据。但从狭义上来看,数据科学就是解决三个问题:

  1.datapre-processing;

  2.datainterpretation;

  3.datamodelingandanalysis.

  这也就是做数据工作的三个大步骤:

  1、原始数据要经过一连串收集、提取、清洗、整理等等的预处理过程,才能形成高质量的数据;

  2、数据「长什么样」,有什么特点和规律;

  3、按照需要,比如要对数据贴标签分类,或者预测,或者想要从大量复杂的数据中提取有价值的且不易发现的信息,都要对数据建模,得到output。

  这三个步骤未必严谨,每个大步骤下面可能根据问题的不同也会有不同的小步骤,但按照这个大思路走,数据一般不会做跑偏。

  四:有哪些适合初学者的书籍

  这样看来,数据科学其实就是门复合型的技术,既然是技术就从编程语言谈起,为了简练,只说说R和Python。但既然是推荐数据科学方面的书,就不提R/Python编程基础之类的书了,直接说跟数据科学相关的。

  1:Rprogramming

  如果只是想初步了解一下R语言已经R在数据分析方面的应用,那不妨就看看这两本:

  2:Rinaction:其实对于一个没有任何编程基础的人来说,一开始就学这本书,学习曲线可能会比较陡峭。但如果配合上一些辅助材料,如官方发布的Rbasics,stackoverflow上有tag-R的问题集(Newest『r』Questions),遇到复杂的问题可在上面搜索,总会找到解决方案的。这样一来,用这本书拿来入门学习也问题不大。而且这本书作者写得也比较轻松,紧贴实战。

  3:DataanalysisandgraphicswithR:使用R语言做数据分析的入门书。这本书的特点也是紧贴实战,没有过多地讲解统计学理论,所以喜欢通过情境应用来学习的人应该会喜欢这本入门书。而且这本书可读性比较强,也就是说哪怕你手头没电脑写不了代码,有事没事拿出这本书翻一翻,也能读得进去。

  但如果你先用R来从事实实在在的数据工作,那么上面两本恐怕不够,还需要这些:

  4:ModernappliedstatisticswithS:这本书里统计学的理论就讲得比较多了,好处就是你可以用一本书既复习了统计学,又学了R语言。(S/Splus和R的关系就类似于Unix和Linux,所以用S教程学习R,一点问题都没有)

  5:DatamanipulationwithR:这本书实务性很强,它教给你怎么从不同格式的原始数据文件里读取、清洗、转换、整合成高质量的数据。当然和任何一本注重实战的书一样,这本书也有丰富的真实数据和模拟数据供你练习。对于真正从事数据处理工作的人来说,这本书的内容非常重要,因为对于任何研究,一项熟练的数据预处理技能可以帮你节省大量的时间和精力。否则,你的研究总是要等待你的数据。

  6:RGraphicsCookbook:想用R做可视化,就用这本书。150多个recipes,足以应付绝大多数类型的数据。

  7:AnintroductiontostatisticallearningwithapplicationinR:这本书算是著名的theelementofstatisticallearning的姊妹篇,后者更注重统计(机器)学习的模型和演算法,而前者所涉及的模型和演算法原没有后者全面或深入,但却是用R来学习和应用机器学习的很好的入口。

  8:AhandbookofstatisticalanalysisusingR:这本书内容非常扎实,很多统计学的学生就是用这本书来学惯用R来进行统计建模的。

  9:Python

  ThinkPython,ThinkStats,ThinkBayes:这是AllenB.Downey写的著名的ThinkXseries三大卷。其实是三本精致的小册子,如果想快速地掌握Python在统计方面的操作,好好阅读这三本书,认真做习题,答案链接在书里有。这三本书学通了,就可以上手用Python进行基本的统计建模了。

  10:PythonForDataAnalysis:作者是pandas的主要开发者,也正是Pandas使Python能够像R一样拥有dataframe的功能,能够处理结构比较复杂的数据。这本书其实analysis讲得不多,说成数据处理应该更合适。掌握了这本书,处理各种糟心的数据就问题不大了。

  11:IntroductiontoPythonforEconometrics,StatisticsandDataAnalysis:这本书第一章就告诉你要安装Numpy,Scipy,Matplotlib,Pandas,IPython等等。然后接下来的十好几章就是逐一介绍这几个库该怎么用。很全面,但读起来比较枯燥,可以用来当工具书。

  12:PythonDataVisualizationCookbook:用Python做可视化的教材肯定不少,我看过的也就这一本,觉得还不错。其实这类书差别都不会很大,咬住一本啃下来就是王道。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

大数据中国微信

QQ   

版权所有: Discuz! © 2001-2013 大数据.

GMT+8, 2025-1-28 01:12 , Processed in 0.072871 second(s), 24 queries .

快速回复 返回顶部 返回列表