搜索
查看: 1509|: 0

R语言处理大数据分析具有天然优势

[复制链接]

322

主题

0

回帖

1208

积分

网站编辑

积分
1208
发表于 2014-7-10 16:13:58 | 显示全部楼层 |阅读模式
        Mark Whitehorn是邓迪大学分析学客座教授,分析、商务智能和数据科学的专家。与微软、Teradata和TIBCO公司都有过合作。今天,他做客TechTarget,介绍了开源R语言的应用。

R语言是一种专门化的语言,我个人非常喜欢。如果它的功能和你的需求恰好吻合,那R语言会发挥出很大的价值。接下来我将着重谈一谈R语言的优势和特征。
R语言最强大的功能在于数据采样和数据管控。假设你需要从一组数据中随机抽取100个值的样本,这些数据都是正态分布,平均值为65.342,有2.1的标准偏差。这时你需要做的只是输入这样一行命令:
rnorm(100,65.342,2.1)
之后,R就会生成你需要的数据(如下图)。

接下来说的可能有点偏技术了。但说到R语言不能不说它的数值模拟能力。R分析也得益于数值模拟功能的运用。举个例子来说,我最近要做一个计分系统的Monte Carlo模拟,叫做净推荐值(Net Promoter Score,NPS)。Monte Carlo模拟是分析的重要组成部分,你可以给纷繁复杂的系统建模,更好地了解它们。因为被分析专家应用了很多年,Monte Carlo模拟包含了成千上万次的数值随机采样。
R语言在创建和运行Monte Carlo模拟方面有着卓越的表现,上面提到的NPS模拟,只需要9行代码就可以完成。我本可以“吹嘘”说我只用9行代码就搞定了,但这真心与个人水平无关,是因为R语言本身就善于生成和管控海量数据,也善长大数据处理。
那么,R语言为什么能胜任这样的工作呢?简言之,因为它有一整套专门为这类工作设计的功能。那么它为什么会有这些功能呢?因为R语言是免费、开源的。如果人们需要什么功能,但R语言不具备这种功能,人们就可以贡献代码,完善R语言。R语言已经应用了15年了,这意味着你需要的大部分功能,它都已经具备了。
最后,R语言很好上手,你只需要下载R语言和一个前端环境(比如RStudio,我过去用它创建图像),然后就可以敲代码了。
因此,如果你要处理的是数值操作,尤其是Monte Carlos模拟,我推荐你考虑一下R语言。但如果是其他工作的话,R语言恐怕并不适合。


您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

大数据中国微信

QQ   

版权所有: Discuz! © 2001-2013 大数据.

GMT+8, 2025-1-28 03:23 , Processed in 0.076791 second(s), 24 queries .

快速回复 返回顶部 返回列表