随着互联网技术的蓬勃发展,前端的展示、交互越来越复杂,在用户的访问、操作过程中产生了大量的数据。每一个网络用户都是数据的缔造者,这些数据已然渗透我们的生活。
再看看,Intuit公司的数据工程副总裁Bill Loconzolo,双脚踏进了数据湖。Smarter Remarketer的首席数据科学家Dean Abbott直接奔向了 云计算。大数据和大 数据分析的领先优势,其中包括用来存储原生格式的大量数据的数据湖泊,当然,云计算技术也在快速前进。虽然技术选项还远远没有成熟,但是等待根本不是一个选项。
1、云中的大数据分析
Hadoop是一个用于处理非常大的数据集的框架和工具,它最初被设计为在集群的物理机器上工作。这已经改变了。“现在越来越多的技术可用于在云中处理数据,”一Forrester Research的分析师布赖恩•霍普金斯说。例子包括亚马逊的Redshift托管BI数据仓库、谷歌的BigQuery中的数据分析服务、IBM的Bluemix云平台和亚马逊的室壁运动数据处理服务。 “大数据的未来状态将是内部部署和云的混合,”他说。
2、Hadoop:新的企业数据操作系统
霍普金斯说,分布式分析的框架,如MapReduce,正在演变为逐渐转向Hadoop的通用数据操作系统的分布式资源管理器。他说,有了这些系统,你可以通过将它们插入Hadoop作为分布式文件存储系统来执行许多不同的数据操作和分析操作。
3、大数据湖泊
传统的数据库理论决定了你可以再输入任何数据之前设计数据设置。数据湖,也被称为企业的数据湖泊或企业数据中心,逐渐成为企业的大脑,在普华永道美国咨询业务的合伙人兼首席技术专家克里斯•柯伦说。 随着不断深入,人们逐渐建立起对数据的看法。对于建设一个大型的数据库,这将是一个大增量的有机的模型,“柯伦说。不大好的地方就是,使用它的人必须是高度熟练。
4、更多的预测分析
在大数据时代,分析师不仅要和更多的数据一起工作,而且要掌握处理大量的多属性记录的能力。传统的机器学习使用基于总数据集的样本进行统计分析。他说,“你现在有能力处理非常大的数字记录和每条记录的属性”,并且增加了可预测性。
大数据和计算能力的组合也可以让分析师探索全天新的行为数据,如访问的网站或位置。霍普金斯将其称之为“稀疏数据”,因为要找到感兴趣的东西,你必须涉及大量的不相关的数据。“试图用传统的机器学习算法,对这种类型的数据的计算是不可能的。
5、SQL 在Hadoop之上:更快、更好
霍普金斯说, SQL在Hadoop之上“打开了企业Hadoop平台的门”因为企业并不需要对高端数据科学家和商业分析师投资,那些人可以编写使用Java、JavaScript和Python脚本 ,这是Hadoop的用户传统上需要做的。
6、更多,更好的NoSQL
柯伦说,替代传统的基于SQL的关系型数据库的,叫做NoSQL(简称“不仅是SQL”)数据库,作为在特定种类的分析应用程序使用的工具正在迅速得到普及,并且这一势头将继续增长。他估计,有15到20个开源NoSQL数据库,每个都有自己的特点。
7、深入学习
霍普金斯说,“大数据将使用类似深度学习先进的分析技术,以我们现在才开始理解的方式处理很多不同的和非结构化的文本”。
8、在内存分析
拜尔说,但是有很多围绕HTAP的炒作,而企业已经过度使用了。对于其中用户需要整天以同样的方式多次观察相同的数据系统,并且这里面的数据中没有显著变化 – 在内存中是一种浪费。
虽然你可以更快地用HTAP进行分析,所有的交易都必须驻留在同一个数据库中。拜尔说,问题是,是现在大多数的分析工作是关于把数据从许多不同的系统连接在一起。“只要把全部的都放在一个数据库可以追溯到这个证伪的信念,如果你想使用HTAP你所有的分析中,它要求所有的交易是在一个地方,”他说,“你仍然需要集成不同的数据。”
保持领先
随着围绕大数据和分析出现如此多的新趋势,IT组织需要创造条件,让分析师和数据科学家做实验。 “你需要一种方法来评估,做出原型并最终融入其中的一些技术应用到企业,”柯伦说。
|