大数据分析中的八大趋势

缺鼻子少眼 · 发表于 2014-10-31 16:03:39

Intuit公司的数据工程副总裁Bill Loconzolo,双脚踏进了数据湖。.Smarter Remarketer的首席数据科学家Dean Abbott直接奔向了云计算。大数据和分析的领先优势，其中包括用来存储原生格式的大量数据的数据湖泊，当然，云计算技术也在快速前进。虽然技术选项还远远没有成熟，但是等待根本不是一个选项。

“现实情况是，这些工具仍不断涌现，并且Hadoop的平台的承诺并没有达到业务需要依赖于它的水平，”Loconzolo说。但是，大数据和分析的学科发展如此之快以至于企业需要在涉水该方面或冒落后的风险。“在过去，新兴技术可能花费数年时间才能成熟，”他说。“现在人们在几个月内或几周内就能拿出迭代和驱动解决方案”那么，什么才是应该是您的观察名单上的或在您的测试实验室中的最重要的新生技术和发展趋势？计算机世界要求IT主管、咨询顾问和行业分析师来权衡。这里是他们给出的名单。

1. 云中的大数据分析

Hadoop是一个用于处理非常大的数据集的框架和工具，它最初被设计为在集群的物理机器上工作。这已经改变了。“现在越来越多的技术可用于在云中处理数据，”一Forrester Research的分析师布赖恩•霍普金斯说。例子包括亚马逊的Redshift托管BI数据仓库、谷歌的BigQuery中的数据分析服务、IBM的Bluemix云平台和亚马逊的室壁运动数据处理服务。“大数据的未来状态将是内部部署和云的混合，”他说。

Smarter Remarketer，是基于SaaS零售分析、细分和营销服务的提供商，最近从一个内部的Hadoop和MongoDB的数据库基础架构转向了亚马逊的Redshift，Redshift是基于云的数据仓库。印第安纳波利斯的公司在收集网上的和零售销售的以及客户的人口统计数据，以及实时行为数据，然后分析这些信息，以帮助零售商在现实中的某些情况下建立有针对性的消费者需要的信息反馈机制。

Abbott说redshift对smarter Remarketer更具成本效益，特别是因为它具有结构化数据丰富的报表功能。而作为一个托管服务，这既具有可扩展性和又非常容易使用。“扩大在虚拟机比购买物理机管理工作更便宜，”他说。

就其本身而言，总部设在加州的Mountain View已经小心翼翼走向云分析，因为它需要一个安全、稳定和可审计的环境。目前,金融软件公司保持私有Intuit分析云内的一切。“我们正在与亚马逊和Cloudera合作一个可以跨越公私，高可用性和安全分析的云，但目前还没有人解决这个问题，”Loconzolo说。但是，像Intuit这种卖能够在云中运行的产品的公司转向云是不可避免的。“它会达到这样一种程度，那便是高成本的将所有的数据转移到一个私有云中，”他说。

2. Hadoop：新的企业数据操作系统

霍普金斯说，分布式分析的框架，如MapReduce，正在演变为逐渐转向Hadoop的通用数据操作系统的分布式资源管理器。他说，有了这些系统，你可以通过将它们插入Hadoop作为分布式文件存储系统来执行许多不同的数据操作和分析操作。

这对企业意味着什么呢？由于SQL，MapReduce的，内存，流处理，图形分析和其他类型的工作负载在Hadoop上有足够的性能来运行，越来越多的企业将会使用Hadoop作为一个企业的数据中心。霍普金斯说，“在Hadoop中运行许多不同种类的查询和数据操作将使你想进行分析的数据中心成本更低、更加通用”。

Intuit公司的Hadoop基础已经建立。“我们的策略是利用Hadoop分布式文件系统，它将与MapReduce和Hadoop密切合作，它将作为一项能使所有类型的人与产品进行互动的长期战略，，”Loconzolo说。

3.大数据湖泊

传统的数据库理论决定了你可以再输入任何数据之前设计数据设置。数据湖，也被称为企业的数据湖泊或企业数据中心，逐渐成为企业的大脑，在普华永道美国咨询业务的合伙人兼首席技术专家克里斯•柯伦说。他说，“据说我们将把这些数据源放到一个大的Hadoop存储库中，我们不会事先试图设计一个数据模型”。相反，它将给人们提供工具来分析数据，以及给在湖中存在的数据一个高层次的定义。随着不断深入，人们逐渐建立起对数据的看法。对于建设一个大型的数据库，这将是一个大增量的有机的模型，“柯伦说。不大好的地方就是，使用它的人必须是高度熟练。

Loconzolo说，作为Intuit分析云的一部分，Intuit有一个数据湖，其中包括用户点击流数据和企业以及第三方数据，但重点是“民主化”周围的工具，使商务人士能有效地使用它。Loconzolo说，在Hadoop上构建数据湖，他的关心的是对于该平台企业并没有真正就绪。“我们希望，传统的企业数据库，有几十年的监控访问控制、加密、保护数据并跟踪从源到目标数据的血统，”他说。

4.更多的预测分析

霍普金斯说，在大数据时代，分析师不仅要和更多的数据一起工作，而且要掌握处理大量的多属性记录的能力。传统的机器学习使用基于总数据集的样本进行统计分析。他说，“你现在有能力处理非常大的数字记录和每条记录的属性”，并且增加了可预测性，。

大数据和计算能力的组合也可以让分析师探索全天新的行为数据，如访问的网站或位置。霍普金斯将其称之为“稀疏数据”，因为要找到感兴趣的东西，你必须涉及大量的不相关的数据。“试图用传统的机器学习算法，对这种类型的数据的计算是不可能的。他说，现在我们可以用廉价的计算能力来解决问题。“当速度和内存不再是关键问题时，你制定的问题就会完全不同.”Abbott说。“现在，通过对问题配以巨大的计算资源，你可以找到哪些变量是最合适被解析的。这真的是一个改变游戏规则。”

Loconzolo说，“由于相同Hadoop核心，实现实时分析和预测建模，这就是我们的利益所在”。对于这个问题，Hadoop以比更成熟的技术长达20倍的时间来获得答案。所以Intuit公司正在测试Apache Spark，这是一种大规模数据处理引擎，及其相关的SQL查询工具，Spark SQL。“Spark有快速交互式查询和图表服务和流媒体的功能。Loconzolo说，它将数据保持在Hadoop之中，但为我们以足够的性能来缩小差距。

5.SQL 在Hadoop之上：更快、更好

如果你是一个聪明的编码器和数学家，你可以在Hadoop上存放数据，并对任何事情做出分析。这是承诺和问题，Gartner的分析师马克•拜尔表示。“我需要有人把它变成一个我很熟悉的格式和语言结构，”他说，SQL是可以被Hadoop产品所识别的，即使任何熟悉的语言都可以有这个功能，拜尔说。支持类似SQL的查询工具，使得那些已经了解SQL应用类似的技术企业用户能更好的把握数据。霍普金斯说，SQL在Hadoop之上“打开了企业Hadoop平台的门”因为企业并不需要对高端数据科学家和商业分析师投资，那些人可以编写使用Java、JavaScript和Python脚本，这是Hadoop的用户传统上需要做的。

这些工具不是什么新鲜事物。Apache Hive的配置单元提供了一个结构化的结构化，曾经用于Hadoop的类似SQL的查询语言。但是，来源于Cloudera、匹维托软件、IBM和其他供应商的商业选择，不仅提供了更高的性能，同时也变得越来越快。这使得该技术非常适合“迭代分析，”其中一位分析师问了一个问题，得到一个答案，然后问另外一个。这类型的工作，历来需要构建一个数据仓库。 SQL在Hadoop中不会取代数据仓库，至少不会很快，霍普金斯说，“但它确实给特定类型的分析提供了更昂贵的软件和设备的替代品。”

6.更多，更好的NoSQL

柯伦说，替代传统的基于SQL的关系型数据库的，叫做NoSQL（简称“不仅是SQL”）数据库，作为在特定种类的分析应用程序使用的工具正在迅速得到普及，并且这一势头将继续增长。他估计，有15到20个开源NoSQL数据库，每个都有自己的特点。例如，一个拥有图形数据库的能力的NoSQL产品，如ArangoDB，提供了一个比相关数据库更快速、更直接的方式来分析客户或销售人员的关系网络。这些数据库已经存在了一段时间,但他们在加速发展,因为人们需要的各种分析，他说。普华永道一位客户在新兴市场已经在商店货架上放置了传感器以监控哪些产品还有，客户处理他们用多长时间以及消费者在货架前站多长时间。“这些传感器喷涌的数据流将成倍增长，”柯伦说。“一个NoSQL的key-value对的数据库，如Redis正是这种合适的地方，因为这是专用的，高性能和轻便的。”

7.深入学习

深度学习，基于神经网络的一套机器学习技术，仍在不断发展，但在解决业务问题上有巨大潜力，霍普金斯说。“深度学习使计算机能够识别大量的非结构化和二进制数据，并在不需要特定的模型或编程指令下推断出之间的关系，”他说。

举一个例子，一个深度学习算法可以从维基百科的数据自身知道，加利福尼亚州和得克萨斯州这两个州在美国。“它没有被定为模型去了解一个国家和国家的概念，并且这在旧的机器学习和新兴深度学习方法之间有很大差异，“霍普金斯说。

霍普金斯说，“大数据将使用类似深度学习先进的分析技术，以我们现在才开始理解的方式处理很多不同的和非结构化的文本”。例如，它可以用于识别许多不同种类的数据，比如形状，颜色和视频中的物体–或甚至图像内的猫，如由谷歌在2012年所做的著名的“神经网络”。识别管理和高级分析概念以及它所寓意的东西是一个重要的未来趋势，霍普金斯说。

8.在内存分析

拜尔说，使用内存数据库来加快分析处理成为日益流行和非常有益的设置。事实上，很多企业已经借助混合交易/分析处理（HTAP） –允许交易和分析处理驻留在同一个内存数据库。

拜尔说，但是有很多围绕HTAP的炒作，而企业已经过度使用了。对于其中用户需要整天以同样的方式多次观察相同的数据系统，并且这里面的数据中没有显著变化–在内存中是一种浪费。

虽然你可以更快地用HTAP进行分析，所有的交易都必须驻留在同一个数据库中。拜尔说，问题是，是现在大多数的分析工作是关于把数据从许多不同的系统连接在一起。“只要把全部的都放在一个数据库可以追溯到这个证伪的信念，如果你想使用HTAP你所有的分析中，它要求所有的交易是在一个地方，”他说，“你仍然需要集成不同的数据。”

此外，引进的内存数据库意味着有另一种产品来管理、安全、并找出如何整合和规模。

对于Intuit公司来说，Spark的使用已经带走了一些拥抱内存数据库冲动。“如果我们能够用Spark基础设施解决我们实用案例的70％，内存中的系统便可以解决100％，我们将继续保持我们的分析云中的70％，”Loconzolo说。“因此，我们将原型，看看它现在是否已经准备好，并停留在内存系统内部。”

保持领先

随着围绕大数据和分析出现如此多的新趋势，IT组织需要创造条件，让分析师和数据科学家做实验。“你需要一种方法来评估，做出原型并最终融入其中的一些技术应用到企业，”柯伦说。

“IT经理和实施人员不能以缺乏成熟为借口，停止试验，”拜尔说。最初，只有少数人–最熟练的分析师和数据科学家–需要进行试验。那么那些高级用户和IT部门应该共同确定何时提供新的组织的其余部分资源。并且IT部门不一定想要向前全速前进的分析师。相反，拜尔说，IT部门需要与分析师合作，“把变速油门安装在这些新的高性能的工具之上”。

收藏本站

快速投稿

联系我们

广告服务

基石导航

峰会活动

基石数据

社区

大数据分析中的八大趋势