请点击此处输入图片描述 ​我们经常谈论复杂的数据给大数据分析带来的挑战和机遇。 但是什么是复杂的数据呢?如何判断企业当前的数据是否是“复杂的”?或者未来的数据会不会是“复杂的” ?本文将会为您解决这些问题。 判断数据的复杂性为什么很重要?您的数据的复杂性意味着您将其转化为业务价值时将面临的困难程度——复杂的数据集通常比简单的数据更难处理和分析,而且往往需要不同的大数据分析工具进行操作。 复杂的数据需要付出更多的精力来处理和建模,然后才能更好地进行分析和可视化。 因此,了解您的数据的当前复杂性及其未来潜在的复杂性是非常重要的,以评估您的大数据分析项目是否能够顺利完成任务。 先简单了解下:量大且来源不同的数据通常意义上,有两个迹象表明您的数据是复杂的: ü 数据量很大:我们之所以将“大数据”用引号表示,是因为这个术语看起来就像没有边界一样,实际上,处理大量数据是一个很大的挑战,所需的计算资源和技术能力非常高,就像在存储的大量原始信息之间区分信号和噪音一样。 ü 数据来源不同:多个数据源通常意味着数据杂乱无章,或者换句话的意思是数据来源于遵循不同内部逻辑或结构的多个数据集。 因此,数据必须被转换或整合到中央存储库中,以确保数据具有一致性。 以上两点可以初步判定数据的复杂性。如果您正在处理大量或来源不同的数据,您应该开始意识到您的数据非常复杂。要做深入研究的话,有七个更具体的指标可以用来判断数据的复杂性,其实际上就是上述两点的扩充。 请点击此处输入图片描述 1、结构 来源不同的数据,或者是同一来源但是不同表格的数据,所表达的信息也许相同但是结构却不一样。例如:假设人事部门有三种不同的表,一种用于员工的个人资料,一种用于员工的职位和工资,另外一种用于资历信息等等;而财务部门只在一种表格中记录以上信息,以及保险、福利和其他的费用。另外,在这些表格中,有些表格的员工可能以全名的形式记录,有些表格可能是其他的形式,甚至有时候是不同组合的形式。 为了有效地使用这些不同的表格数据,需要对数据进行清理和数据建模。还有一种情况,非结构化的数据源(如NoSQL数据库)会使数据更加复杂,因为这种结构的数据没有可参考的模型。 2、大小 再次回到“大数据”这个模糊的概念,数据量的大小直接影响到分析软件或硬件的类型选择。我们从基本的数据量大小来进行判断:千兆字节,TB级或PB级。数据增长越大,将压缩数据转换到服务器的RAM中的数据库越容易被“阻塞”。还有其他要注意的事项,比如拥有很多列和行的表格(Excel,可以说是最常用的数据分析工具,但仅限于1048576行),您将发现,用于分析100,000行的工具和方法与分析10亿行所需的工具和方法大不相同。 3、颗粒度 您希望探索数据的颗粒度到什么级别?创建报表很容易,但是对数据深入的分析和挖掘很难,这就限制了数据洞察的结果。能进行细颗粒度钻取的数据分析工具,需要能够在特定的基础上处理更大量的数据(而不依赖于预定义的查询、聚合和汇总)。 4、查询语言 不同的数据源使用不同的语言:而SQL是从常用源和RDBMS中提取数据的主要工具,当使用第三方平台时,您通常需要通过自己的API和语法与其连接,并且了解内部数据模型和用于访问此数据的协议。 您的大数据分析工具需要足够灵活,以允许通过内置连接器或API访问对所述数据源进行此类型的本机连接,否则您将发现自己不得不重复将数据导出到电子表格\ SQL数据库\数据仓库的繁琐过程 ,然后将其从那里接入到您的大数据分析软件中,使您的分析变得繁琐。 5、数据类型 使用大多数数字,以表格形式存储的操作数据是一回事,但是大量和非结构化的机器数据是另一回事,而且存储在MongoDB中的文本重的数据集也是如此,更不用说视频和音频记录。 不同类型的数据具有不同的规则,并且找到一种从所有这些数据中构建一个真实来源的方法是至关重要的,以便将您的业务决策作为您所有组织数据的综合视图。 数据类型有以表格形式存储的数据、非结构化数据、存储在数据库中的数据集、视频、音频等等,不同的数据具有不同的规则,保持所有不同类型数据的真实性至关重要,以便为业务决策提供整体的视图。 6、分散的数据 简单地说,就是数据存储在多个位置。 例如,不同的部门的本地文件或云端(购买的存储或云应用中),源自客户或供应商的外部数据等。这些数据更难收集(因为涉及到众多相关的利益者),并且一旦收集上来,通常需要进行一些清理或标准化,才能交叉参考和分析各种数据集,因为有些数据集会按照人为意志有选择性的进行收集。 7、增长率 最后,您不仅要考虑当前的数据,还要考虑数据的增长或变化的速度。 如果数据源经常更新,或者新的数据源被频繁添加,这可能会给您的硬件和软件带来沉重的负担(因为较低级的系统,无论何时对源进行重大更改,数据都需要从源头上重新获取整个数据集),并且这个负担会因为数据的结构、类型、大小等因素成指数倍增。 那么,您应该怎么办呢?如果您的数据具有以上一个或多个特征,并认为您的数据可能很复杂,请不要绝望:理解是寻找合适解决方案的第一步,分析复杂数据本身不必过于复杂。 请点击此处输入图片描述 如果您查看上图的数据复杂性象限,您可以根据源/表的数量或数据的大小对数据进行分类。 在寻找大数据分析解决方案时,您需要考虑目前的数据在哪个象限以及将来会在哪个想象。 确定数据复杂度后,寻找一个工具,不仅可以帮助您解决目前的问题,还可以随着数据量的增长不断满足需求。
|