大 数据分析是指收集、处理数据并获取信息的过程。具体地说,数据分析是建立审计分析模型,对数据进行核对、检查、复算、判断等操作,将被审计数据的现实状态与理想状态进行比较,从而发现审计线索,搜集审计证据的过程。通过数据分析,我们可以将隐没在杂乱无章的数据中的信息集中、萃取和提炼,进而找出所研究对象的内在规律。 大数据分析的理论核心就是数据挖掘。各种数据挖掘的算法基于不同的数据类型和格式能更加科学地呈现出数据本身的特点,能更快速地处理大数据。如果采用一个算法需要花好几年才能得出结论,那大数据的价值也就无从说起了。可视化是给人看的,数据挖掘是给机器看的。集群、分割、孤立点分析还有其他的算法可以使我 们深入数据内部去挖掘价值。这些算法不仅能够处理大数据的数据量,也一定程度地满足处理大数据的速度要求。 最初的数据可能杂乱无章且无规律,要通过作图、造表和各种形式的拟合来计算某些特征量,探索规律性的可能形式。这就需要研究用何种方式去寻找和揭示隐含在数据中的规律性。首先在探索性分析的基础上提出几种模型,再通过进一步的分析从中选择所需的模型。通常使用数理统计方法对所选定模型或估计的可靠程度和精确程度作出推断,数据分析的具体步骤如下。 (1)识别信息需求。识别信息需求可以为收 集数据、分析数据提供清晰的目标,是确保数据分析过程有效性的首要条件。 (2)收集数据。有目的的收集数据是确保数据分析过程有效的基础,需要对收集数据的内容、渠道、方法进行策划,主要考虑:①将识别信息需求转化为更具体的要求,如评价供方时,需要收集的数据可能包括其过程能力、测量系统不确定性等相关数据;②明确由谁在何时何处,通过何种渠道和方法收集数据;③记录表应便于使用;④采取有效措施,防止数据丢失和虚假数据对系统的干扰。 (3)分析数据。分析数据是指将收集到的数据通过加工、整理和分析后,将其转化为信息的过程。常用的分析数据方法有排列图、因果图、分层法、调查表、散布图、直方图、控制图、关联图、系统图、矩阵图、KJ法、计划评审技术、PDPC法、矩阵数据图。 大数据分析有极广泛的应用范围。在产品的整个生命周期内,数据分析过程是质量管理体系的支持过程,包括从产品的市场调研到售后服务以及最终处置都需要适当运用数据分析,以提升有效性。 北京理工大学大数据搜索与挖掘实验室张华平主任研发的NLPIR大数据语义智能分析技术是满足大数据挖掘对语法、词法和语义的综合应用。NLPIR大数据语义智能分析平台是根据中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。 NLPIR大数据语义智能分析平台主要有精准采集、文档转化、新词发现、批量分词、语言统计、文本聚类、文本分类、摘要实体、智能过滤、情感分析、文档去重、全文检索、编码转换等十余项功能模块,平台提供了客户端工具,云服务与二次开发接口等多种产品使用形式。各个中间件API可以无缝地融合到客户的各类复杂应用系统之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系统平台,可以供Java,Python,C,C#等各类开发语言使用。 大数据分析已成为大数据技术最重要的应用,它从大数据中提取、挖掘对业务发展有价值的、潜在的知识,找出趋势,为决策层提供有力依据,对产品或服务发展方向起到积极作用,将有力推动企业内部的科学化、信息化管理。在信息管理领域,综合应用数据分析技术和人工智能技术,获取用户知识、文献知识等各类知识,将是实现知识检索和知识管理发展的必经之路。
|