在一个信息数据爆炸的年代,我们在生活中无论是购物,交友,停车,健身,旅行还是读写,都在无时无刻的创造着新的数据,在海量的数据集中,很难通过普通的数据处理方法进行数据的分析和清洗,在时间与空间上都难以为满足需要,所以大数据的概念在近年来也持续升温。社交媒体时代,用户能够通过互联网来表达自己的意愿,进行评论或表达自己的观点。需要分析的数据不再局限于能够较好的处理的“冷酷”且“坚硬”的结构化数据。更多的需要处理的非结构化数据成了近年来研究和攻克的方向。 大数据,它指的是数据集是非常大,使用现有的数据库管理工具来处理,也出现了许多重要的应用,比如上网搜索,商业信息,社交网络,社交媒体,基因组学和气象学。大数据提出了数据库和 数据分析研究了隆重的挑战。应对大数据的挑战,文本处理是不可或缺的一部分。大数据与人们以各种方式连接的媒介。尤其是,大型数据集探索性分析和隐私保护数据共享和分析按需 数据挖掘,这些内容都是数据处理的发展方向。由于资源供应的弹性和按需性质, 云计算提供了一个高性价比和强大的技术大数据的能力。在这种模式下,数据服务提供商能够租地理上分散的数据中心来处理他们大量的数据。数据被动态生成,资源价格变化,随着时间的推移,从不同的不同地理位置的移动数据,数据中心而供应充足的计算资源来处理它们,是实现成本效益的一项重要任务。 文本挖掘或者文档挖掘是一个从非结构化文本信息中获取用户感兴趣或者有用的模式的过程.文本挖掘涵盖多种技术,包括信息抽取,信息检索,自然语言处理和数据挖掘技术.它的主要用途是从原本未经使用的文本中提取出未知的知识.但是文本挖掘也是一项非常困难的工作,因为它必须处理那些本来就模糊而且非结构化的文本数据,所以它是一个多学科混杂的领域,涵盖了信息技术、文本分析、模式识别、统计学、数据可视化、数据库技术、机器学习以及数据挖掘等技术 文本挖掘同信息抽取和信息检索关系密切,并且完全可以考虑用组件来完成这些任务.最好的文本挖掘系统应该是一个按照一定顺序执行的过程,有一些类似于数据挖掘的过程 ,也同样描述了过程用于提取知识,只是将信息提取和信息检索合并为一个预处理过程. (1) 信息检索:寻找和检索那些所有被认为可能与当前工作相关的文本.一般地,系统用户都可以定义文本集,但是仍然需要一个用来过滤相关文本的系统. (2) 信息抽取:从选择后的文本中抽取信息.这个抽取过程一般是填充用户定义的所希望得到的信息模式的过程. (3) 信息挖掘:一旦为每个文本填充了词条,就进入了对标准数据库进行挖掘的阶段,可以期望发掘出一些有用的知识模式. (4)解释:将解释器置于从挖掘阶段得来的模式之上.当然解释器最好能够理解自然语言的格式 北京理工大学大数据搜索与挖掘实验室张华平主任研发的NLPIR大数据语义智能分析技术是对语法、词法和语义的综合应用。NLPIR大数据语义智能分析平台是根据中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。 NLPIR大数据语义智能分析平台主要有精准采集、文档转化、新词发现、批量分词、语言统计、文本聚类、文本分类、摘要实体、智能过滤、情感分析、文档去重、全文检索、编码转换等十余项功能模块,平台提供了客户端工具,云服务与二次开发接口等多种产品使用形式。各个中间件API可以无缝地融合到客户的各类复杂应用系统之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系统平台,可以供Java,Python,C,C#等各类开发语言使用。 随着云计算、移动互联网以及物联网等技术的发展和完善,相信大数据在各个领域的应用会越来越广泛和深入,相关的研究也会越来越全面和深入,在信息管理领域,综合应用数据挖掘技术和人工智能技术,获取用户知识、文献知识等各类知识,将是实现知识检索和知识管理发展的必经之路。
|