NLPIR智能语义：信息抽取是数据挖掘首要任务

大数据分析 · 发表于 2018-8-13 11:09:09

　　随着计算机的普及与互联网的高速发展,信息也是爆炸式地增长。信息的过量增长带来一定负面影响:面对巨量的信息,难以发现真正需要的信息。如何将大量无序的信息及时准确地进行提取、整理、组织成便于查询检索的形式,已成为研究开发的焦点。

　信息抽取是以一个以未知的自然语言文档作为输入,产生固定格式、无歧义的输出数据的过程。这些数据可以直接向用户显示,也可作为原文信息检索的索引,或存储到数据库、电子表格中,以便于以后的进一步分析。从广义上讲,信息抽取的处理对象可以是文本、图像、语音、视频等多种媒体。

　　 信息抽取首先是自然语言理解技术和实际应用相折衷的产物。自然语言处理有着从根本上解决人机对话问题的良好前景。然而,目前的自然语言处理水平尚不能对任意的文本进行深入的分析,不具备深入理解自然语言的能力。与自然语言理解不同,信息抽取一般不对文本作深入的全面分析,它的主要功能是根据预先设定的任务,抽取特定类型的信息。例如,一个用于从新闻报道中抽取恐怖主义事件的信息抽取系统,只需提取诸如受害者、加害者、事件中使用的武器等信息即可达到要求。信息抽取的优势在于简化了自然语言处理的过程,只关注相关的信息,而忽略无关的内容。

　　另一方面,信息抽取技术可视为信息检索技术的一个深化。信息检索从文档的集合中寻找与用户要求相关的文本或段落。信息抽取则是在相关文本或段落的基础上,发现用户需要的信息。信息检索一般对文本的语义不进行分析,而由用户对文本的语义做出解释。信息抽取则由系统分析文本的语义,在此基础上,给出用户需要的信息。在实际的应用中,信息抽取和信息检索可互补使用。如,由信息检索系统寻找相关文档,而后由信息抽取系统在相关文档中抽取所需信息;反之,也可在信息抽取的基础上,进行高精度的信息检索。

　　灵玖软件NLPIR大数据语义智能分析平台针对中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,先后历时十八年,服务了全球四十万家机构用户,是大时代语义智能分析的一大利器。

　　NLPIR大数据语义智能分析平台平台针对互联网内容处理的需要，融合了自然语言理解、网络搜索和文本挖掘的技术，提供了用于技术二次开发的基础工具集。

　　NLPIR能够全方位多角度满足应用者对大数据文本的处理需求，包括大数据完整的技术链条：网络采集、正文提取、中英文分词、词性标注、实体抽取、词频统计、关键词提取、语义信息抽取、文本分类、情感分析、语义深度扩展、繁简编码转换、自动注音、文本聚类等。

　　21世纪是一个信息时代，信息来源渠道和信息产生的方式越来越多，及时、高效、低耗地处理信息资源，为国民经济、社会文明、科学技术以及国防建设和发展服务，就必须在信息的获取、加工处理、传输、存取、决策和利用方面寻求新的突破性的信息处理技术。

　　NLPIR大语义智能中文信息处理技术的出现已成为中文信息技术研究、发展、应用和产业的提供了重要的帮助，在互联网日益成长的今天，NLPIR大数据语义智能中文信息处理技术将会更加成熟并创新。

收藏本站

快速投稿

联系我们

广告服务

基石导航

峰会活动

基石数据

社区

NLPIR智能语义：信息抽取是数据挖掘首要任务