NLPIR文本语义智能挖掘网络信息数据

大数据分析 · 发表于 2017-11-16 14:50:47

　当前正处于大数据时代，大数据为智慧城市提供丰富的数据环境。智慧城市技术需要面向互联网大数据处理及其知识服务的支持。语义技术为海量数据处理及知识管理提供有效的技术手段。

　　面对海量的互联网数据，一个核心问题是如何快速有效地寻找所需信息。目前通用的办法是通过网络搜索引擎，采用键入对应的关键字来获得结果。但是，传统搜索引擎主要通过关键字对网络资源进行字符串匹配获取检索结果，易获得包含部分关键字的噪声数据。如检索“化学”，检索结果却出现“自动化学习”和“机械化学习”。为避免此类字符串误匹配，可通过对网络中的文本描述进行结构化处理，即采用专业词典，将长串文本描述进行分词处理，切割成独立的子部分。如把“自动化学习”切分成“自动化”和“学习”两个独立的部分，在使用“化学”进行查找时就不会匹配到“自动化学习”，因为需要满足同时匹配两个独立的子结构。将长串文本切分成子结构的处理方法称为结构化处理，但结构化处理不能实现数据互操作。在进行网络搜索使用的关键字只是表达语义上的需求，而并不在意网络资源是采用何种具体的词来表达。因此，需要一种网络资源描述方式，来刻画语义上的关联性。

　　语义技术的主要思想包括：(1)任何信息系统都需要数据;(2)数据表示要独立于具体的应用和平台，以保证最大程度的可重用性;(3)采用统一的数据概念表示，以保证数据表示独立于具体系统;(4)数据应能描述网络资源;(5)数据应提供初步推理支持。

　　NLPIR文本语义智能平台针对互联网内容处理的需要，融合了自然语言理解、网络搜索和文本挖掘的技术，提供了用于技术二次开发的基础工具集。开发平台由多个中间件组成，各个中间件API可以无缝地融合到客户的各类复杂应用系统之中，可兼容Windows，Linux， Android，Maemo5, FreeBSD等不同操作系统平台，可以供Java，C，C#等各类开发语言使用。

　　NLPIR文本搜索与挖掘开发平台的十二大功能：

　　1. 全文精准检索：支持文本、数字、日期、字符串等各种数据类型，多字段的高效搜索，支持AND/OR/NOT以及NEAR邻近等查询语法，支持维语、藏语、蒙语、阿拉伯、韩语等多种少数民族语言的检索。可以无缝地与现有文本处理系统与数据库系统融合。

　　2. 新词发现：从文件集合中挖掘出内涵的新词语列表，可以用于用户专业词典的编撰;还可以进一步编辑标注，导入分词词典中，从而提高分词系统的准确度，并适应新的语言变化。

　　3. 分词标注：对原始语料进行分词、自动识别人名地名机构名等未登录词、新词标注以及词性标注。并可在分析过程中，导入用户定义的词典。

　　4. 统计分析与术语翻译：针对切分标注结果，系统可以自动地进行一元词频统计、二元词语转移概率统计(统计两个词左右连接的频次即概率)。针对常用的术语，会自动给出相应的英文解释。

　　5. 文本聚类及热点分析：能够从大规模数据中自动分析出热点事件，并提供事件话题的关键特征描述。同时适用于长文本和短信、微博等短文本的热点分析。

　　6. 分类过滤：针对事先指定的规则和示例样本，系统自动从海量文档中筛选出符合需求的样本。

　　7. 正负面分析：针对事先指定的分析对象和示例样本，系统自动从海量文档中筛选出正负面的得分和句子样例。

　　8. 自动摘要：能够对单篇或多篇文章，自动提炼出内容的精华，方便用户快速浏览文本内容。

　　9. 关键词提取：能够对单篇文章或文章集合，提取出若干个代表文章中心思想的词汇或短语，可用于精化阅读、语义查询和快速匹配等。

　　10. 文档去重：能够快速准确地判断文件集合或数据库中是否存在相同或相似内容的记录，同时找出所有的重复记录。

　　11. HTML正文提取：自动剔除导航性质的网页，剔除网页中的HTML标签和导航、广告等干扰性文字，返回有价值的正文内容。适用于大规模互联网信息的预处理和分析。

　　12. 编码自动识别与转换：自动识别内容的编码，并把编码统一转换为GBK编码。

　　语义技术采用面向知识提取和知识表达的技术方式，更接近于人类的知识表达方式，使用户可以方便地审核知识表达的正确性，同时也可以代替现有大量的人工干预工作。由于引入知识处理，也提高了处理问题的精度和效率。

收藏本站

快速投稿

联系我们

广告服务

基石导航

峰会活动

基石数据

社区

NLPIR文本语义智能挖掘网络信息数据