灵玖NLPIRParser大数据挖掘系统智能摘要

大数据分析 · 发表于 2017-8-17 14:40:40

　　所谓自动文摘就是利用计算机自动地从原始文献中提取文摘，文摘是全面准确地反映某一文献中心内容地简单连贯的短文。常用方法是自动摘要将文本作为句子的线性序列，将句子视为词的线性序列。

　　灵玖NLPIRParser智能摘要是通过网页文本特殊的标签将需要的数据提供给搜索引擎，并在搜索结果中按照既定的模版展现的实现形式，目的是为了提升搜索结果的体验。

　　NLPIRParser智能摘要能够实现文本内容的精简提炼，从长篇文章中自动提取关键句和关键段落，构成摘要内容，方便用户快速浏览文本内容，提高工作效率。

　　NLPIRParser智能摘要技术应用类型：

　　1、基于统计的自动摘要

　　基于统计的自动摘要也称为自动摘录,是将文本视为句子的线性序列,将句子视为词的线性序列。

　　(1)原始文本处理:按照计算机能够识别的形式输入文本信息,比如:键盘输入、手写录入、文本扫描、图形识别、语音识别等。

　　(2)词语权重计算:对原始文本信息中的"关键词"进行词频统计。

　　(3)句子权重计算:根据句子中词频等信息计算句子权重。其标准为:句子权重与句中所含"关键词"的数量成正比;文本信息中包含提示词,则提高句子权重;文本信息中特殊位置上的句子权重增加;若句子中包含废弃指示词则句子权重减小;句子长度与句子权重成反比。

　　(4)文摘句提取:对原文中所有句子按权值高低降序排列,权值最高的若干句子被确定为文摘句。

　　(5)文摘句输出:将所有文摘句按照它们在原文中的出现顺序输出。其中,计算词语权重、句子权重、选择文摘句的依据是文本的6种形式特征:

　　基于统计的方法领域不受限、速度快、摘要长度可调节,但它局限于文本表层信息,生成的摘要质量较差,存在内容不全面、语句冗余、不连贯等问题。

　　2、基于理解的自动摘要

　　基于理解的自动摘要以人工智能技术,特别是自然语言理解技术为核心。在对文本进行语法结构分析的同时,利用了领域知识对文本的语义进行分析,通过判断推理,得出文摘句的语义描述,根据语义描述自动生成摘要。

　　其中,文本分析是最重要的环节,包括语法分析、语义分析、句法分析。

　　(1)语法分析:借助于知识库中的词典和文法规则对输入的文本信息进行语法分析,确定词形和词义,切分句子并找出词间句法上的联系,以一种数据结构描述这些联系,如文法结构树。

　　(2)语义分析:将句子孤立于所处的环境仅从字面上分析意义。最主要的方法是进行文本标注,通过标注表示词之间的前后依赖关系、句之间语义衔接关系、段之间语义聚合或转移关系,运用领域知识库所描述的知识,把语义标注转换为机器能"理解"的语义网络。

(3)句法分析:分析文献中的每个词,给出它对全文的贡献,包括修辞、句法和语义知识及文献的话语结构属性。这种方法采用了复杂的自然语言理解和生成技术,对文献意义把握更准确,因此摘要质量较好,具有简洁精练、全面准确、可读性强等优点。

　　3、基于信息抽取的自动摘要

　　基于理解的自动摘要方法需要对文章进行全面的分析,生成详尽的语义表达,这对于大规模真实文本而言是很难实现的。而信息抽取只对有用的文本片段进行有限深度的分析,效率和灵活性显著提高。

　　基于信息抽取的自动摘要也称为模板填写式自动摘要。它以摘要框架为中枢,分为选择与生成两个阶段。

　　4、基于结构的自动摘要

　　将文本信息视为句子的关联网络,选择与很多句子都有联系的中心句构成摘要,这就是基于结构的自动摘要。

　　篇章是一个有机的结构体,篇章中的不同部分承担着不同的功能,各部分之间存在着错综复杂的关系。篇章结构分析清楚了,文章的核心部分自然能够找到。但语言学对于篇章结构的研究不够,可用的形式规则极少了,这使得基于结构的自动摘要到目前为止还没有一套成熟的方法。

　　NLPIRParser智能摘要不仅可以针对一篇文档生成连贯流程的摘要，还能够将具有相同主题的多篇文档去除冗余、并生成一篇简明扼要的摘要;用户可以自由设定摘要的长度、百分比等参数;处理速度达到每秒钟20篇。

收藏本站