随着计算机技术和网络技术的迅速发展,互联网上共享的文本呈海量趋势增长,包括各种环境下的大文本和社交媒体文本等。如何有效存储、管理、检索和使用这些文本数据,是摆在人们面前巨大的挑战和亟待解决的研究问题。文本语义分析与挖掘是解决上述问题的基础。 互联网大环境下的共享文本具备特殊的属性:1)半结构化;2)多尺度;3)海量;4)复杂关联;5)多样化。LJParser文本语义分析系统结合人工智能、统计分析、自然语言处理、文本挖掘等技术,围绕全文精准检索、主题词挖掘、主题模型聚类几个研究内容对不同的文本语料库进行分析,以实现对不同尺度、不同领域文本的深入语义分析和理解。LJParser文本语义分析系统具体内容: (1)、为了有效融入人为的语义认知,并克服以往研究对象仅局限于特定语种文档的缺陷,LJParser文本语义分析系统提出一种基于词汇语义相关度计算的文档语义特征提取,又名全文精准检索。针对中英文语料库,提出HWSC(HowNet&WordNetSemanticCompression)算法实现每篇文档的代表性语义词汇的提取。该算法分别利用HowNet和WordNet知识库系统对中英文本进行词汇语义相关度计算,并在其基础上抽取重要主题的相关主题词汇,以此过滤掉语义不相关词汇,达到语义压缩的目的。 (2)、文本数据的海量特性将导致主题浏览的困难。综合考虑单个主题词汇表达不完善、主题重要性标准不一等因素,LJParser文本语义分析系统提出一种融合词组发现和主题排序的关键主题词发现机制。在主题词组发现模型LDA_col(LatentDirichletAllocation_Collocation)的基础上进行词组发现,利用GibbsSampling算法进行参数的有效估计,并针对LDA_col模型的不稳定性进行改进,引入额外变量控制词组和前缀词汇的主题一致性。由于目前的主题模型输出都需要人工浏览去发现自己感兴趣的主题,而且不同用户对主题的重要性定义存在差异,因此为了满足用户不同角度的需求,提出两种重要主题排序机制,分别为基于主题覆盖度(TopicCoverage,TC)和主题相似度(TopicSimilarity,TS)的方法。 (3)、针对文本内容的多尺度特性,LJParser文本语义分析系统提出能同时适用于普通文本和大文本的基于主题分析的聚类算法。该方法从主题分析的角度出发,使得聚为同类的文档含有相似的一个或多个主题。针对普通文档,提出一种基于LDA(LatentDirichletAllocation)模型的聚类方法。 LJParser文本语义分析系统是一套专门针对原始文本集进行处理和加工的软件,提供了中间件处理效果的可视化展示,也可以作为小规模数据的处理加工工具。用户可以使用该软件对自己的数据进行处理。 LJParser文本语义分析系统主要工作是解决如何面向不同领域、不同尺度的文本进行语义理解,使得语义分析的结果更有利于计算机对文本的自动理解及其他文本任务,如文本浏览、文本语义检索、互联网话题检测与推荐以等。
|