大数据应用：灵玖文本语义学习系统

大数据分析 · 发表于 2016-11-14 15:10:35

　　所谓文本分析是文本挖掘、信息检索的一个基本问题,它把从文本中抽取出的特征词进行量化来表示文本信息.将它们从一个无结构的原始文本转化为结构化的计算机可以识别处理的信息,即对文本进行科学的抽象,建立它的数学模型,用以描述和代替文本.使计算机能够通过对这种模型的计算和操作来实现对文本的识别.

目前搜索引擎及信息检索所应用的文本分析技术，仍然是基于关键词出现频度的传统技术，即关键词在文章中出现就认为两者相关，不出现就认为两者不相关;关键词在文章中出现的次数多，就认为两者的相关程度高，否则就认为相关程度低。

　　这一技术虽然能够在一定程度上确定关键词与文本的相关度，但是从根本上说这只是一种替代技术，并不是真正意义上的相关度分析。因为我们知道，我们人类在分析关键词与文本的相关度时，并不是只看关键词在文章中是否出现，而是从关键词的词义以及整个文章的意思上去判断两者的相关程度，即从语义上去分析两者的相关度。

　　如果能够根据一种语言里所有词汇的词义构建一个语义数据库，在进行相关度分析时通过人工智能的自然语言处理技术分析出文章和关键词的语义，那么就可以达到较为准确的相关度判断结果，甚至接近人类判断的准确程度。目前国内外一些研究机构也正在进行这方面的探索，如构建词性标注数据库等。

　　但是，如果要构建一个全领域(即涵盖一门语言中所有词汇)的语义数据库，其成本是非常高昂的，因为每个专有领域(如理论物理、哲学、金融等等)的词汇必须要由这个领域的专家来构建和维护，光是如此众多专家的聘请就需要非常巨大的资金投入，这不是一般机构能够负担得起的。另外，每个领域中的词汇和词义都是在随着社会发展不断增加和演化的，用人工维护的方法是很难跟上社会需要的发展和变化，常常会有较大的滞后。而如果要为各种语言都构建和维护这样的语义库，就更是不可想象的庞大工程了。

　　灵玖IFCA系统是灵玖中科软件自主研发的大数据信息智能过滤与内容审计系统，可以快速便捷地匹配大量自定义的关键字、词，综合运用了自然语言理解技术、信息检索技术、模糊匹配与机器学习技术，技术含量高。

IFCA系统充分融合了灵玖软件在自然语言理解、信息检索等方面多年的技术积累，具有智能、高效、自学习三大特点：

智能主要体现在专家启发式知识与机器学习的有机融合；

高效体现在本系统在保证准确率的情况下，可以单机每秒处理10MB的文本数据；

自学习是指通过机器学习，自动抽取新的语言知识，以适应新的网络语言变化，做到因时而变。

　　即计算机可自己采集互联网上海量的文章，对采集到的语料数据自动进行分析、学习，根据分析、学习的结果自动构建和维护语义数据库。经过一段时间的实践验证，IFCA系统已经完全能使这一技术达到实用的程度。而在整个系统的运行过程当中，全部由机器自组建和自维护，极大地降低了应用的成本，成功将这一尖端技术实用化。

　　同时IFCA系统实现了语言种类无关性，即它的核心部分可不加修改地应用于任何自然语言，这也是本成果中非常重要的技术之一，可非常容易地构建多语言版本语义库，并应用于该语言的文本相关度分析。目前已成功应用于中文和英文两种语言。

　　IFCA系统可应用于文本信息检索、搜索引擎、新闻和情报信息跟踪、文本分类、文本聚类、文本相似度比较、文本内容监控、文本摘要提取、自动翻译等等方面，有效减少信息的错判和漏判，从而在很大程度上提高这些应用的准确程度。

收藏本站

快速投稿

联系我们

广告服务

基石导航

峰会活动

基石数据

社区

大数据应用：灵玖文本语义学习系统