文本分类就是在给定的分类体系下,让计算机根据给定文本的内容,将其判别为事先确定的若干个文本类别中的某一类或某几类的过程。文本分类在冗余过滤、组织管理、智能检索、信息过滤、元数据提取、构建索引、歧义消解、文本过滤等方面有很重要的应用。
文本分类算法是设计实现分类器的理论基础,由于属于机器学习的一个分支,许多经典的机器学习算法都被应用在文本分类中来,文本分类的方法大部分来自于模式分类,基本上可以分为三大类:一种是基于统计的方法,如Na?ve Bayes, KNN、类中心向量、Rocchio算法及其变异方法、回归模型、支持向量机、最大熵模型等方法;另一种是基于连接的方法,
即人工神经网络;还有一种是基于规则的方法,如决策树、关联规则、粗糙集等,这些方法的主要区别在于规则获取方法的不同。
而灵玖软件智能文本分类是指在给定的分类体系下,根据文语义元是统计语义方法中的原子,是不可分本的内容自动确定文本类别的过程.当前的文本割的最小单位,在文本分类中语义元是词;
灵玖软件智能文本分类系统是基于机器学习的文本分类系统作为处理和组织大量文本数据的关键技术,能够在给定的分类模型下,根据文本的内容自动对文本分门别类,从而更好地帮助人们组织文本、挖掘文本信息,方便用户准确地定位所需的信息和分流信息。
文本分类一般包括了文本的表达、 分类器的选择与训练、 分类结果的评价与反馈等过程,其中文本的表达又可细分为文本预处理、索引和统计、特征抽取等步骤。灵玖软件智能文本分类系统的总体功能模块为:
(1) 预处理:将原始语料格式化为同一格式,便于后续的统一处理;
(2) 索引:将文档分解为基本处理单元,同时降低后续处理的开销;
(3) 统计:词频统计,项(单词、概念)与分类的相关概率;
(4) 特征抽取:从文档中抽取出反映文档主题的特征;
(5) 分类器:分类器的训练;
(6) 评价:分类器的测试结果分析
随着机器学习技术研究的深入,针对不同实际应用和数据的特征,特别是互联网内容处理和其他一些大规模复杂应用中数据模型、类别规模和性能瓶颈等问题,将是灵玖软件文本分类发展突破的主要方向。
|