文本过滤一般是网络环境下根据一定的标准和要求从动态的文本信息流中选取用户需要的信息或剔除用户不需要信息的方法和过程。 随着信息社会的不断发展,人们面临的信息日益剧增,如何更准确、有效地找到自己感兴趣的信息,过滤掉与需求无关的“垃圾”信息,成为了一个重要的研究问题,内容过滤技术也就应运而生。 中文文本过滤技术在最近几年得到了业内人士的普遍关注。国内对于信息过滤研究起步较晚,但是目前发展也很快,尤其是随着信息安全、信息定制等应用在国内的兴起,对信息过滤技术的研究也得到人们普遍的重视。 文本过滤工作基本上可以概括为两项:一是建立用户需求模型,表达用户对信息的具体需求;二是匹配技术,即用户模板与文本匹配技术。因此,文本过滤的主要流程首先是根据用户的信息求,建立用户需求模型,然后在相应的文本流中搜索符合用户需求的文本,同时利用反馈改进需求模型。 1、中文分词 中文分词是对中文句子的切分技术,是中文文本最重要的预处理技术。自动分词过程是指从信息处理需要出发,按照特定的规范,对汉语按分词单位进行划分的过程自动分词是汉语所特有的研究课题,英语、法语等印欧语种,词与词之间存在着自然的分割,一般不存在分词的问题。 中文分词 中文分词是对中文句子的切分技术,是中文文本最重要的预处理技术。自动分词过程是指从信息处理需要出发,按照特定的规范,对汉语按分词单位进行划分的过程自动分词是汉语所特有的研究课题,英语、法语等印欧语种,词与词之间存在着自然的分割,一般不存在分词的问题。 汉语分词系统的实现及效果依赖于分词理论与方法。目前国内分词系统所采用的或者正在研究的方法基本上分为以下几类: (1)机械分词法:主要有最大匹配法、 逆向最大匹配法、 逐词匹配法、 部件词典法、词频统计法、设立标志法等。 (2)语义分词法:语义分词法引入了语义分析,对自然语言自身的语言信息进行更多的处理,如扩充转移网络法、知识分词语义分析法、邻接约束法、综合匹配法、后缀分词法等。 (3)人工智能法,又称理解分词法,如专家系统法、神经网络方法等。 2 过滤模型 信息过滤系统的性能,关键在于模型的完善程度如何。目前描述文本信息的模型有很多种,有布尔模型、向量空间模型、概率推理模型、潜在语义搜索模型、 基于模糊集合的信息过滤模型。 而灵玖大数据文本过滤系统IFCA系统是经过多年自主研发的大数据信息智能过滤与内容审计系统,可以快速便捷地匹配大量自定义的关键字、词,智能过滤特定设定文本数据的内容,达到净化网络空间、提取信息的目的,并具有智能、高效、自学习三大特点。 IFCA系统可应用于公安、广播、电视、报刊杂志以及广泛的网络信息内容安全服务。并可在IFCA基础上,提供进一步的数据信息监控等解决方案。
|