随着互联网技术的快速发展和普及,人们可以在网络上获得各种信息,怎样防止青少年接触到不健康内容是一个严肃的社会问题。要防止不健康、无用内容的蔓延,除了从法律角度采取措施外,从技术角度考虑的网络过滤技术是一种有效的手段。 目前网络的信息过滤技术主要有三种,它们是基于URL过滤方式、基于文本的过滤方式和基于图像内容的过滤方式。这几种过滤技术各有优劣,有的实现比较简单,有的具有更广泛的适应性,有的效率高实时性更强。单一采用某一技术的准确性不高,而考虑到图片和图片附近的文字一般具有相同的类别,它们有相互补充说明的特性,所以综合考虑图片和文本的分类特点是本文研究的过滤方式。 Nlpir Parser搜索挖掘平台敏感扫描系统是灵玖软件经过长时间研发,融合了自然语言理解、网络搜索和文本挖掘的技术,可以导入大批量用户业务敏感的关键词列表,实现对内存与文件的实时智能扫描,生成命中的敏感关键词、敏感类别与权重等信息。 针对Web上大量的网页文本内容,Nlpir Parser搜索挖掘平台敏感扫描系统利用决策树分流特性提出了敏感词决策树信息过滤算法。该算法基于敏感词库,通过构建敏感词决策树,以数据流形式处理网页文本内容,综合考虑区域、词频、敏感词级别三大要素,最终给出候选敏感词权重,计算文本整体敏感度,实现敏感文本检测。 Nlpir Parser搜索挖掘平台敏感扫描系统具备四大特色: 1、基于PDAT专利的多关键词实时扫描算法 我们采用了 NLPIR/ictclas的PDAT专利算法,可以针对百万量级关键词列表实现单机20MB/s的实时扫描速度; 2、关键词的多模式智能匹配 用户设定关键词后,系统可以自动识别扫描不同编码、繁简体、全角半角、中间加各类干扰噪音等变体,及繁体形式。 3、内置了丰富的敏感知识库 目前已经自动内置了各种形式、十大类型、3万多关键词的敏感关键词词典。这些词典几乎囊括了所有行业里面的敏感关键词,从而为净化互联网空间提供知识储备。 4、支持用户增量添加百万量级业务敏感词库 支持客户自定义导入用户词典,自定义敏感类别与权重。可以支持能够提供不同行业的敏感扫描结果。
|