语义大数据LJKeyScanner挖掘关键词背后的秘密

大数据分析 · 发表于 2016-12-21 14:09:58

　　在网络日益发达的现在，也伴随着有益信息与造成不稳定因素的信息也随之日益泛滥，为了网民的思想健康，也为了社会的和谐，在许多对外公共场合下，有些内容是要经过审查才能显示的。在网络审查初期，都是通过人工审核，这种审核方式虽然准确且智能，但与网络文字产生的速度相比，其效率就显示微不足道了!因此，自动化的系统处理方式的需求越来越强烈……

　　常见的方法是基于中文信息处理技术和多模式匹配技术，结合机器学习方法训练得到的词表，能够有效地识别敏感词，进而识别有害文字。敏感词识别要求能够处理“拆字”、“同音字”、“拼音字”、“缩略词”等几种模式和模式的组合。敏感词识别技术帮助用户摆脱有害信息的侵扰，进一步杜绝各种严重政治倾向错误、不文明信息、赌博等内容的出现，可对各类有害信息及时有效地发起预警，并严防此类严重错误见诸报端。灵玖软件经过努力研发了LJKeyScanner关键敏感词扫描系统，它完全支持关键词或敏感词过滤，过滤词典可以用户自行添加。

　　LJKeyScanner关键词敏感扫描系统是以关键字敏感扫描技术为基础，并含有网页信息收等集、海量信息检索和语言检索等功能。其主要特点是：

　　1、强大的数据资源

　　LJKeyScanner组件有十大类型的敏感关键词词典，其中包括FLG、民运、不文明信息、涉及&毒物、涉日、政治倾向敏感词典，数十万的关键词。这些词典几乎囊括了所有行业里面的敏感关键词，从而净化互联网文章环境。

　　2、先进的技术支持

　　LJKeyScanner组件采取先进的NLPIR大数据搜索与挖掘系统，可以针对原始文本关键词集进行处理和加工，提供了中间件处理效果的可视化展示，也可以作为小规模数据的处理加工工具。同时，组件可以无缝地融合到客户的各类复杂应用系统之中，可以供Java，C，C#等各类开发语言使用，分词扫描平均速度单机可达20MB/s。

　　3、广泛的应用场景

　　LJKeyScanner关键词敏感实时扫描组件可以运用到广泛的场景，如公安、广播、电视、报刊杂志以及广泛的网络信息内容安全服务;如新闻网站、信息网站文章过滤筛选服务。

收藏本站

快速投稿

联系我们

广告服务

基石导航

峰会活动

基石数据

社区

语义大数据LJKeyScanner挖掘关键词背后的秘密