搜索
查看: 3164|: 0

大数据语义分析:灵玖中文文本过滤系统

[复制链接]

215

主题

13

回帖

2181

积分

金牌会员

积分
2181
发表于 2016-9-12 14:39:42 | 显示全部楼层 |阅读模式
随着信息社会的不断发展,人们面临的信息日益剧增,如何更准确、有效地找到自己感兴趣的信息,过滤掉与需求无关的“垃圾”信息,成为了一个重要的研究问题,内容过滤技术也就应运而生。所谓文本过滤指的是从大量文本中找出满足用户需求的文本的过程,它对于文本信息处理具有重要意义,另外,它也可以实现对网络中不良信息的自动过滤,从而保障网络的安全。
  中文分词是对中文句子的切分技术,是中文文本最重要的预处理技术。自动分词过程是指从信息处理需要出发,按照特定的规范,对汉语按分词单位进行划分的过程自动分词是汉语所特有的研究课题,英语、法语等印欧语种,词与词之间存在着自然的分割,一般不存在分词的问题。 中文自动分词已经研究了 20 多年,但是目前仍然是制约中文信息处理的瓶颈,汉语除了连续书写之外,汉语词汇没有形态变化,也没有各种词的变格,缺乏自然的分割信息。而灵玖IFCA系统是灵玖中科软件(北京)有限公司自主研发的大数据信息智能过滤与内容审计系统,可以快速便捷地匹配大量自定义的关键字、词,智能过滤违法国家法律法规以及侵犯用户权益的内容,达到净化网络空间、提取情报的目的,确保信息内容安全。
  IFCA系统充分融合了灵玖软件在自然语言理解、信息检索等方面多年的技术积累,具有智能、高效、自学习三大特点:
  智能主要体现在专家启发式知识与机器学习的有机融合;
  高效体现在本系统在保证准确率的情况下,可以单机每秒处理10MB的文本数据;
  自学习是指通过机器学习,自动抽取新的语言知识,以适应新的网络语言变化,做到因时而变。
  IFCA系统可应用于公安、广播、电视、报刊杂志以及广泛的网络信息内容安全服务。并可在IFCA基础上,提供进一步的数据信息监控等解决方案。
  IFCA系统是一个基于语义分析的信息过滤方法,除了对文本进行语义分析外,还充分考虑了文章主题词所在特征区域的重要性,在计算文本的倾向性指标时增加了特征区域权重因子,能更准确地过滤出倾向性文本。
6c87a285-8538-458f-92bb-129dfb5d4486.jpg

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

大数据中国微信

QQ   

版权所有: Discuz! © 2001-2013 大数据.

GMT+8, 2024-11-14 14:28 , Processed in 0.087885 second(s), 28 queries .

快速回复 返回顶部 返回列表