搜索
查看: 2702|: 1

Nlpir Parser灵玖文本语义挖掘系统数据采集

[复制链接]

215

主题

13

回帖

2181

积分

金牌会员

积分
2181
发表于 2017-6-22 15:51:14 | 显示全部楼层 |阅读模式
在计算机广泛应用的今天,数据采集的重要性是十分显著的。它是计算机与外部物理世界连接的桥梁。各种类型信号采集的难易程度差别很大。
  灵玖软件Nlpir Parser文本语义挖掘系统以分词技术为基础,集成了全文精准检索、新词发现、分词标注、统计分析、关键词提取、热点分析、文本分类过滤、文档去重、等功能,其中文精准搜索就是以数据采集系统为主要支撑。
  灵玖软件Nlpir Parser文本语义挖掘系统数据采集特点:
  (1)利用采集技术,实现对互联网目标信息源(网站、论坛、博客、政府网站、中外媒体网站)各类碎片化信息的实时采集、动态索引、展现,采集信息源覆盖全世界各类网站,各类公开数据源,指定网站,频道,页面的信息。
  (2)系统应提供数据的导入导出接口,导入第三方专业数据库(如媒体网站数据频道、各类论文网站文本输出接口等、),以满足外部数据源的人工导入和向外部提供数据导出功能,补充数据来源。
  (3)实现对互联网上某一领域政府部门,国内外航天政策信息发布、数据、论坛、博客、社交网络等信息源的采集,获取指定领域的信息,为集团和公司供数据基础。
  (4)信息数据的采集要求7×24小时循环、增量的信息采集,数据采集的延时小于30分钟。
  (5)满足对采集数据源类型多样性的要求,数据源包含数据栏目、评论栏目、论坛类、博客类、国内外媒体数据类,以及未来可能出现的其他网站表现类型。
    Nlpir Parser采集系统以基础采集资源为基础,结合语义分析技术、数据挖掘技术在信息数据中的应用,整合、收集生产环节的各类案例并充分利用已有编辑工作的经验,将海量文本数据进行整理、筛选,并与已有资源优势和专业编辑队伍有机结合,提供更多信息资源。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

大数据中国微信

QQ   

版权所有: Discuz! © 2001-2013 大数据.

GMT+8, 2024-11-15 01:11 , Processed in 0.095076 second(s), 27 queries .

快速回复 返回顶部 返回列表