Nlpir Parser灵玖文本语义挖掘系统数据采集

大数据分析 · 发表于 2017-6-22 15:51:14

在计算机广泛应用的今天，数据采集的重要性是十分显著的。它是计算机与外部物理世界连接的桥梁。各种类型信号采集的难易程度差别很大。

　　灵玖软件Nlpir Parser文本语义挖掘系统以分词技术为基础，集成了全文精准检索、新词发现、分词标注、统计分析、关键词提取、热点分析、文本分类过滤、文档去重、等功能，其中文精准搜索就是以数据采集系统为主要支撑。

　　灵玖软件Nlpir Parser文本语义挖掘系统数据采集特点：

　　(1)利用采集技术，实现对互联网目标信息源(网站、论坛、博客、政府网站、中外媒体网站)各类碎片化信息的实时采集、动态索引、展现，采集信息源覆盖全世界各类网站，各类公开数据源，指定网站，频道，页面的信息。

　　(2)系统应提供数据的导入导出接口，导入第三方专业数据库(如媒体网站数据频道、各类论文网站文本输出接口等、)，以满足外部数据源的人工导入和向外部提供数据导出功能，补充数据来源。

　　(3)实现对互联网上某一领域政府部门，国内外航天政策信息发布、数据、论坛、博客、社交网络等信息源的采集，获取指定领域的信息，为集团和公司供数据基础。

　　(4)信息数据的采集要求7×24小时循环、增量的信息采集，数据采集的延时小于30分钟。

　　(5)满足对采集数据源类型多样性的要求，数据源包含数据栏目、评论栏目、论坛类、博客类、国内外媒体数据类，以及未来可能出现的其他网站表现类型。

Nlpir Parser采集系统以基础采集资源为基础，结合语义分析技术、数据挖掘技术在信息数据中的应用，整合、收集生产环节的各类案例并充分利用已有编辑工作的经验，将海量文本数据进行整理、筛选，并与已有资源优势和专业编辑队伍有机结合，提供更多信息资源。

收藏本站