搜索
查看: 986|: 0

灵玖大数据搜索应用:动态网络精准采集器系统

[复制链接]

215

主题

13

回帖

2181

积分

金牌会员

积分
2181
发表于 2016-8-17 15:13:31 | 显示全部楼层 |阅读模式
  信息采集又称作网络信息采集、信息抓取、网络蜘蛛、信息搜集、网页抓取、网页内容抓取,指的是将非结构化的信息从大量的网页中抽取出来保存到结构化的数据存储文档中的过程,数据存储文档包括:Excel、Word、Txt、数据库等,根据应用需求不同而不同。采集结果数据可能用于信息发布、邮件通知、统计分析、决策支持、情报舆情监控、报表展示等等。
  动态网络精准采集器系统,指的是以网络信息挖掘搜索引擎为基础,通过软件架构设计实现的软件应用系统,它可以在最短的时间内,帮您把最新的信息批量的、动的从不同的Internet站点上采集下来,并在进行分类和统一格式后,第一时间满足不同的数据应用需求,数据应用包括:发布到Web站点、数据库存储、统计分析、决策支持、情报舆情监控、报表展示等等。从而提高信息及时性、节省或减少人为工作量,达到降低运营成本、提高企业竞争力的目的。
  1、动态网络精准采集器系统网页规则管理器层设计
  针对不同的网站,网站的结构也有很大区别,一种算法或者规则是不可能适用于所有的网站采集,该管理器主要是负责不同网站间采集模板管理,以及智能提取功能模块的管理(图15)。
  2、采集任务调度管理层设计
  超级链接(URL)是爬虫访问网络资源唯一的入口,如果URL在调度系统中大量重复存在,会使得爬虫不停的去访问重复的资源,从而影响爬虫的性能,所以需要对URL进行去重处理以减少爬虫在爬取过程中不必要的资源浪费问题,一般URL去重算法有如下几种方法:1.基于磁盘的顺序存储,2.基于Hash算法的存储,3.基于MD5压缩映射的存储。
  3、代理IP获取层设计
  代理IP获取层主要是通过专门的代理IP网站来抓取代理IP,也可以百度搜索代理IP,同样可以搜索到很多代理IP的网站,我们随便进入一个代理IP网站抓取代理IP。我们这还是以快代理为例,这个网站的结构非常清晰,可以很容易被采集下来。我们将采集下来的IP放入内存中,判断代理IP是否有效。如果代理IP有效则将代理IP放入代理IP数据库中,如果代理IP无效,我们则舍弃这个代理IP。爬虫在请求网页的时候就可以使用这些代理IP。放在代理IP数据库中的IP也可能出现失效的问题,需要定时检测代理IP的有效性,如果无效则及时清理代理IP数据库,否则会影响网站采集的效果。
图片1.png

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

大数据中国微信

QQ   

版权所有: Discuz! © 2001-2013 大数据.

GMT+8, 2024-11-15 10:06 , Processed in 0.109407 second(s), 27 queries .

快速回复 返回顶部 返回列表