搜索
查看: 1392|: 0

数据分析新手,真诚请教一个问题

[复制链接]

1

主题

0

回帖

12

积分

新手上路

积分
12
发表于 2016-9-28 00:59:35 | 显示全部楼层 |阅读模式
是这样的,我们公司是做媒体行业。主要是针对用户推荐文章。每一篇文章我们都有对应的用户阅读数,和我们系统给用户推荐的次数。

现在公司规模逐渐增大,从爬虫抓取的文章也越来越多。
因为是爬虫抓取过来有些时候清洗数据不到位,所以数据库中的文章有些并不是很好(系统推荐次数很多,但是用户阅读数很少)
在这种情况下,对于每一篇文章的推荐阅读比,这个比值就很重要了。
现在数据库整体是这样一个情况,有两张表
topic表中有100w条文章的数据,user_log表中有500w条用户的数据(用户每次阅读文章,那么就会在user_log表中增加一条记录,系统每次推荐一片文章也会在这个表中增加一条记录)


我现在每天需要做的工作是将文章的推荐阅读比统计一次。统计的excel格式为:
文章uuid---标题---作者----频道----关键字----推荐数----阅读数----推荐阅读比

这个工作现在是使用程序从topic中查出每一个文章的基本信息,然后再通过uuid去user_log表中通过count(*)的形式统计出推荐数和阅读数,然后再写入excel表。
整个一个过程耗时非常长,而且每天数据量都在快速增加,由于自己之前没有做过数据分析,并没有什么好的思路,网上说可以采用日志形式分析,但是并没有找到很好的例子。希望朋友们能够提供一点思路,小弟感激不尽。谢谢

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

大数据中国微信

QQ   

版权所有: Discuz! © 2001-2013 大数据.

GMT+8, 2024-11-15 14:29 , Processed in 0.061641 second(s), 26 queries .

快速回复 返回顶部 返回列表