最近用 python 爬虫抓取了知乎用户个人资料(公开信息),去重之后有300+万条记录,为了得到这些数据,还不小心跑崩了一台服务器…… 当然主要是配置太低。 手头有了数据也不能闲着,于是就有了这篇分析报告,这篇报告做了一些浅显的数据分析,主要目的是练练手,大家看个热闹,高手勿笑。 数据量 :3,289,329 人。 数据采集工具 :分布式 python 爬虫 分析工具 :ElasticSearch + Kibana 分 析角度包括 :地理位置、男女比例、各类排名、所在高校、活跃程度等。 注意: 以下所有分析结果都基于我抓取到的这300万用户的个人信息,非权威分析,仅供参考。 数据抓取时间为2017年7月份,用户数据会随着时间推移而变化,所以该报告具有一定时效性。 知乎的用户个人资料很大程度上是不完整的,因为用户有权只填写部分信息,所以后面分析的时候会筛掉对应指标为空的用户。 下面让我们看看知乎用户分布中有哪些有趣的现象。 知乎的男女比例? 首先来看看知乎用户的男女比例,以当前样本数据统计的结果接近 1:1 ,其中男生略多一些。(其实还有很大一部分性别不明的用户,被我略掉了 ╮(╯▽╰)╭) 男生:1,202,234 人,占 51.55%。 女生:1,129,874 人,占 48.45%。 知乎用户都是哪里人? 再来看看 全国(全球?)都有哪些地方的人在玩知乎 : 你可能发现了Y坐标里每座城市的用户数并不多,这是因为有大概260万的知乎没有填写“居住地”这一栏~ 以下分析也有可能出现用户没有填写某一栏信息的情况,我会把这些用户忽略掉,以保证展示图表的准确性。 知乎的职业分布? 以下显示 知乎主流职业 ,同样根据知乎用户个人信息里填写的职业为准: 下面我们结合 性别 和 居住地 来分析一下知乎的主流职业。 知乎主流职业的性别分布: 看完了知乎各职业的性别分布,我们再用一张热力图来观察 知乎主流职业(前五名)在各个地区的分布情况 ,颜色越深,代表该职业在该地区的人数越多: 从上图可以看出,知乎各主流职业大部分集中在 北京和上海 两地,更准确地说,大部分都集中在北京,但是 人力资源(HR) 是个例外,他们更多集中在上海。我们再来看看其他职业, 程序员 分布最多的城市依次是: 北京、上海、广州、杭州、厦门 。北京占得比重最大,简直绿的发黑,看来北京是程序员的天堂?其中深圳没有上榜,让我很奇怪。 设计师 分布最多的城市依次是: 北京、上海、杭州、深圳、武汉 。设计师的地区分布比较平均,各个城市都有一定数量。 知乎的高校用户 知乎中学生用户占很大的比重,我们来看看 他们都来自哪些学校 !词云中字体越大,表示所占比重越大。 既然分析到学校了,我们顺便看看 各高校的男女比例 ,嘿嘿。 再看一下 哪些高校在知乎获得的赞数最多 : 知乎大佬都这么调皮吗…… 这个图似乎不太准,大家忽略就好…… 我们再来看看 各地区有哪些高校是知乎重度用户 ,颜色越深代表该学校的知乎用户越多: 上海玩知乎最多的高校依次是: 上海交通大学、复旦大学、同济大学、上海大学、上海财经大学 。 杭州玩知乎最多的高校依次是: 浙江大学、浙江工业大学、杭州电子科技大学、浙江大学,计算机科学、浙江大学,软件工程 。浙江大学是重度用户啊…… 成都玩知乎最多的高校依次是: 电子科技大学、四川大学、西南交通大学、电子科技大学,软件工程、四川师范大学 。 广州玩知乎最多的高校依次是: 中山大学(SYSU)、华南理工大学(SCUT)、华南农业大学(SCAU)、广东外语外贸大学、广东工业大学 。 我们再来看一下 知乎各高校用户的活跃程度 ,按每个学校用户回答问题的总数排名: 好了,高校分析告一段落,我们再来看看知乎用户的各类排名。 知乎赞数最多的100位大V 下图中词云的字越大,表示收到的赞数越多: 知乎关注者最多的100位大V 下图词云的字越大,表示关注者越多,看看有没有你熟悉的大V 呢?: 知乎回答问题最多的100位大V 这些大V在知乎很活跃…… 下图词云文字越大,表示回答问题数量越多。 我们再来加上这几位用户在知乎的获得的赞数,看看 “回答问题的数量” 和 “获得的赞数” 之间有没有什么联系: 知乎参加live最多的100位大V 我们再来看一个有意思的统计, 知乎参加 live 最多的100位用户 ,以及他们最多参加过多少场 live。(live 是知乎推出的一种类似于直播的问答形式,大V开一场 live,分享他所在领域的知识,用户买门票参与 live,是一种知识变现的方式) |