搜索
查看: 693|: 0

python获取历届春晚数据

[复制链接]

15

主题

0

回帖

353

积分

中级会员

积分
353
发表于 2022-2-7 16:03:48 | 显示全部楼层 |阅读模式
不知道今年的春晚大家看了吗?小编表示没有看,而且是已经很多年没有完整的看过春晚了,关于看春晚的热情都是小时候的事了。如今,距离第一届春晚 1983 年,整整过去了 39年,看过那么多春晚,哪一年、哪些节目、哪些人你还留有深刻印象呢?接下来,通过 Python 数据分析
在网上找了很久发现没有关于春晚完整的数据,都是不连贯的,节目单表是每一年春晚上表演的节目,包括:节目类型、节目名、演员名这几项数据。这里我们就使用Python 抓取这类表格数据,方法简单,几行代码就能搞定,简单的示例代码如下:
#! -*- encoding:utf-8 -*-    import requests    import random    # 要访问的目标页面    targetUrl = "http://httpbin.org/ip"    # 要访问的目标HTTPS页面    # targetUrl = "https://httpbin.org/ip"    # 代理服务器(产品官网 www.16yun.cn)    proxyHost = "t.16yun.cn"    proxyPort = "31111"    # 代理验证信息    proxyUser = "username"    proxyPass = "password"    proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {        "host" : proxyHost,        "port" : proxyPort,        "user" : proxyUser,        "pass" : proxyPass,    }    # 设置 http和https访问都是用HTTP代理    proxies = {        "http"  : proxyMeta,        "https" : proxyMeta,    }    #  设置IP切换头    tunnel = random.randint(1,10000)    headers = {"Proxy-Tunnel": str(tunnel)}    resp = requests.get(targetUrl, proxies=proxies, headers=headers)    print resp.status_code    print resp.text
抓取下来的数据都比较混乱,需要用 Python 清洗处理一下就可以分析,这些不是重点,重点是在获取数据的过程中,目标网站有封反爬策略比如封ip,所以在访问过程中我加了代理,代码部分主要是关于如何使用动态转发模式代理示例,在学习爬虫中对代理有疑问的可以看下这里https://www.16yun.cn/。在获取数据之后就可以直接进入分析环节,从中我们可以看到谁导演春晚次数最多?谁主持春晚次数最多?谁上春晚次数最多等数据。


您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

大数据中国微信

QQ   

版权所有: Discuz! © 2001-2013 大数据.

GMT+8, 2024-11-24 11:10 , Processed in 0.221892 second(s), 24 queries .

快速回复 返回顶部 返回列表