py 爬取某网站直播集锦-工作需求，现场直播

wangchunbo 的个人博客 / 1 / 1 / 创建于 5年前 / 更新于 5年前

在观看本文之前，你需要了解以下技术

爬虫的五个步骤
a) 需求分析程序员,人工智能
b) 找到内容相关的网址程序员
c) 根据网址获取到网址的返回信息程序(urllib, requests)
d) 定位需要的信息位置程序(re正则表达式, XPATH, css selector)
e) 存储内容程序(文件系统open, pymysql, pymongo)

今天需要做的事情有哪些
a) HTTP/HTTPS
b) 如何能够观察HTTP的包
c) 使用requests的包, get, post

包头中重要的信息描述
a) Cookie : 能够存储一些服务器端的信息,与session共同完成身份标志的工作
b) User-Agent : 你的标签有哪些
c) Referer : 从哪个页面跳转过来的
如果浏览器能够访问, 但是你不能, 添加headers, 先添加User-Agent, 再添加
Referer, 最后添加Cookie, 最最后全添加.
爬取一个网站的时候,你需要确定信息是不是在这个网站上的
注意,在抓包的过程中, 最好将 preserve_log 勾选上
右键->检查->network->Preserve log
谷歌开发者工具里面这个preserve log ：保留请求日志，跳转页面的时候勾选上，可以看到跳转前的请求，也可适用于chrome开发者工具抓包的问题
如果需要登录后才能访问的内容, 我们可以先做登录, 然后再访问
这里就需要用到一个类, session
将所有的requests改成session的实例就可以了
如果ip封了可以使用https://www.xicidaili.com/api
西刺代理，每天15w个ip给你用

需求

py爬取某网站直播集锦-工作需求，现场直播

根据条件，匹配指定li，点击进入集锦。
把集锦列表拿走。

py爬取某网站直播集锦-工作需求，现场直播

1. 目标网站

直播吧： https://www.zhibo8.cc

赛事：下面的一个完赛板块。

根据日期主队客队匹配比赛，进入比赛拿走集锦。

2. 分析网页

先来看看这个主页的完赛板块，是如何实现的，是ajax，还是jq隐藏展示

最要查看是否有请求：

没有请求，肯定是jq 隐藏展示控制的。也就是主页一打开，这些html 元素和数据都是加载好的。

那明确目标：我们爬取的第一次访问数据，一定是首页。

第二：找到我们要的完赛的html元素，特征点。

py爬取某网站直播集锦

这里发现，点击tab 是没有特征的。

找到完赛的 div

py爬取某网站直播集锦

第三找规则

py爬取某网站直播集锦

找准我们要匹配的数据。

日期；主队，客队。

发现他存在，如图所示，箭头出。

日期，是 div class content -> div class titlebar！
主队客队名字在 div class content-> li 文字有。和有一个属性，left-team。
客队名字： div class content-> li ->img 文字下。

那么找到了规则。我们就开始写脚本吧。

3. 编写爬虫脚本

现在开始编写，第一部分的脚本。
预计分为两个步骤。

1. 首页找到指定比赛li 获得下一个脚本的详情url

详情页爬取集锦

存入数据库

直播结果截图

写了两种get 方式，目前已经拿到数据，正在写规则匹配
py 爬取某网站直播集锦-工作需求，现场直播

本作品采用《CC 协议》，转载必须注明作者和本文链接

• 15年技术深耕：理论扎实 + 实战丰富，教学经验让复杂技术变简单 • 8年企业历练：不仅懂技术，更懂业务落地与项目实操 • 全栈服务力：技术培训 | 软件定制开发 | AI智能化升级关注「上海PHP自学中心」获取实战干货

wangchunbo

版主 2.7k 声望

啥活都干 @ 一人企业

创业给我教学和编程带来了洞见，期待与您共同成长。

0 人点赞

讨论数量: 1

wangchunbo

版主 2.7k 声望 / 啥活都干 @ 一人企业

第二章，正在更新。日常踩坑，规则貌似看的不对。他最终还是被我找到了ajax 请求！

5年前评论

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容，与人为善，比聪明更重要！

帮助

py 爬取某网站直播集锦-工作需求，现场直播

在观看本文之前，你需要了解以下技术

需求

1. 目标网站

2. 分析网页

第二：找到我们要的完赛的html元素，特征点。

第三找规则

3. 编写爬虫脚本

1. 首页找到指定比赛li 获得下一个脚本的详情url

详情页爬取集锦

存入数据库

直播结果截图

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

py 爬取某网站直播集锦-工作需求，现场直播

在观看本文之前，你需要了解以下技术

需求

1. 目标网站

2. 分析网页

第二：找到 我们要的 完赛 的html元素，特征点。

第三 找规则

3. 编写爬虫脚本

1. 首页 找到指定比赛li 获得下一个脚本 的详情url

详情页 爬取 集锦

存入数据库

直播结果截图

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

请登录

第二：找到我们要的完赛的html元素，特征点。

第三找规则

1. 首页找到指定比赛li 获得下一个脚本的详情url

详情页爬取集锦