python 网络爬虫小记

这周公司一个 AI 智能客服项目,其中知识库中的资料需要通过网络爬虫获取到,我用 kimi 和 DeepSeeK 两个 AI 工具帮我写代码,ai 写代码就是快,代码很简洁,但是一运行就有各种问题,需要不断的调整。

爬取的资料是网页上的文章,有按分类,每个分类数量不一,多少300多篇,少的8篇,文章里面有文字和图片。

爬虫的过程中遇到几个问题,简单记录一下。

1、爬虫前先看网页的结构,刚开始用模拟浏览器点击进入下一页,发现用页面不是的链接 a 标签,用 Selenium 也无法触发,当然可能是我菜,后面改成在文章详情页点击下一篇实现自动滚动爬虫。

2、请求要做停顿,请求次数太频繁会触发限流。

3、使用 selenium 模拟浏览器操作,浏览器驱动版本和浏览器要一致。

本作品采用《CC 协议》,转载必须注明作者和本文链接
微信订阅号:Nick同学
讨论数量: 0
(= ̄ω ̄=)··· 暂无内容!

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容,与人为善,比聪明更重要!