python 网络爬虫小记

Nick 的个人博客 / 71 / 0 / 创建于 1年前

这周公司一个 AI 智能客服项目，其中知识库中的资料需要通过网络爬虫获取到，我用 kimi 和 DeepSeeK 两个 AI 工具帮我写代码，ai 写代码就是快，代码很简洁，但是一运行就有各种问题，需要不断的调整。

爬取的资料是网页上的文章，有按分类，每个分类数量不一，多少300多篇，少的8篇，文章里面有文字和图片。

爬虫的过程中遇到几个问题，简单记录一下。

1、爬虫前先看网页的结构，刚开始用模拟浏览器点击进入下一页，发现用页面不是的链接 a 标签，用 Selenium 也无法触发，当然可能是我菜，后面改成在文章详情页点击下一篇实现自动滚动爬虫。

2、请求要做停顿，请求次数太频繁会触发限流。

3、使用 selenium 模拟浏览器操作，浏览器驱动版本和浏览器要一致。

本作品采用《CC 协议》，转载必须注明作者和本文链接

Nick

课程读者 266 声望

暂无个人描述~

0 人点赞

推荐文章：

更多推荐...

置顶

[进度 100.00%] Python Masonite 4.0 中文翻译召集（Python 中的类 Laravel 框架） 15 / 20 |

博客

2021年python库大全 30 / 5 |

公告

Python Masonite 框架中文翻译召集（Python 中的类 Laravel 框架） 24 / 25 |

博客

收集了一些各大网站 python 的登陆方式,希望对学习 python 的小白，和想写爬虫的你们有所帮助,,本项目用于研究和分享各大网站的模拟登陆方式 17 / 5 |

翻译

Python 3.7 的一些新特性 10 / 2 |

公告

一起学 Python 《Python 最佳实践指南》翻译召集 16 / 2 |

讨论数量: 0

(=￣ω￣=)··· 暂无内容！

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容，与人为善，比聪明更重要！

帮助

未填写

私信

所有博文

文章归档

3 篇 2025 年 6 月 2 篇 2025 年 5 月 2 篇 2025 年 4 月 2 篇 2025 年 3 月 2 篇 2025 年 2 月 2 篇 2024 年 9 月 1 篇 2024 年 5 月 3 篇 2023 年 5 月 1 篇 2022 年 3 月 1 篇 2020 年 6 月 2 篇 2019 年 11 月 4 篇 2019 年 10 月

1年前 GatewayWorker 使用总结 1年前原生 PHP 操作数据库的方式 1年前我借鉴了 PHP PDO 对象预处理的方式，设计并开发一个组件 1年前阅读源码的思路 1年前依赖包管理工具的好处

6 编程书籍-纯分享 3 Ubuntu 16.04 安装 MySQL 8.0 全过程 2 GatewayWorker 使用总结 2 hyperf 框架动态修改或追加配置 1 Fetch 代替 Ajax 的浏览器 API

博客标签

redis

php

api

laravel

javascript

https

mysql

nosql

homestead

安全

数据库

成为赞助商

python 网络爬虫小记

推荐文章：

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

python 网络爬虫小记

推荐文章：

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

请登录