关于站点URL分层级爬取提交百度收录
SIte:www.lesou365.com/#
打开链接分别有若干板块,想要爬取这些链接不难;但是这些链接下面有大量的文章链接,并且涉及到翻页爬取,我想拿到也能捣鼓出来,但是效率大大折扣,作为一个 pythoner 怎么能放任低效率进行工作呢?
Demo Code#
思路是:每获取到一个上层 URL 时则进入该 URL 爬取所有文章的 URL 保存为 txt 文档;直到这个上层 URL 下面的 URL 都爬取完毕后再继续爬取其他上层 URL 的下层文章链接。#
File Structure#
——washUrl # URL清洗作为一个动作
|——getUrl.py
——pushUrl # 推送URL至百度作为一个动作
|——push.py
——config.py
——main.py
Ask For#
- 请求指点如何增加爬取效率,可以用上 Thread 多线程(emmm 我还没理解懂多线程 -_-)
- 请求指点 py 项目的结构体系应当如何构建才是规范(PS:上方结构树完全是凭感觉瞎造出来的)
- 项目完成会考虑使用 GUI 封装可视化使用(PS:毕竟使用的人不懂编程),请推荐一种相对上手简单的 GUI 模块
推荐文章: