爬虫进阶:爬虫框架

Python学习之路 /

了解框架

什么是框架

框架是为了为解决一类问题而开发的程序，框架两个字可以分开理解，框：表示指定解决问题的边界，明确要解决的问题；架：表达的是能够提供一定的支撑性和可扩展性；从而实现解决这类问题达到快速开发的目的。

为什么要实现一个框架

现在网络上现成的开源第三方框架非常多，为什么还需要自己实现一个框架？

现成开源第三方框架的局限性：

现成开源第三方框架是为了尽可能满足大部分的需求，不可能做到面面俱到，以及第三方框架的调试相对复杂
解决特定的工作需求：

工作中会有很多特殊的需求，会经常使用某种套路去实现这些需求，那么为了提高效率可以专门把这种套路封装成一个框架

比如专门针对电商网站、新闻资讯写一个爬虫框架；再比如针对断点续爬、增量抓取等需求写一个框架
提高自己的技术能力：

不一定需要亲自造轮子，但是应该知道如何造轮子

如何完成一个框架

现在我们明确了框架是什么以及为什么要实现一个框架，那么到底应该如何实现一个框架呢，我们的idea从哪里来呢？

经验丰富的程序员：

直接根据以往经验和业务的需求进行框架原型设计，并用语言去实现
经验一般的程序员：

通常应该是先学习别人的框架如何实现的，先学习别人优秀的比较好的实现思路和方案

那么同样的，对于我们：
我们可以结合目前学习过的爬虫知识和爬虫框架，了解他们的设计思路，在这个基础上进行模仿和改进，从而实现一个框架

框架设计思路分析

学习Scrapy，提取它的设计思想

爬虫的流程

爬虫框架解决的问题是爬虫问题，先来看看爬虫的基本流程：

构建请求信息(url、method、headers、params、data)
发起HTTP/HTTPS请求，获取HTTP/HTTPS响应
解析响应，分析响应数据的数据结构或者页面结构
- 提取数据
- 提取请求的地址
对数据进行存储/对新的请求地址重复前面的步骤

无论什么爬虫框架，其核心都离不开上面几个步骤

scrapy爬虫流程分析

三个内置对象：

 请求对象(Request)
 响应对象(Response)
 数据对象(Item)

五个核心组件：

 爬虫组件
     构建请求信息(初始的)，也就是生成请求对象(Request)
     解析响应对象，返回数据对象(Item)或者新的请求对象(Request)
 调度器组件
     缓存请求对象(Request)，并为下载器提供请求对象，实现请求的调度
     对请求对象进行去重判断
 下载器组件
     根据请求对象(Request)，发起HTTP、HTTPS网络请求，拿到HTTP、HTTPS响应，构建响应对象(Response)并返回
 管道组件
     负责处理数据对象(Item)
 引擎组件
     负责驱动各大组件，通过调用各自对外提供的API接口，实现它们之间的交互和协作
     提供整个框架的启动入口

两个中间件：

 爬虫中间件
     对请求对象和数据对象进行预处理

 下载器中间件
     对请求对象和响应对象进行预处理

那么对应的，我们也可以在自己的框架是实现这样几个模块和对象

本文章首发在 LearnKu.com 网站上。

Markdown 文本

SilenceHL

版主 439 声望

暂无个人描述~

爬虫进阶:爬虫框架

了解框架

什么是框架

为什么要实现一个框架

如何完成一个框架

框架设计思路分析

学习Scrapy，提取它的设计思想

爬虫的流程

scrapy爬虫流程分析

推荐文章：

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

爬虫进阶:爬虫框架

了解框架

什么是框架

为什么要实现一个框架

如何完成一个框架

框架设计思路分析

学习Scrapy，提取它的设计思想

爬虫的流程

scrapy爬虫流程分析

推荐文章：

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

请登录