python爬虫入门

Chuzilun 的个人博客 / 8 / 0 / 创建于 5年前 / 更新于 5年前

因为最近在看爬虫嘛，所以就一直在百度搜关于爬虫的相关问题，然后就发现了原来有许多人都在问爬虫是要怎么学的，所以呢，我就感觉到了，可能大家缺少一份爬虫教程。
所以我准备整一个简简单单的入门小教程，虽然我会的也不多，但是教大家爬取一个小页面的内容还是可以的。
首先呢，说一下学习的方法
第一，你需要有一个小目标，比如说我当时的小目标其实是爬取知乎的文章，不知道你的小目标是什么呢？
第二，最好有一定的基础，能明白大体的语法，别到时候连import和from都不明白。
第三，边学边做，这点很重要，因为有的东西就是这样，我眼睛看会了但是我的脑子并不会，而你边学边做的话，遇到问题可以回去看或者百度查，要不到时候会很难受的。
第四，学会利用GitHub，这里面有许多关于python的优秀库，很适合大家使用。

话不多说，切入正题。
不过还是要说一句题外话，其实这个入门我写过一篇类似的，叫爬虫基础，欢迎大家阅读。
首先呢，库很推荐使用的是requests_html当然使用requests也可以，这两个应该是现在最流行的了吧。
安装也是老生常谈的内容了。

pip install requests

主要说一下requests吧，安装就是这么简简单单。然后我们直接import requests就可以把库导入了。具体的一些获取方法就不在这里详谈了，百度有很多，当然我推荐的是权威文档—->Requests快速上手
一般来说，这些文档都是很实用的，我以前比较爱看书，现在其实比较爱看文档了。
然后嘞，我们既然知道了这个库，也明白了要去学习该如何使用了，接下来要做什么呢？接下来需要学习一下html，哈哈真的，不是在逗你哦，因为你爬取的毕竟是网页，而网页是通过html+css+JavaScript来写的，不需要你明白他怎么写，只需要懂得这是干啥的就行了。
之后学习一下re正则，这个对爬虫来说真的很实用，比如说我的那篇文章，爬取知乎盐选，就是利用正则抓取下一页的跳转链接的。正则其实入门的话没必要怎么学，只需要知道怎么抓取指定的值就好了，之后再慢慢学下去。
然后再接下来学习scrapy，来进行更进一步的爬取，大体的思路也就是这些，上手其实是和容易的，并且爬一些简单的站也是非常容易地，但是真正要爬一些有东西的网站还是很难得，另外就是没事看看别人的代码，对自己有很大的帮助，别人写的狗屁不通，你就要学习一下如何写的不像他那样，别人写的精益求精，你就要学习一下如何写的这么好，别人好的思路你学习，别人查的方法你反思，不断学习，勇攀高峰！

本作品采用《CC 协议》，转载必须注明作者和本文链接

zjzdmc.top

python爬虫入门

推荐文章：

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

python爬虫入门

推荐文章：

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

请登录