python爬虫入门

因为最近在看爬虫嘛,所以就一直在百度搜关于爬虫的相关问题,然后就发现了原来有许多人都在问爬虫是要怎么学的,所以呢,我就感觉到了,可能大家缺少一份爬虫教程。
所以我准备整一个简简单单的入门小教程,虽然我会的也不多,但是教大家爬取一个小页面的内容还是可以的。
首先呢,说一下学习的方法
第一,你需要有一个小目标,比如说我当时的小目标其实是爬取知乎的文章,不知道你的小目标是什么呢?
第二,最好有一定的基础,能明白大体的语法,别到时候连import和from都不明白。
第三,边学边做,这点很重要,因为有的东西就是这样,我眼睛看会了但是我的脑子并不会,而你边学边做的话,遇到问题可以回去看或者百度查,要不到时候会很难受的。
第四,学会利用GitHub,这里面有许多关于python的优秀库,很适合大家使用。

话不多说,切入正题。
不过还是要说一句题外话,其实这个入门我写过一篇类似的,叫爬虫基础,欢迎大家阅读。
首先呢,库很推荐使用的是requests_html当然使用requests也可以,这两个应该是现在最流行的了吧。
安装也是老生常谈的内容了。

pip install requests

主要说一下requests吧,安装就是这么简简单单。然后我们直接import requests就可以把库导入了。具体的一些获取方法就不在这里详谈了,百度有很多,当然我推荐的是权威文档—->Requests快速上手
一般来说,这些文档都是很实用的,我以前比较爱看书,现在其实比较爱看文档了。
然后嘞,我们既然知道了这个库,也明白了要去学习该如何使用了,接下来要做什么呢?接下来需要学习一下html,哈哈真的,不是在逗你哦,因为你爬取的毕竟是网页,而网页是通过html+css+JavaScript来写的,不需要你明白他怎么写,只需要懂得这是干啥的就行了。
之后学习一下re正则,这个对爬虫来说真的很实用,比如说我的那篇文章,爬取知乎盐选,就是利用正则抓取下一页的跳转链接的。正则其实入门的话没必要怎么学,只需要知道怎么抓取指定的值就好了,之后再慢慢学下去。
然后再接下来学习scrapy,来进行更进一步的爬取,大体的思路也就是这些,上手其实是和容易的,并且爬一些简单的站也是非常容易地,但是真正要爬一些有东西的网站还是很难得,另外就是没事看看别人的代码,对自己有很大的帮助,别人写的狗屁不通,你就要学习一下如何写的不像他那样,别人写的精益求精,你就要学习一下如何写的这么好,别人好的思路你学习,别人查的方法你反思,不断学习,勇攀高峰!

本作品采用《CC 协议》,转载必须注明作者和本文链接
讨论数量: 0
(= ̄ω ̄=)··· 暂无内容!

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容,与人为善,比聪明更重要!