本书未发布

1.2. 爬虫犯法吗？

Python爬虫从入门到入狱 /

爬虫犯法吗？

很多人都问过我“爬虫到底犯法不？”爬虫技术本身是不犯法的，犯不犯法还要看使用者有没有使用到位。如果使用者毫无节制的对一个网站爬虫，发起大量请求，造成网络攻击，那就会算犯法。所以说：

法律制度

在早期的互联网时代，针对爬虫的法律制度还没诞生，但是随着大数据时代的来临，爬虫也随之而来。相关的法律制度也发明了。

“根据《网络技术安全》第四章第四十一条，网络运营者收集、使用个人信息，应当遵循合法、正当、必要的原则，公开收集、使用规则，明示收集、使用信息的目的、方式和范围，并经被收集者同意。&oq=第四十一条网络运营者收集、使用个人信息，应当遵循合法、正当、必要的原则，公开收集、使用规则，明示收集、使用信息的目的、方式和范围，并经被收集者同意。网络运营者不得收集与其提供的服务无关的个人信息，不得违反法律、行政法规的规定和双方的约定收集、使用个人信息，并应当依照法律、行政法规的规定和与用户的约定，处理其保存的个人信息。网络运营者不得收集与其提供的服务无关的个人信息，不得违反法律、行政法规的规定和双方的约定收集、使用个人信息，并应当依照法律、行政法规的规定和与用户的约定，处理其保存的个人信息。”
这也是为什么这本书叫《Python爬虫从入门到入狱》。

robots协议

很多网站都逃不过被爬虫的惨案，有些网站甚至被爬破产了（真实事件），这时候robots协议就有了。

什么是robots协议？

robots协议是一个放在网站上的一个.txt文本文件，通常放的位置为xxxx.com/robots.txt 。robots协议会告诉我们哪些数据不能爬取，哪些操作机器人不能做。让我们拿bing的robots协议
来做一个例子。
爬虫犯法吗？

user-agent，也就是表示用户身份，Twitterbot就代表推特爬虫机器人，baidubot就是百度爬虫机器人。
Allow 可以爬取的数据。
Disallow 不可以爬取的数据

robots协议有什么用？

robots协议是一个供爬虫工程师参考的一份文本文件，但是很可惜，很少人会遵守这份协议。于是，许多网站都做了反爬准备，之后的文章会讲到遇到反爬的解决办法。

最后想对大家说一句：“合理爬虫，人人有责！”

《Python爬虫从入门到入狱》原作者：Learnku用户@Coolest

本文章首发在 LearnKu.com 网站上。

Markdown 文本

Coolest

见习助教 395 声望

Learn to walk before you run.

1.2. 爬虫犯法吗？

爬虫犯法吗？

法律制度

robots协议

什么是robots协议？

robots协议有什么用？

推荐文章：

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

1.2. 爬虫犯法吗？

爬虫犯法吗？

法律制度

robots协议

什么是robots协议？

robots协议有什么用？

推荐文章：

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

请登录