PHP防止网站采集

问答 / 2 / 18 / 创建于 3年前 / 更新于 3年前

1. 问题描述？

网站如何通过PHP防采集？比如：防采套路：输入验证码框验证

PHP防止网站采集

通过什么判断是爬虫、搜索引擎、用户浏览？但不要影响搜索引擎，用户浏览。目的就是判断出爬虫就直接禁止访问或者封IP之类的操作。
能有个参考案例最好了。

防采集 php

转打瞎比比

课程读者 29 声望

暂无个人描述~

0 人点赞

从小程序个人账户申请开始，带你一步步进行开发一个微信小程序，直到提交微信控制台上线发布。

我们将带你从零开发一个项目并部署到线上，本课程教授 Web 开发中专业、实用的技能，如 Git 工作流、Laravel Mix 前端工作流等。

推荐文章：

更多推荐...

博客

花了四个月打磨的 Laravel Plus 开源 34 / 101 |

博客

PHP 程序员转 Go 语言的经历分享 19 / 13 |

博客

手摸手带你使用 docker-compose 编排一个开发环境 22 / 15 |

工作

[求职] 重生之不再做PHP 12 / 83 |

博客

冯老师的困惑 —— PHP 挂了 21 / 4 |

博客

PHP使用yield 读取超大型目录、大目录的方法 16 / 15 |

讨论数量: 18

巴啦啦

课程读者 206 声望 / 宇宙游民 @ 地球村

单IP访问频次，是频次，即在某一段时间内的访问次数。根据频次来判断，除非对方开代理池，不然你是比较难判断的。

3年前评论

ononl

218 声望

不是什么重要信息真不要弄这些弹出层。弹的越多越影响体验不说，真正能防爬虫少之又少。就是限制ip访问这些。或者需要登录，限制登录账号访问频次等。

3年前评论

fatrbaby

274 声望 / 首席换水官 @ 名剑风流

目前没有100%防采集的办法，哈哈。

3年前评论

aa24615

有的，将爬虫的ip设为白名单

Joker-smile

@aa24615 加个ip代理池，你限制得过来？

Rache1

686 声望

对于爬虫，各大搜索厂商都有公布自家 bot 所使用的 IP 段，把这些 IP 段加入白名单放过。
其他的访问，未登录的就像阿里系那样，点两下就来个验证码 😄
使用手机号或者微信验证注册，对于已登录的，就限制每秒请求数，加个限流，对于异常的用户直接封停账号。

3年前评论

码龍

课程读者 17 声望

1.内网服务器 2.关闭网站 :grin:

3年前评论

tomcath

Laravel 9.x 译者 194 声望

一般防不了，只能增加爬虫的开发和维护成本。

3年前评论

aa24615

课程读者 42 声望 / PHP工程师 @ 一号互联

将爬虫的ip设为白名单

3年前评论

aa24615

课程读者 42 声望 / PHP工程师 @ 一号互联

有时候被爬也是好事情，你可以在页面中插入外链，一般对方采集后，基本上都是建站的，当爬虫爬到他的网站时，还能给你带来流量/权重

3年前评论

qufo

Laravel 8.x 译者 303 声望

拔网线得永生

3年前评论

lchola

课程读者 153 声望 / -- @ --

可能完全不影响爬虫，想要完全不影响正常用户不可能的

我现在中间件校验，只针对需要保护的资源路由

先收集搜索引擎的IP，host命令确认之后，IP段放到白名单里，不做处理，基本上几天就能收集全了

不在白名单里的

先记录ip，ua，asn，以及header的referer，然后每天awk统计一下

laravel开configureRateLimiting,频繁访问的返回429，然后统计429的状态码，不正常的多加验证码

之后收集数据先按照asn屏蔽，这个很好用，效果不错，直接把阿里云，腾讯云，amazon,ms,ovh，都屏蔽了

然后有些爬虫写的很随意，ua都不设置的，比如 android [2-6] ，os x 10_[0-9],Windows 98/CE/NT [1-4]，直接屏蔽/跳验证码，还有请求头数量就45个的，肯定不正常，屏蔽,常见的ua，curl/wget/python也屏蔽

在往后就是代理池的问题，有的代理池是不停拨号，ip总在一个范围内波动，这种屏蔽

还有一种代理池是肉鸡程序，用的家宽，分析日志判断爬虫和真实用户的大致比例，设定一个威胁值和危险期,危险期内用户每次访问威胁值增加，达到阈值就验证，用户通过就session给个安全期，安全期内不认证，通过的同时降低总的威胁值

最后说下验证码，你那个验证码没用的，免费的ocr就搞定了，推荐给你个验证码破解项目，你可以测试你的验证码,带带弟弟https://github.com/sml2h3/ddddocr

3年前评论

aa24615

够细够全,赞同
总结: 收集搜索引擎的IP,防采集做一些特别的手段

李小明

课程读者 237 声望

了解下 cf 就是干这事勾选选项即可什么火车 Python 都没办法

2年前评论

zjason

27 声望

头里面加一些连七八糟的验证信息，发现验证信息不对或者没有直接404就行了，验证信息包括用户token，请求参数，请求类型，请求路径，请求时间，请求签名等，然后中间件进行验证只是增加爬取成本，同样无法阻止

2年前评论

an_an

40 声望

PHP可以通过以下几种方式来防止采集：

设置HTTP反盗链：可以在服务器端设置HTTP反盗链，禁止除了指定来源以外的网站访问本网站的图片和资源。
设置User-Agent限制：可以在服务器端设置User-Agent限制，禁止除了正常浏览器以外的爬虫访问本网站。
设置IP黑名单：可以在服务器端设置IP黑名单，禁止除了指定IP以外的用户访问本网站。
设置滑动验证码：可以在服务器端设置滑动验证码，禁止机器人自动提交表单。

在判断是爬虫、搜索引擎、用户浏览时，可以通过检查HTTP请求头中的User-Agent字段来判断是否是爬虫、搜索引擎或用户浏览。

具体来说，可以使用如下的方法来判断：

爬虫：爬虫一般会模拟浏览器的行为，但会在User-Agent字段中添加特定的标识，例如"Googlebot"、"Baiduspider"等。因此，可以在检查User-Agent字段时，判断是否包含这些标识，来判断是否是爬虫。
搜索引擎：搜索引擎一般也会模拟浏览器的行为，但会在User-Agent字段中添加特定的标识，例如"Googlebot"、"Bingbot"等。因此，可以在检查User-Agent字段时，判断是否包含这些标识，来判断是否是搜索引擎。
用户浏览：用户浏览时，一般不会在User-Agent字段中添加特定的标识。因此，可以在检查User-Agent字段时，判断是否包含特定的标识，如果不包含，则可以判断为用户浏览。

此外，还可以通过检查请求的频率、请求的行为等因素，来进一步确定是否是爬虫、搜索引擎或用户浏览。

2年前评论

Gundy

课程读者 316 声望

1111

2年前评论

sanders

课程读者 648 声望 / 程序员鼓励师 @ KDD

不要局限于PHP技术。

个人认为从两方面来思考此类问题：一是技术层面，最简单的就是建立授权访问功能，提升一点则是爬虫行为鉴别；二是法律层面，这里可以引用《中华人民共和国数据安全法》：

第三十二条　任何组织、个人收集数据，应当采取合法、正当的方式，不得窃取或者以其他非法方式获取数据。法律、行政法规对收集、使用数据的目的、范围有规定的，应当在法律、行政法规规定的目的和范围内收集、使用数据。

结合技术手段鉴别爬虫行为，定位爬虫来源，尽可能的收集证据；再结合注册用户必须提交真实信息进行实名认证。我相信执法机关会协助我们保护数据安全，惩处数据盗用行为。

2年前评论

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容，与人为善，比聪明更重要！

帮助

PHP防止网站采集

1. 问题描述？

推荐文章：

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

PHP防止网站采集

1. 问题描述？

推荐文章：

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

请登录