《L05 电商实战》
从零开发一个电商项目,功能包括电商后台、商品 & SKU 管理、购物车、订单管理、支付宝支付、微信支付、订单退款流程、优惠券等
《G01 Go 实战入门》
从零开始带你一步步开发一个 Go 博客项目,让你在最短的时间内学会使用 Go 进行编码。项目结构很大程度上参考了 Laravel。
让他爬吧,别折腾了 :joy:
web防爬只能提高爬取门槛,别人想爬怎样都能爬。你说的这个方案用selenium就很容易绕过去了
把代码写的足够烂,你这一个方法调用足够多的其他方法,并且不在一个文件,并且少了谁都无法运行,然后再去混淆。可以大大提高难度。 屎山队上足够的屎后也许可以迫使敌人放弃。
page和id都加密呢?
这东西一个是限制单机并发数,另一个是监测到并发超限后正常返回内容,然后内容中投毒。让采集者非常费劲的才能分出是正常内容还是投毒内容就行了。80%的采集者会放弃继续。
上谷歌验证码,
可能就验证码、签名加密是比较好的方法
内容投毒行之有效
游客:ip频率限制 用户:账号频率限制 游客内容上cdn,静态化。
先自定义字体文件,不是用你的字体全部显示乱码,爬虫爬出来的全是乱码文字,只有应用了你的字体文件才能正常显示,这是目前防爬技术手段比较好的方案,但在Python面前都是浮云,Python可以直接调用一个浏览器,抓取到浏览器显示的内容,这已经是要最终显示给用户看界面,所以什么都能爬取,包括spa应用
如果是web页面。采用 页面分配token机制,类似jwt模式。验证接口是否有效token 访问,
把加密或验签的算法封装到webassembly内部 编译后的二进制文件很难被逆向拆解出原本的算法