爬取微信公众号文章工具

准备条件

  • 运行环境php7.0+
  • mysql数据库
  • 一个公众号

安装

github地址(自觉给星哟):github.com/luler/weixin_article_sp...

git clone https://github.com/luler/weixin_article_spider.git

配置

编辑项目目录下的.env文件

[database]
TYPE=mysql
HOSTNAME=192.168.0.3
DATABASE=weixin_article
USERNAME=root
PASSWORD=root
HOSTPORT=3306
CHARSET=utf8mb4
PREFIX=zc_

[wechat_config]
#公众号完整名称,多个用逗号隔开
wechat_list=智慧莞工,东莞理工学院
token='登录公众号后,F12打开Network,随便从某个接口获取到token'
cookie='登录公众号后,F12打开Network,随便从某个接口获取到cookie'

运行

sh spider.sh

注意点

  • 该程序不能自动登录微信公众号,需要用户自己登陆自己可以登陆的公众号,获取到相应的配置

  • 每次获取到的公众号cookie等信息都是有有效期的,大概几小时吧

  • 执行太多次,可能会被微信发现,对接口进行封禁,这个时候不要急,最多等24小时,再次登录公众号获取配置,再次执行就可以了,建议多个公众号做备用

相关截图

  • 登录公众号后获取关键配置

爬取微信公众号文章工具

  • 抓取到的数据(部分字段)

爬取微信公众号文章工具

  • 微信流控产生(这时候需要更换公众号cookie等信息,或者等待一段时间再重试)

爬取微信公众号文章工具

讨论一下

博客:爬取微信公众号文章工具

本作品采用《CC 协议》,转载必须注明作者和本文链接
我只想看看蓝天
《L01 基础入门》
我们将带你从零开发一个项目并部署到线上,本课程教授 Web 开发中专业、实用的技能,如 Git 工作流、Laravel Mix 前端工作流等。
《L04 微信小程序从零到发布》
从小程序个人账户申请开始,带你一步步进行开发一个微信小程序,直到提交微信控制台上线发布。
讨论数量: 2
aa24615

公众号不敢爬了,很多涉政信息,服务器已经封过一次了

3年前 评论
luler (楼主) 3年前
yangweijie

看了下有sleep(3*60) 最好方法写个 set_time_limit(0) 不然得配置php环境

3年前 评论
luler (楼主) 3年前

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容,与人为善,比聪明更重要!