随意提取正文内容，不需要任何规则的爬虫

分享 / 347 / 9 / 创建于 4年前

在线抓取任意网页内容

只要输入你想要抓取的文章链接，直接抓取正文内容，不需要配置规则，任何网址都可以，成功率95%以上

欢迎评论和指责探讨

网络爬虫正文提取抓取内容

18 声望

自由职业者 @ 花花互娱

十年大厂工作经验，接活 wx:gouzaiw

《L05 电商实战》

从零开发一个电商项目，功能包括电商后台、商品 & SKU 管理、购物车、订单管理、支付宝支付、微信支付、订单退款流程、优惠券等

《L04 微信小程序从零到发布》

从小程序个人账户申请开始，带你一步步进行开发一个微信小程序，直到提交微信控制台上线发布。

推荐文章：

更多推荐...

高效办公小技巧——如何批量处理 SQL 文件？ 19 / 10 |

Laravel 使用 intervention/image 扩展包，生成带文字的海报 25 / 1 |

Visit：为人类制作网络请求的 CLI 工具（类 CURL） 11 / 1 |

聊聊网络的那些事 14 / 3 |

[转载]50道经典计算机网络面试题 38 / 2 |

写一个简单的IoC容器案例，理解什么是依赖注入和控制反转 78 / 14 |

讨论数量: 9

小李世界

Laravel 8.x 译者 1.9k 声望 / Doge 先锋 @ dogeow.com

根本不能用

4年前评论

L学习不停

能用，只是他把失败率写成了成功率，希望改正

aqsmoke （楼主）

@L学习不停会吗？我试了好多次了

aqsmoke （楼主）

试的什么网址啊，发过来看看

小李世界（作者）

@aqsmoke 一开始不带 http，它提示需要点击上方的登录，我才说不能用。

小李世界（作者）

@aqsmoke 有的直接没输出

aqsmoke （楼主）

@likunyan 是的，有些特殊的，还没有好的方式解决

L学习不停

@aqsmoke 比如这个网址，你试试分享：随意提取正文内容，不需要任何规则的爬虫

sphard

确实不能用

aqsmoke （楼主）

@L学习不停确实不适合这种的 😅

aqsmoke （楼主）

@sphard 如果某个站点不行，那么这个站点基本就不适合了，但是能适合绝大部分站点的

wongvio

课程读者 429 声望

试了3个网址一个没反应 http://www.idongni.cn 一个说跳过去了分享：随意提取正文内容，不需要任何规则的爬虫一个给了一些很基础的内容 https://www.xitieba.com

两个体验问题： 1、不输入http会无效 2、input获取焦点的时候应该自动清空input里的内容，你的value值一直存在

4年前评论

aqsmoke （楼主）

https://www.xitieba.com/article/xinhunzhuf... 这样的都可以的

小李世界

Laravel 8.x 译者 1.9k 声望 / Doge 先锋 @ dogeow.com

失败率确实是 95%

4年前评论

aqsmoke （楼主）

不会吧，亲，如果某个站不行，基本这个站点都不行

aqsmoke

18 声望 / 自由职业者 @ 花花互娱

http://huahualive.net/
这个站点都是通过脚本用这个提取方式提取的，根据话题名字百度搜索拿到各个网页的网址，然后去提取内容。特殊的提取不到的就跳过去了

4年前评论

sunxyw

见习版主 572 声望 / 全渣工程师 @ 打酱油

MCBBS 无法正确抓取，是的，就是那 5% 失败率。

4年前评论

QJAutumn

课程读者 56 声望

我试着提取了一下你的这篇分享：随意提取正文内容，不需要任何规则的爬虫文章,然鹅并没有成功

4年前评论

ㅤㅤ

课程读者 860 声望

我试了一下抓我的博客的文章，报了以下错误。 file

4年前评论

别多余

0 声望

柳哥?

4年前评论

她和她的猫

课程读者 35 声望

正文内容提取，之前看过类似的代码

4年前评论

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容，与人为善，比聪明更重要！

帮助

18 声望

自由职业者 @ 花花互娱

纠错改进

成为赞助商