随意提取正文内容，不需要任何规则的爬虫

分享 / 0 / 9 / 创建于 6年前

在线抓取任意网页内容

只要输入你想要抓取的文章链接，直接抓取正文内容，不需要配置规则，任何网址都可以，成功率95%以上

欢迎评论和指责探讨

网络爬虫正文提取抓取内容

19 声望

自由职业者 @ 花花互娱

十年大厂工作经验，接活 wx:gouzaiw

《L01 基础入门》

我们将带你从零开发一个项目并部署到线上，本课程教授 Web 开发中专业、实用的技能，如 Git 工作流、Laravel Mix 前端工作流等。

《L03 构架 API 服务器》

你将学到如 RESTFul 设计风格、PostMan 的使用、OAuth 流程，JWT 概念及使用和 API 开发相关的进阶知识。

推荐文章：

更多推荐...

抖音直播弹幕抓取PHP版本 16 / 13 |

Vim 实用小技巧系列——如何在文本的行首行尾批量添加内容？ 12 / 17 |

高效办公小技巧——如何批量处理 SQL 文件？ 19 / 11 |

Laravel 使用 intervention/image 扩展包，生成带文字的海报 26 / 1 |

Visit：为人类制作网络请求的 CLI 工具（类 CURL） 11 / 1 |

Dcat Admin 自定义 Form 表单实现后台系统配置内容的自定义，并可扩展配置项。 10 / 2 |

讨论数量: 9

小李世界

Laravel 8.x 译者 2.0k 声望 / Doge 先锋 @ dogeow.com

根本不能用

6年前评论

L学习不停

能用，只是他把失败率写成了成功率，希望改正

aqsmoke （楼主）

@L学习不停会吗？我试了好多次了

aqsmoke （楼主）

试的什么网址啊，发过来看看

小李世界（作者）

@aqsmoke 一开始不带 http，它提示需要点击上方的登录，我才说不能用。

小李世界（作者）

@aqsmoke 有的直接没输出

aqsmoke （楼主）

@likunyan 是的，有些特殊的，还没有好的方式解决

L学习不停

@aqsmoke 比如这个网址，你试试分享：随意提取正文内容，不需要任何规则的爬虫

sphard

确实不能用

aqsmoke （楼主）

@L学习不停确实不适合这种的 😅

aqsmoke （楼主）

@sphard 如果某个站点不行，那么这个站点基本就不适合了，但是能适合绝大部分站点的

小李世界

Laravel 8.x 译者 2.0k 声望 / Doge 先锋 @ dogeow.com

失败率确实是 95%

6年前评论

aqsmoke （楼主）

不会吧，亲，如果某个站不行，基本这个站点都不行

aqsmoke

19 声望 / 自由职业者 @ 花花互娱

http://huahualive.net/
这个站点都是通过脚本用这个提取方式提取的，根据话题名字百度搜索拿到各个网页的网址，然后去提取内容。特殊的提取不到的就跳过去了

6年前评论

sunxyw

见习版主 577 声望 / 全渣工程师 @ 打酱油

MCBBS 无法正确抓取，是的，就是那 5% 失败率。

6年前评论

QJAutumn

课程读者 56 声望

我试着提取了一下你的这篇分享：随意提取正文内容，不需要任何规则的爬虫文章,然鹅并没有成功

6年前评论

ㅤㅤ

课程读者 862 声望

我试了一下抓我的博客的文章，报了以下错误。 file

6年前评论

别多余

0 声望

柳哥?

6年前评论

wongvio

课程读者 510 声望

试了3个网址一个没反应 http://www.idongni.cn 一个说跳过去了分享：随意提取正文内容，不需要任何规则的爬虫一个给了一些很基础的内容 https://www.xitieba.com

两个体验问题： 1、不输入http会无效 2、input获取焦点的时候应该自动清空input里的内容，你的value值一直存在

6年前评论

aqsmoke （楼主）

https://www.xitieba.com/article/xinhunzhuf... 这样的都可以的

她和她的猫

课程读者 35 声望

正文内容提取，之前看过类似的代码

6年前评论

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容，与人为善，比聪明更重要！

帮助

19 声望

自由职业者 @ 花花互娱

纠错改进

成为赞助商