Goutte 一个简单易用的 PHP 爬虫类库

Summer 的个人博客 / 13 / 4 / 创建于 8年前

Goutte 提供了优雅的 API 进行链接抓取，和解析 HTML 文档。

以下示例代码用来抓取 PHPUnit 的文档：

public function scrapePHPUnitDe()
{
    $client = new Client();
    $crawler = $client->request('GET', 'https://phpunit.de/manual/current/en/index.html');
    $toc = $crawler->filter('.toc');
    file_put_contents(base_path('resources/docs/').'index.html', $toc->html());

    $crawler->filter('.toc > dt a')->each(function($node) use ($client) {
        $href = $node->attr('href');
        $this->info("Scraped: " . $href);
        $crawler = $client->request('GET', $href);
        $chapter = $crawler->filter('.col-md-8 .chapter, .col-md-8 .appendix')->html();
        file_put_contents(base_path('resources/docs/').$href, $chapter);
    });
}

Goutte 主要使用以下 PHP 类库：

页面解析：Symfony 的 BrowserKit ， CssSelector 和 DomCrawler；
HTTP 请求： Guzzle

本作品采用《CC 协议》，转载必须注明作者和本文链接

摈弃世俗浮躁，追求技术精湛

本帖由系统于 7年前自动加精

站长 11.3k 声望

维护者 @ LearnKu.com

保持好奇，求知若饥，终身编程

《L04 微信小程序从零到发布》

从小程序个人账户申请开始，带你一步步进行开发一个微信小程序，直到提交微信控制台上线发布。

《L03 构架 API 服务器》

你将学到如 RESTFul 设计风格、PostMan 的使用、OAuth 流程，JWT 概念及使用和 API 开发相关的进阶知识。

推荐文章：

更多推荐...

做了一个独立开发者社区，期待大家一起交流 11 / 73 |

用 Laravel12 Startkit 做了一个 composer 私有包托管平台 😂 点赞超过 20 个开源，看看需要的人多不多 28 / 19 |

如何打造令后端面试官印象深刻的简历？ 16 / 10 |

花了四个月打磨的 Laravel Plus 开源 31 / 98 |

冯老师的困惑 —— 一个跑了两年的 BUG 21 / 17 |

在laravel下实现全双工的websocket开发 21 / 10 |

讨论数量: 4

231234

16 声望

非常好的采集插件

8年前评论

weimiyu

0 声望

请问，有没有关于项目中关于前端的命名规范的文档

6年前评论

yujunnan

2 声望

链接加密了没用规则可寻，可以爬吗？

6年前评论

WHOAMI_

见习版主 7 声望

github.com/echo-LuGuang/nothing_to...

php爬虫基于workerman 已开源

2年前评论

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容，与人为善，比聪明更重要！

帮助

维护者 @ LearnKu.com

私信

文章归档

1 篇 2024 年 7 月 1 篇 2024 年 6 月 2 篇 2022 年 6 月 1 篇 2022 年 5 月 1 篇 2021 年 11 月 3 篇 2020 年 7 月 1 篇 2020 年 4 月 2 篇 2020 年 3 月 2 篇 2020 年 2 月 1 篇 2020 年 1 月 3 篇 2019 年 12 月 4 篇 2019 年 11 月 1 篇 2019 年 10 月 1 篇 2019 年 9 月 2 篇 2019 年 7 月 6 篇 2019 年 6 月 2 篇 2019 年 5 月 3 篇 2019 年 4 月 1 篇 2018 年 6 月 1 篇 2018 年 2 月 1 篇 2017 年 12 月 1 篇 2017 年 11 月 2 篇 2017 年 7 月 2 篇 2017 年 5 月 1 篇 2017 年 3 月 1 篇 2017 年 2 月 6 篇 2017 年 1 月 2 篇 2016 年 12 月 2 篇 2016 年 8 月 1 篇 2016 年 4 月 1 篇 2014 年 12 月

1年前针对 OpenSSH CVE-2024-6387 漏洞的升级 1年前利用 fail2ban 来控制 Laravel 站点的异常流量 3年前 API 授权为啥要在 Authorization 标头里加个 Bearer？ 3年前升级到了 Google Analytics v4 版本，果然北京的用户是最多的 3年前 LearnKu 服务器已升级 PHP8 和 Ubuntu 20

419 LearnKu 诞生的故事 385 十个 Laravel 5 程序优化技巧 311 服务器做了两个优化 CPU 使用率减低 40% 297 如何高效地学习 Laravel 框架？ 204 我的 2018 ，关键词 —— 『积累』

博客标签

成为赞助商