一个高效的从 HTML 中提取正文的类库

分享 / 1 / 4 / 创建于 9年前

Textractor

An efficient class library for extracting text from HTML.

一个高效的从HTML中提取正文的类库。

正文提取采用了基于文本密度的提取算法，支持从压缩的HTML文档中提取正文，每个页面平均提取时间为30ms，正确率在95%以上。

特色

标签无关，提取正文不依赖标签；
支持从压缩的HTML文档中提取正文内容；
支持带标签输出原始正文；
核心算法简洁高效，平均提取时间在30ms左右。

安装

安装包文件

composer require "mylukin/textractor:dev-master"

添加 ServiceProvider 到您项目 config/app.php 中的 providers 部分:
```
Lukin\Textractor\TextractorServiceProvider::class,
```

创建配置文件:

php artisan vendor:publish --provider="Lukin\Textractor\TextractorServiceProvider"

然后请修改 config/textractor.php 中对应的项即可。

使用

<?php
$url = 'http://news.163.com/17/0204/08/CCDTBQ9E000189FH.html';
// 创建提取实例
$textractor = new \Lukin\Textractor();
// 下载并解析文章
$article = $textractor->download($url)->parse();

printf('<div id="url">URL: %s</div>' . PHP_EOL, $url);
printf('<div id="title">Title: %s</div>' . PHP_EOL, $article->getTitle());
printf('<div id="published">Publish: %s</div>' . PHP_EOL, $article->getPublishDate());
printf('<div id="text">Text: <pre>%s</pre></div>' . PHP_EOL, $article->getText());
printf('<div id="html">Content: %s</div>' . PHP_EOL, $article->getHTML());

License

MIT

代码地址：https://github.com/mylukin/Textractor

31 声望

暂无个人描述~

《L01 基础入门》

我们将带你从零开发一个项目并部署到线上，本课程教授 Web 开发中专业、实用的技能，如 Git 工作流、Laravel Mix 前端工作流等。

《L04 微信小程序从零到发布》

从小程序个人账户申请开始，带你一步步进行开发一个微信小程序，直到提交微信控制台上线发布。

推荐文章：

更多推荐...

价值千万的诊所saas项目正式开源 15 / 26 |

Dcat-Plus-Admin：dcat-admin框架的超级增强版，开发效率提升200%！ 18 / 17 |

做了一个独立开发者社区，期待大家一起交流 13 / 73 |

用 Laravel12 Startkit 做了一个 composer 私有包托管平台 😂 点赞超过 20 个开源，看看需要的人多不多 29 / 21 |

如何打造令后端面试官印象深刻的简历？ 16 / 10 |

花了四个月打磨的 Laravel Plus 开源 35 / 104 |

讨论数量: 4

mingyun

27 声望

只用过phpquery，明天试试这个，感谢分享

9年前评论

Hanson

VIP 752 声望

给文档提个建议，本身没提到laravel，突然写到serviceProvider会对其他开发者造成疑惑。

还有这个给我感觉没有必要为了实现单例模式去增加serviceProvider到 app.php 中

9年前评论

Hanson

VIP 752 声望

还有可以把一些方法放到 helper 文件通过composer引入吧

9年前评论

Lukin

31 声望

@Hanccc 建议非常棒！有空了我改改。

9年前评论

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容，与人为善，比聪明更重要！

帮助