如何判断内容重复上传？

问答 / 1 / 13 / 创建于 2年前

比如说，数据库里有50W条数据，都是text类型，然后要判断当前添加的内容和之前的内容是否重复（相似度90%以上），像论文查重一样，有什么优秀的解决方案吗？

Adachi

252 声望

暂无个人描述~

1 人点赞

我们将带你从零开发一个项目并部署到线上，本课程教授 Web 开发中专业、实用的技能，如 Git 工作流、Laravel Mix 前端工作流等。

从零开始带你一步步开发一个 Go 博客项目，让你在最短的时间内学会使用 Go 进行编码。项目结构很大程度上参考了 Laravel。

推荐文章：

更多推荐...

如何打造令后端面试官印象深刻的简历？ 16 / 10 |

博客

如何让DcatAdmin再放光芒,惠及百万PHPer 19 / 39 |

博客

工作小锦囊系列——如何实现一个车辆预定功能（下） 13 / 15 |

博客

工作小锦囊系列——如何实现一个车辆预定功能（上） 23 / 13 |

博客

Vim 实用小技巧系列——如何在文本的行首行尾批量添加内容？ 12 / 17 |

[转载] 嘿嘿，你可能不知道PHP如何创建数组 14 / 16 |

讨论数量: 13

Mutoulee

课程读者 354 声望 / Developer @ Dobeen.Net

完全相同去重，可以用md5校验；

文本内容相似度去重，需要用到类似simhash的算法，计算出一个向量距离，然后计算出相似度；

之前在学生提交作业（文本）防抄袭场景下做过一个，不过效果不怎么好，后来也没正式用起来。

2年前评论

徵羽宫

有点帅。

Adachi （楼主）

了解了一下这个算法，我们是试题，可能大部分试题都属于短文本，不知道是否好用，可以参考调研一下。

半人间

课程读者 186 声望

es可以用起来吧

2年前评论

Adachi （楼主）

可以尝试一下。

一个猫

课程读者 17 声望

可以试试看下能否使用：

// similar_text 计算两个字符串的相似度。可以参考一下文档
$sim = similar_text('我在家里', '家，我在', $perc);
echo "相似度: $sim ($perc %)\n";

// 输出：相似度: 6 (50 %)

2年前评论

徵羽宫

实际操作中很难把所有的文章一一查出来进行对比，楼上提到的 md5 校验应该指的是在文章插入的时候对这篇文章进行 md5 加密，相同的内容 md5加密之后也相同，然后查一下 md5 字符串在数据库是否存在就好。 simhash 算法也是，在文章插入的时候就计算 simhash 值，后续插入的文本只要对比 simhash 值就好。

一个猫（作者）

@徵羽宫如果校验完全一致的字符串md5加密可行，我在想他是否要校验语意差不多的文字也标记已存在，这个方法就能派上用场。

Adachi （楼主）

要查询数据库的，这个是否不太适用？

GeorgeKing

L5.7 译者 763 声望

你这只能通过分析文本向量，然后用向量搜索，如果有数据就不插入！

2年前评论

php_yt

Laravel 12.x 译者 1.1k 声望

我用的是这个，不过我对比的都是几十到几百字的，文章没试过
segmentfault.com/q/101000000245390...
github.com/xiaobeicn/text-similari...

2年前评论

Adachi （楼主）

这个是全查询出来本地对比？

php_yt （作者）

@Adachi 两段文本对比，我这执行一次短文本对比500次，是没啥压力的，你可以优化对比方法效率，先对比开头的一段字，相似度高再全文对比。可以先试试效率，如果效率不高可能就需要找找其他工具。

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容，与人为善，比聪明更重要！

帮助

如何判断内容重复上传？

推荐文章：

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

如何判断内容重复上传？

推荐文章：

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

请登录