PHP数据查重有什么好的算法或者解决方案吗？

问答 / 1 / 29 / 创建于 2年前

1. 问题描述？

项目中，需要对上传的试卷题目与题库中的试题数据进行查重检测，题库中的数据可能有上百万条，有没有什么好的算法或者解决方案来实现查重？

查重规则：对比的两道题中，中文连续7个字重复即为重复，需对重复的内容进行标记。

2. 您期望得到的结果？

能够实现问题描述的功能，由于是内网，需要自己实现查重功能，无法使用开放平台接口的方案。

课程读者 3 声望

暂无个人描述~

《L01 基础入门》

我们将带你从零开发一个项目并部署到线上，本课程教授 Web 开发中专业、实用的技能，如 Git 工作流、Laravel Mix 前端工作流等。

《G01 Go 实战入门》

从零开始带你一步步开发一个 Go 博客项目，让你在最短的时间内学会使用 Go 进行编码。项目结构很大程度上参考了 Laravel。

推荐文章：

更多推荐...

价值千万的诊所saas项目正式开源 14 / 26 |

Dcat-Plus-Admin：dcat-admin框架的超级增强版，开发效率提升200%！ 15 / 16 |

用 Laravel12 Startkit 做了一个 composer 私有包托管平台 😂 点赞超过 20 个开源，看看需要的人多不多 28 / 21 |

如何打造令后端面试官印象深刻的简历？ 16 / 10 |

花了四个月打磨的 Laravel Plus 开源 34 / 101 |

冯老师的困惑 —— 一个跑了两年的 BUG 22 / 18 |

讨论数量: 29

Mutoulee

课程读者 353 声望 / Developer @ Dobeen.Net

当时做过一个作业查重，即老师布置的作业，不同学生可能拿某个作业稍微改改就提交了，甚至不改就提交了。

主要用的到的算法是SimHash 。

2年前评论

Yolver （楼主）

搜索了一下 SimHash，大概就是给每条数据建立一个 Hash，然后比较，不过 SimHash 可以取到相似的具体内容吗？因为最后需要对相似的结果内容进行标红。

deatil

见习助教 779 声望

丢到队列慢慢查了吧。数据没有特征库吗

2年前评论

Yolver （楼主）

想着说同步查同步返回结果的

deatil （作者）

@Yolver 那就用索引系统查看看

Yolver （楼主）

@deatil 搜索引擎吗？目前用的meilisearch

____Laravel

44 声望

百万题库量不算大啊，不行就蛮干吧从第一题开始，每7个字建立一个编码，0000000001=>'ABCDEFG' ，后面每道题的7个字先查询在插入，查询存在的话，标记，按平均每道题40~50字计算，这也就每道题40来个编码，总计4000来万数据。。。

每道题平均0.05s处理时间，这算很慢的吧，也就10多个小时跑完了,晚上跑起第二天就好了

2年前评论

Yolver （楼主）

提交试题后，提交试题的人肯定是想尽快查看到重复的情况，然后进行修改，今天提交命题看查重结果，改了之后又等这么久的查重结果，不太现实

____Laravel （作者）

@Yolver 如果客户每次要提交100w题目，那确实没法，如果300,500的提交，每次也就300*0.05S。。。

Yolver （楼主）

@____Laravel 感觉确实如此，题库如果又300w数据，提交上来了30题，每道题都要去比对300w次

____Laravel （作者）

@Yolver 。。。假如你的编码表叫dicts,提交30道题，

每道题对dicts进行平均40次查询，存在即标记，不存在即插入，共计：1200次查询，
可以把每道题的码值用in来查询，那就30次查询。。。
哪来的300W次对比啊

这是小项目蛮干的做法，前提是题量不大，码值表可以用redis
如果是论文查重那样字多量大就不行了

Yolver （楼主）

@____Laravel 不好意思，是我糊涂了，项目规模目前看来是不能直接蛮干了

uuus007

@Yolver 这个办法应该可以啊。你们每道题很长？能达到几百上千的字数？

第二天堂

48 声望

是不是可以利用判断量给字符串的相似度去做：PHP两个字符串相似度

2年前评论

Yolver （楼主）

这个内置方法使用过，貌似对中文的支持不太好

第二天堂（作者）

@Yolver 那个文章下面不是有个别人写的去重方法，我有用过，感觉相对准确，你可以写个demo试一下

Yolver （楼主）

@chenrenhui 是另一个人写的那个array方式吗？那个尝试了一下，不太符合需求，而且还是有一点偏差

第二天堂（作者）

@Yolver 可能我们需求比较简单，就是做个相似度判断就可以了，估计不太符合你的需求，后面有什么解决方案吗？解决了，记得来结案哦

Yolver （楼主）

@chenrenhui 好的，目前还没有哦

zjason

27 声望

买个论文查重系统吧

2年前评论

zion_xayts_com

34 声望

es

2年前评论

Yolver （楼主）

es分词吗？现在项目里用的meilisearch

巅峰互联

课程读者 24 声望 / PHP开发 @ 自由职业者

不过这个，的确和论文查重，一个道理。有些程序真正牛逼的不是应用。而是应用背后的技术。

2年前评论

Yolver （楼主）

是的，应用只是对技术的一个体现

白小二

课程读者 145 声望 / 数据员 @ 牛头村民工

能用redis吗？redis keys *1234567*

2年前评论

Yolver （楼主）

能用redis

Oraoto

172 声望 / 菲律宾比索工程师 @ 家里蹲

100 万条答案，每条 800 字，每连续 7 个字哈希一下记录到位图，大约需要 1000000 * 800 位，也就 100 MB 内存。

不过哈希会冲突，你可以加大内存，或者记录以下原始的 7 个字做一下冲突处理。

2年前评论

Yolver （楼主）

好的，打算后续先这样试试

luke05

Lumen5.5 译者 51 声望

按照你们查重规则对题库进行分词，用杰卡德相似度系数计算下

2年前评论

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容，与人为善，比聪明更重要！

帮助