《L01 基础入门》
我们将带你从零开发一个项目并部署到线上,本课程教授 Web 开发中专业、实用的技能,如 Git 工作流、Laravel Mix 前端工作流等。
《G01 Go 实战入门》
从零开始带你一步步开发一个 Go 博客项目,让你在最短的时间内学会使用 Go 进行编码。项目结构很大程度上参考了 Laravel。
关于 LearnKu
当时做过一个作业查重,即老师布置的作业,不同学生可能拿某个作业稍微改改就提交了,甚至不改就提交了。
主要用的到的算法是SimHash 。
丢到队列慢慢查了吧。数据没有特征库吗
百万题库量不算大啊,不行就蛮干吧 从第一题开始,每7个字建立一个编码,0000000001=>'ABCDEFG' ,后面每道题的7个字先查询在插入,查询存在的话,标记,按平均每道题40~50字计算,这也就每道题40来个编码,总计4000来万数据。。。
是不是可以利用判断量给字符串的相似度去做:PHP两个字符串相似度
买个论文查重系统吧
es
不过这个,的确和论文查重,一个道理。 有些程序 真正牛逼的不是应用。而是应用背后的技术。
能用redis吗?redis keys *1234567*
100 万条答案,每条 800 字,每连续 7 个字哈希一下记录到位图,大约需要 1000000 * 800 位,也就 100 MB 内存。
不过哈希会冲突,你可以加大内存,或者记录以下原始的 7 个字做一下冲突处理。
按照你们查重规则对题库进行分词,用杰卡德相似度系数计算下