php 中文内容相似度分析 没有好的思路 请大佬赐教

有一个需求,网站有大量「模板回复」,说白了就是预先设定好了一些文字模板,一阵的复制粘贴,甚至怀疑用机器人刷帖。 这样的话回复质量就比较低。

一个是检查这个人回复的历史内容相似度,再一个怀疑机器人分析标题的关键词进行模板回复,还要分析回复内容触碰了标题哪些关键词。

有种方法是遍历比较两个字符串的字符,返回相同字符的个数,但这种不是很科学。还有种中文分词的,没太研究。没什么好的思路,望大佬赐教。

focus
附言 1  ·  3个月前

最终用了scws分词扩展,效果正在观察中

《L03 构架 API 服务器》
你将学到如 RESTFul 设计风格、PostMan 的使用、OAuth 流程,JWT 概念及使用 和 API 开发相关的进阶知识。
《G01 Go 实战入门》
从零开始带你一步步开发一个 Go 博客项目,让你在最短的时间内学会使用 Go 进行编码。项目结构很大程度上参考了 Laravel。
讨论数量: 5

搜下文本相似性 simhash算法

3个月前 评论

加个验证码就搞定的事想这么多吗

3个月前 评论

similar_text() 能计算字符串的相似度以及返回匹配字符的字数 ~不知道是不是你想要的

3个月前 评论
fatrbaby 3个月前

可以找第三方,百度,阿里都有相关的服务

3个月前 评论

分词不能解决根本问题,最终还是要比较的,才能确定相似,要么是余弦相似度,要么就是simhash,simhash比对起来相对占用资源少,长文本下效果还不错

3个月前 评论

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容,与人为善,比聪明更重要!