php 中文内容相似度分析 没有好的思路 请大佬赐教

有一个需求,网站有大量「模板回复」,说白了就是预先设定好了一些文字模板,一阵的复制粘贴,甚至怀疑用机器人刷帖。 这样的话回复质量就比较低。

一个是检查这个人回复的历史内容相似度,再一个怀疑机器人分析标题的关键词进行模板回复,还要分析回复内容触碰了标题哪些关键词。

有种方法是遍历比较两个字符串的字符,返回相同字符的个数,但这种不是很科学。还有种中文分词的,没太研究。没什么好的思路,望大佬赐教。

focus
附言 1  ·  1周前

最终用了scws分词扩展,效果正在观察中

《L03 构架 API 服务器》
你将学到如 RESTFul 设计风格、PostMan 的使用、OAuth 流程,JWT 概念及使用 和 API 开发相关的进阶知识。
《L04 微信小程序从零到发布》
从小程序个人账户申请开始,带你一步步进行开发一个微信小程序,直到提交微信控制台上线发布。
讨论数量: 5

搜下文本相似性 simhash算法

1周前 评论

加个验证码就搞定的事想这么多吗

1周前 评论

similar_text() 能计算字符串的相似度以及返回匹配字符的字数 ~不知道是不是你想要的

1周前 评论
fatrbaby 1周前

可以找第三方,百度,阿里都有相关的服务

1周前 评论

分词不能解决根本问题,最终还是要比较的,才能确定相似,要么是余弦相似度,要么就是simhash,simhash比对起来相对占用资源少,长文本下效果还不错

1周前 评论

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容,与人为善,比聪明更重要!