php 中文内容相似度分析 没有好的思路 请大佬赐教
有一个需求,网站有大量「模板回复」,说白了就是预先设定好了一些文字模板,一阵的复制粘贴,甚至怀疑用机器人刷帖。 这样的话回复质量就比较低。
一个是检查这个人回复的历史内容相似度,再一个怀疑机器人分析标题的关键词进行模板回复,还要分析回复内容触碰了标题哪些关键词。
有种方法是遍历比较两个字符串的字符,返回相同字符的个数,但这种不是很科学。还有种中文分词的,没太研究。没什么好的思路,望大佬赐教。
最终用了scws分词扩展,效果正在观察中
搜下文本相似性 simhash算法
加个验证码就搞定的事想这么多吗
similar_text() 能计算字符串的相似度以及返回匹配字符的字数 ~不知道是不是你想要的
可以找第三方,百度,阿里都有相关的服务
分词不能解决根本问题,最终还是要比较的,才能确定相似,要么是余弦相似度,要么就是simhash,simhash比对起来相对占用资源少,长文本下效果还不错