php 中文内容相似度分析 没有好的思路 请大佬赐教

有一个需求,网站有大量「模板回复」,说白了就是预先设定好了一些文字模板,一阵的复制粘贴,甚至怀疑用机器人刷帖。 这样的话回复质量就比较低。

一个是检查这个人回复的历史内容相似度,再一个怀疑机器人分析标题的关键词进行模板回复,还要分析回复内容触碰了标题哪些关键词。

有种方法是遍历比较两个字符串的字符,返回相同字符的个数,但这种不是很科学。还有种中文分词的,没太研究。没什么好的思路,望大佬赐教。

welcome come back
附言 1  ·  3年前

最终用了scws分词扩展,效果正在观察中

《L01 基础入门》
我们将带你从零开发一个项目并部署到线上,本课程教授 Web 开发中专业、实用的技能,如 Git 工作流、Laravel Mix 前端工作流等。
《L05 电商实战》
从零开发一个电商项目,功能包括电商后台、商品 & SKU 管理、购物车、订单管理、支付宝支付、微信支付、订单退款流程、优惠券等
讨论数量: 5

搜下文本相似性 simhash算法

3年前 评论

加个验证码就搞定的事想这么多吗

3年前 评论

similar_text() 能计算字符串的相似度以及返回匹配字符的字数 ~不知道是不是你想要的

3年前 评论
fatrbaby 3年前

可以找第三方,百度,阿里都有相关的服务

3年前 评论

分词不能解决根本问题,最终还是要比较的,才能确定相似,要么是余弦相似度,要么就是simhash,simhash比对起来相对占用资源少,长文本下效果还不错

3年前 评论

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容,与人为善,比聪明更重要!