问答 / 164 / 1 / 创建于 2年前 / 更新于 2年前
有这么一个场景,如果一个表里有10万篇文章,怎么能知道哪个关键词出现的次数最多?php + mysql1.如果考虑性怎么做。2.如果不考虑性能怎么做。
考虑性能:
专业的事情交给专业的中间件去做,比如把文章数据同步 ES,就可以自动分词然后聚合出热词及数量
不考虑性能:
可以调用分词工具后,将拆分出来的关键字存入数据库中,不存在就新增,存在就令其 count +1,但麻烦的点在于文章更新后,关键词统计维护就会很麻烦。
之前想的是分布式 Python进行数据分析,提取热词。然后生成词云图。
我要举报该,理由是:
推荐文章: