百万数据的小系统，搜索标题，不要搞这么复杂

liaosp 的个人博客 / 794 / 17 / 创建于 1年前 / 更新于 1年前

杀鸡用牛刀

按照小数据量的查询商品标题场景中，比如在一个四百万个商品里找标题，如果是使用 %标题关键词% 会全表扫描，一些小伙伴会忍不住上ES 或者 XunSearch ，我以前遇到的小系统，不少的人是这么干的

其实没有必要，可能百分之99的开发者，这辈子都用不上。没有达到一种非常夸张的数据量的时候，几百万个商品标题也是小事一桩。下面由我娓娓道来。
在这里插入图片描述

搜“一个饼干的包装”中的 “饼干” 不用%%

有没有一种方式，比如把搜索 “一个饼干的包装” ，直接命中“饼干” 直接索引读取

思路打开

我们假设有一种方式，就是可以通过分词工具，比如用jieba-php 进行分词。

假设，有两张表
product

product_title

            Jieba::init();
            Finalseg::init();
            $tokens = Jieba::cut($model->title);

我把商品标题表储存在 product 表中，然后分词的储存在 product_title 中，这样就形成了对应，饼干和包装分两条数据储存在了product_title 表中，其中对应着 product_id 。其中product_title 的title 加了索引

这种情况就像是论坛里的朋友开发过的优化查询的插件 whereIn([product_id,product_id ])差不多的方案。

但是这种方式太low 了，要是多创建几个表搜索那不是要炸。

有没有现成的？

那有没有一种laravel 插件，或者mysql 插件能直接做呢？

其实mysql 自带就有，叫 全文索引（FULLTEXT）

CREATE TABLE test (
  id INT AUTO_INCREMENT PRIMARY KEY,
  title TEXT,
  FULLTEXT(title)
);

这种方式的索引和我刚刚举例的的方式有点像，就是先进行了分词，分完词之后会储存到一个地方，读取的

$searchTerm = '关键词';
$results = YourModel::where('title', 'like', "%$searchTerm%")
    ->orWhereRaw("MATCH(title) AGAINST(? IN NATURAL LANGUAGE MODE)", [$searchTerm])
    ->get();

这种方式又会遇到问题,因为mysql 不知道中文呀，它只知道有空格的英文，中文分词默认的方式不行，需要一种兼容中文，日文，韩文这种语言叫做ngram分词的倒排索引

 ALTER TABLE  表名 ADD FULLTEXT(title) WITH PARSER ngram;

通过相对比较精确的分词，可以很快的完成我们的目标，搜索 “饼干”能找到相应的文档ID ，直接命中索引

Laravel

加不加 ngram 的区别：

Laravel

还有最后一个问题

我们搜索场景搜索 “饼干包装” ，如果直接搜索能行吗？不行！
因为没有储存“饼干包装”的文档库，如何实现呢？

还能再优化下吗？

从应用层面实现：

拿到用户的keyword 之后，用分词工具分开来，再通过 implode('+',$cuts) 的方式塞到查询中

SELECT * FROM test_fulltext WHERE MATCH(title) AGAINST('饼干+包装' IN BOOLEAN MODE);

还有就是索引保存在磁盘，意味着你不要买大内存的服务器部署，运行在内存中的中间件，可以调节mysql 的索引缓冲来优化查询

犟

关于并发，实在不行，docker+ 主从+从+从+从+从+从+从+从+从+从+从+从+从 …. 就能解决

再说了你用es 并发大了，也要考虑分布式

以后小伙伴们，业务中有类似的需求的时候，可以试试这种方案哈，别一个小小的系统还搞这些中间件哈，百分之99的开发碰不上，真的，我men只是配角！

Laravel

百万数据的小系统，搜索标题，不要搞这么复杂

好啦，到此结束！

本作品采用《CC 协议》，转载必须注明作者和本文链接

和我做朋友？

本帖由系统于 1年前自动加精

讨论数量: 17

我们只希望世界和平

课程读者 401 声望

👍

1年前评论

tsingyan

课程读者 21 声望

mysql的fulltext要注意ft_length_min 和ngr_min ，这两个参数要改下

fatrbaby

280 声望 / 首席换水官 @ 名剑风流

其实就是自己维护倒排索引吧。ElasticSearch 固然复杂，但我觉得这种方式同样不简单。第一是因为这样搜索不好定制排序，而且扩展一个业务点就得去做一些简单的处理，三是运维数据库我觉得麻烦且难度很大。是我的话，数据量小可以选择TNTSearch，数据量多可以选择 meilishearch，单机版避免了分布式的麻烦，而且比运维数据库更简单一点。

liaosp （楼主）

不用自己维护，mysql 自带的无感开发

MustangZhong

确实，数据量不多的情况下，需求关键词搜索，其实整个 meilisearch 更简单

Rytia

Laravel 8.x 译者 28 声望 / 搬砖工 @ www.zzfly.net

:+1:

cevin

320 声望

数据库自带全文检索依赖分词效果

晨雨零稀

课程读者 49 声望

meilisearch 现在怎么样了, 刚开始时候用了下, 感觉效果不理想.

goodgood

课程读者 27 声望

些的很好，我选择es

耳东

见习助教 58 声望

服务器资源有限只能 MySQL ngram了，不差服务器钱还是得ES

嗯，前提是小系统

molong

50 声望 / 软件工程师 @ 南昌腾速科技有限公司

目前我用的另外一个方法进行，不知道大家怎么看，就拿楼主的例子来讲，我在存储标题“一个饼干的包装”的时候再前面加个空格，即“ 一个饼干的包装”，然后在查询的时候使用like “ %饼干%”进行查询，就是在第一个%号前加个空格，当然这个字段加索引，用这个方法同样可以用到索引

犯二青年

@liaosp @molong 这种方式实际上是殊途同归的，就是把MySQL的B+树顺序打乱了，空格开头的都在一起，然后查询时，带了空格，就会把带空格的数据拿出来like，如果全部数据都带了空格，那么用了索引和没用索引都一样是全文扫描

能说说这样数据结构是怎么样的吗？

molong （作者）

@liaosp 就是正常的数据结构，不需要改任何东西，至少当前字段保存的时候再最前面包含一个公共的字符方便like查询识别

@liaosp 正常来说like查询时。”%饼干%”这样是没法用索引的，但是“公共的字符%饼干%”这样是可以用索引的

@犯二青年相当于无效

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容，与人为善，比聪明更重要！

帮助

百万数据的小系统，搜索标题，不要搞这么复杂

杀鸡用牛刀

搜“一个饼干的包装”中的 “饼干” 不用%%

思路打开

有没有现成的？

还有最后一个问题

还能再优化下吗？

犟

推荐文章：

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

百万数据的小系统，搜索标题，不要搞这么复杂

杀鸡用牛刀

搜“一个饼干的包装”中的 “饼干” 不用%%

思路打开

有没有现成的？

还有最后一个问题

还能再优化下吗？

犟

推荐文章：

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

请登录