MySQL 索引使用策略及优化

xugege 的个人博客 / 1 / 0 / 创建于 6年前 / 更新于 6年前

MySQL的优化主要分为结构优化（Scheme optimization）和查询优化（Query optimization）。
本章讨论的高性能索引策略主要属于结构优化范畴。本章的内容完全基于上文的理论基础，实际上一旦理解了索引背后的机制，那么选择高性能的策略就变成了纯粹的推理，并且可以理解这些策略背后的逻辑。

一、示例数据库

为了讨论索引策略，需要一个数据量不算小的数据库作为示例。本文选用MySQL官方文档中提供的示例数据库之一：employees。这个数据库关系复杂度适中，且数据量较大。下图是这个数据库的E-R关系图（引用自MySQL官方手册）：

mysql索引使用策略及优化
可以从https://github.com/datacharmer/test_db倒入employees.sql文件

二、最左前缀原理与相关优化

高效使用索引的首要条件是知道什么样的查询会使用到索引，这个问题和B+Tree中的“最左前缀原理”有关，下面通过例子说明最左前缀原理。
这里先说一下联合索引的概念。在上文中，我们都是假设索引只引用了单个的列，实际上，MySQL中的索引可以以一定顺序引用多个列，这种索引叫做联合索引。
一般的，一个联合索引是一个有序元组<a1, a2, …, an>，其中各个元素均为数据表的一列，实际上要严格定义索引需要用到关系代数，但是这里我不想讨论太多关系代数的话题，因为那样会显得很枯燥，所以这里就不再做严格定义。另外，单列索引可以看成联合索引元素数为1的特例。
以employees.titles表为例，下面先查看其上都有哪些索引：
MySQL 索引使用策略及优化

三、EXPLAIN

在日常工作中，我们会有时会开慢查询去记录一些执行时间比较久的SQL语句，找出这些SQL语句并不意味着完事了，些时我们常常用到explain这个命令来查看一个这些SQL语句的执行计划，查看该SQL语句有没有使用上了索引，有没有做全表扫描，这都可以通过explain命令来查看。

所以我们深入了解MySQL的基于开销的优化器，还可以获得很多可能被优化器考虑到的访问策略的细节，以及当运行SQL语句时哪种策略预计会被优化器采用。
EXPLAIN出来的信息有10列，分别是id、select_type、table、type、possible_keys、key、key_len、ref、rows、Extra
概要描述：

id:选择标识符
select_type: 表示查询的类型。
table: 输出结果集的表
type: 表示表的连接类型

all（全表扫描）、index（按照索引顺序的全表扫描）、range(有范围的索引扫描)
req (查找条件列使用了索引而且不为主键和unique,使用该索引列的值并不唯一)、ref_eq（使用了主键或者唯一性索引进行查找的情况）、
const（主键放置到where后面作为条件查询，mysql优化器就能把这次查询优化转化为一个常量）
possible_keys: 表示查询时，可能使用的索引
key: 表示实际使用的索引
key_len: 索引字段的长度
ref: 列与索引的比较
rows: 扫描出的行数(估算的行数)
Extra:执行情况的描述和说明

四、具体内容

情况一：全列匹配

MySQL 索引使用策略及优化

explain SELECT * FROM employees.titles WHERE emp_no='10001' AND title = 'Senior Engineer' AND from_date='1986-06-26';
很明显，当按照索引中所有列进行精确匹配（这里精确匹配指“=”或“IN”匹配）时，索引可以被用到。这里有一点需要注意，理论上索引对顺序是敏感的，但是由于MySQL的查询优化器会自动调整where子句的条件顺序以使用适合的索引，例如我们将where中的条件顺序颠倒效果是一样的。

情况二：最左前缀匹配

MySQL 索引使用策略及优化
EXPLAIN SELECT * FROM employees.titles WHERE emp_no='10001';
当查询条件精确匹配索引的左边连续一个或几个列时，如或<emp_no, title>，所以可以被用到，但是只能用到一部分，即条件所组成的最左前缀。上面的查询从分析结果看用到了PRIMARY索引，但是key_len为4，说明只用到了索引的第一列前缀。

情况三：查询条件用到了索引中列的精确匹配，但是中间某个条件未提供

EXPLAIN SELECT * FROM employees.titles WHERE emp_no='10001' AND from_date='1986-0626'; ![MySQL 索引使用策略及优化](https://cdn.learnku.com/uploads/images/201908/07/16909/m2YLbEyydU.jpg!large)
此时索引使用情况和情况二相同，因为title未提供，所以查询只用到了索引的第一列，而后面的from_date虽然也在索引中，但是由于title不存在而无法和左前缀连接，因此需要对结果进行扫描过滤from_date（这里由于emp_no唯一，所以不存在扫描）。
如果想让from_date也使用索引而不是where过滤，可以增加一个辅助索引<emp_no, from_date>，此时上面的查询会使用这个索引。除此之外，还可以使用一种称之为“隔离列”的优化方法，将emp_no与from_date之间的“坑”填上。
首先我们看下title一共有几种不同的值：

MySQL 索引使用策略及优化
只有7种。在这种成为“坑”的列值比较少的情况下，可以考虑用“IN”来填补这个“坑”从而形成最左前缀：

MySQL 索引使用策略及优化
这次key_len为56，说明索引被用全了，但是从type和rows看出IN实际上执行了一个range查询，这里检查了7个key。
“填坑”后性能提升了一点。如果经过emp_no筛选后余下很多数据，则后者性能优势会更加明显。当然，如果title的值很多，用填坑就不合适了，必须建立辅助索引。

情况四：查询条件没有指定索引第一列

MySQL 索引使用策略及优化

由于不是最左前缀，索引这样的查询显然用不到索引。

情况五：匹配某列的前缀字符串

MySQL 索引使用策略及优化

此时可以用到索引，但是如果通配符不是只出现在末尾，则无法使用索引。（原文表述有误，如果通配符%不出现在开头，则可以用到索引，但根据具体情况不同可能只会用其中一个前缀）

情况六：范围查询

MySQL 索引使用策略及优化

范围列可以用到索引（必须是最左前缀），但是范围列后面的列无法用到索引。同时，索引最多用于一个范围列，因此如果查询条件中有两个范围列则无法全用到索引。
MySQL 索引使用策略及优化
可以看到索引对第二个范围索引无能为力。这里特别要说明MySQL一个有意思的地方，那就是仅用explain可能无法区分范围索引和多值匹配，因为在type中这两者都显示为range。同时，用了“between”并不意味着就是范围查询，例如下面的查询：

MySQL 索引使用策略及优化
看起来是用了两个范围查询，但作用于emp_no上的“BETWEEN”实际上相当于“IN”，也就是说emp_no实际是多值精确匹配。可以看到这个查询用到了索引全部三个列。因此在MySQL中要谨慎地区分多值匹配和范围匹配，否则会对MySQL的行为产生困惑。

情况七、索引选择性与前缀索引

既然索引可以加快查询速度，那么是不是只要是查询语句需要，就建上索引？答案是否定的。因为索引虽然加快了查询速度，但索引也是有代价的：索引文件本身要消耗存储空间，同时索引会加重插入、删除和修改记录时的负担，另外，MySQL在运行时也要消耗资源维护索引，因此索引并不是越多越好。一般两种情况下不建议建索引。

第一种情况是表记录比较少，例如一两千条甚至只有几百条记录的表，没必要建索引，让查询做全表扫描就好了。至于多少条记录才算多，这个个人有个人的看法，我个人的经验是以2000作为分界线，记录数不超过 2000可以考虑不建索引，超过2000条可以酌情考虑索引。

另一种不建议建索引的情况是索引的选择性较低。所谓索引的选择性（Selectivity），是指不重复的索引值（也叫基数，Cardinality）与表记录数（#T）的比值：

Index Selectivity = Cardinality / #T

显然选择性的取值范围为(0, 1]，选择性越高的索引价值越大，这是由B+Tree的性质决定的。例如，上文用到的employees.titles表，如果title字段经常被单独查询，是否需要建索引，我们看一下它的选择性：
MySQL 索引使用策略及优化
title的选择性不足0.0001（精确值为0.00001579），所以实在没有什么必要为其单独建索引。

有一种与索引选择性有关的索引优化策略叫做前缀索引，就是用列的前缀代替整个列作为索引key，当前缀长度合适时，可以做到既使得前缀索引的选择性接近全列索引，同时因为索引key变短而减少了索引文件的大小和维护开销。下面以employees.employees表为例介绍前缀索引的选择和使用。
从示例数据库图可以看到employees表只有一个索引，那么如果我们想按名字搜索一个人，就只能全表扫描了,如果频繁按名字搜索员工，这样显然效率很低，因此我们可以考虑建索引。有两种选择，建或<first_name, last_name>，看下两个索引的选择性：
MySQL 索引使用策略及优化

显然选择性太低，选择性很好，但是first_name和last_name加起来长度为30，有没有兼顾长度和选择性的办法？ >> 可以考虑用first_name和last_name的前几个字符建立索引，例如，看看其选择性： ![MySQL 索引使用策略及优化](https://cdn.learnku.com/uploads/images/201908/07/16909/sO6dCKnvZS.jpg!large)

这时选择性已经很理想了，而这个索引的长度只有18，比短了接近一半，我们把这个前缀索引建上： ``` ALTER TABLE employees.employees ADD INDEX `first_name_last_name4` (first_name, last_name(4)); ``` 此时再执行一遍按名字查询，比较分析一下与建索引前的结果：性能的提升是显著的，查询速度提高了120多倍。

>> 前缀索引兼顾索引大小和查询速度，但是其缺点是不能用于ORDER BY和GROUP BY操作，也不能用于Covering index（即当索引本身包含查询所需全部数据时，不再访问数据文件本身）。

mysql 面试

本作品采用《CC 协议》，转载必须注明作者和本文链接

MySQL 索引使用策略及优化

一、示例数据库

二、最左前缀原理与相关优化

三、EXPLAIN

四、具体内容

情况一：全列匹配

情况二：最左前缀匹配

情况三：查询条件用到了索引中列的精确匹配，但是中间某个条件未提供

情况四：查询条件没有指定索引第一列

情况五：匹配某列的前缀字符串

情况六：范围查询

情况七、索引选择性与前缀索引

推荐文章：

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

MySQL 索引使用策略及优化

一、示例数据库

二、最左前缀原理与相关优化

三、EXPLAIN

四、具体内容

情况一：全列匹配

情况二：最左前缀匹配

情况三：查询条件用到了索引中列的精确匹配，但是中间某个条件未提供

情况四：查询条件没有指定索引第一列

情况五：匹配某列的前缀字符串

情况六：范围查询

情况七、索引选择性与前缀索引

推荐文章：

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

请登录