当前位置：首页 > 技术文章 > 正文内容

mysql索引如何优化?（mysql数据库索引优化）

zonemu3个月前 (08-03)技术文章31

优化 MySQL 索引是提升数据库查询性能的关键手段。以下是一份全面的索引优化指南，涵盖核心原则、常用策略和避免的陷阱：

一、理解索引基础

索引是什么？ 类似于书籍的目录，数据库索引是一种数据结构（主要是 B+Tree，也有 Hash/R-Tree 等），用于快速定位表中特定数据行。
索引如何工作？ WHERE 子句：快速过滤符合条件的行。 JOIN 条件：加速表间连接。 ORDER BY：避免全表扫描进行排序（如果索引顺序与排序一致）。 GROUP BY：加速分组操作（如果分组字段在索引中）。
索引代价： 存储空间：索引需要额外的磁盘空间。写操作性能：INSERT/UPDATE/DELETE 需要同时更新索引，增加些开销。维护成本：需要合理设计和维护。

二、核心优化策略

选择正确的列创建索引：
WHERE 子句中的条件列： 筛选频繁的列是高优先级候选。
JOIN 条件的列： 用于表间连接的列必须有效索引。
ORDER BY / GROUP BY 中的列： 如果查询经常需要排序或分组，且数据量大，考虑在这些列上创建索引。
选择性高的列： 选择性指不同值比例（COUNT(DISTINCT col) / COUNT(*)）。选择性越高（越接近1），索引效率通常越好。避免在布尔类型（只有 0/1）等低选择性列上单独建索引。
考虑覆盖索引： 如果一个索引包含了查询需要的所有字段，查询只需扫描索引而无需回表访问数据行（EXPLAIN 的 Extra 列显示 Using index），性能极大提升。
明智使用组合索引（多列索引）：
最左前缀原则： MySQL 使用组合索引时，严格遵循最左前缀匹配。索引 (col1, col2, col3) 可用于 col1, (col1, col2), (col1, col2, col3) 的查询条件，但不能用于单独的 col2 或 (col2, col3) 条件（除非索引跳跃扫描）。
精心设计顺序： 将最常用于 WHERE 条件的列放在左边。将选择性更高的列尽量放在左边。如果常用于排序（ORDER BY）或分组（GROUP BY），考虑这些列的顺序，特别是当顺序与索引列顺序一致时（或前导列一致）能避免文件排序（filesort）。
避免冗余索引： (col1, col2) 已经能覆盖 (col1) 的情况，单独创建 (col1) 通常就是冗余的。但注意：有时为了利用索引覆盖特定查询，或因为不同索引类型/长度不同，看似冗余的索引可能有其作用。
避免索引失效： 确保索引能被查询使用：
在索引列上进行计算或函数操作： WHERE YEAR(date_col) = 2023 或 WHERE amount * 1.1 > 100。避免索引列参与运算，应改为 WHERE date_col >= '2023-01-01' AND date_col < '2024-01-01' 或 WHERE amount > 100 / 1.1。
隐式类型转换： WHERE varchar_col = 123（数字 vs 字符串）。确保数据类型匹配。varchar_col = '123' 才能用上索引。
前导通配符 LIKE： WHERE name LIKE '%abc'。以 % 开头无法使用索引（B-Tree 前缀特性）。'abc%' 可以使用索引（如果索引在 name 上）。
OR 条件不当： WHERE col1 = 'a' OR col2 = 'b'。如果 col1 和 col2 都有索引，MySQL 可能使用 Index Merge。但如果一个列没索引，或 OR 涉及多个条件，极易导致全表扫描。尽量用 UNION ALL 改写。
负向条件（NOT、!=、NOT IN、NOT LIKE）： 这些条件通常无法高效利用索引（全索引扫描有时可能，但仍低效）。尽量避免高频查询使用负向条件。
IS NULL / IS NOT NULL： 优化不佳，尤其是低选择性时慎用。
利用索引进行排序和分组：
如果 ORDER BY 子句的顺序和索引列的顺序（以及方向）完全一致，并且 WHERE 条件中的前导列与索引一致，则可以利用索引避免排序操作（EXPLAIN 的 Extra 列显示 Using index）。GROUP BY 隐含 ORDER BY，优化原则类似。
索引设计优化：
前缀索引： 对超长字符串列（如 CHAR/VARCHAR/TEXT/BLOB），可以只索引前 N 个字符（ALTER TABLE table ADD INDEX idx (col(N));）。平衡索引大小与选择性。计算 COUNT(DISTINCT LEFT(col, N)) / COUNT(*) 找到合适的 N。缺点：无法用于 ORDER BY / GROUP BY，也无法作为覆盖索引（除非查询字段也在前缀范围内）。
使用唯一索引： 如果业务逻辑要求某些列组合必须唯一，使用 UNIQUE INDEX 替代普通索引。这既保证了唯一性约束，也能用于查询优化。
优化索引列大小： 选择尽可能小的数据类型创建索引（如 INT 比 BIGINT 好，短字符串比长字符串好），可以减少 I/O 和内存占用。
分析查询执行计划 (EXPLAIN)：
最核心的工具！ 在查询语句前加 EXPLAIN 或 EXPLAIN FORMAT=JSON。
关键字段解读： type：访问类型（性能优劣：system > const > eq_ref > ref > range > index > ALL）。尽量避免 ALL（全表扫描）。 possible_keys：可能使用的索引。 key：实际使用的索引。如果为 NULL 或与 possible_keys 不一致，需分析原因。 key_len：使用的索引长度（字节数）。可判断组合索引使用了多少前缀。 rows：预估需要扫描的行数。值过大表示索引或条件可能有问题。 filtered：存储引擎层过滤后剩余行的百分比（非精确）。 Extra：额外信息（非常重要！），如 Using where（存储引擎后过滤）、Using index（覆盖索引）、Using temporary（临时表）、Using filesort（文件排序）等。
监控与维护：
OPTIMIZE TABLE (InnoDB)： 对于频繁插入、删除、更新的表，索引可能会产生碎片（虽然 InnoDB 自动整理，但严重时手动优化可能有益）。 ALTER TABLE ... FORCE 或重建表也可以。注意： 在 MySQL 8.0+ 中，OPTIMIZE TABLE 通常在线进行，但生产环境仍需谨慎操作。
ANALYZE TABLE： 更新索引统计信息。统计信息不准可能导致优化器选择错误的索引。建议在高负载变更后执行。MySQL 8.0+ 自动更新统计信息机制更完善，但有时仍需手动执行。
理解 InnoDB 索引特点（默认存储引擎）：
聚集索引（主键索引）： 表数据行物理存储顺序按主键索引排序。选择短小、唯一且顺序增长的主键（如自增 INT）有利于插入性能和减少页分裂。没有定义主键时，InnoDB 会自动生成一个隐藏的 ROW_ID 作为聚集索引。
二级索引（辅助索引）： 叶子节点存储主键值。查询非覆盖索引时，需要通过主键回表查询数据行。设计覆盖索引以减少回表是关键优化点。
索引条件下推 (ICP)： MySQL 5.6+ 引入。将 WHERE 条件中能使用索引的部分提前在存储引擎层过滤（EXPLAIN 的 Extra 列显示 Using index condition），减少回表次数。

三、需要避免的常见误区

盲目添加索引： 索引不是越多越好。每个索引都有创建和维护成本（空间、写性能）。频繁更新的表尤其要谨慎。
忽略 WHERE 和 ORDER BY/GROUP BY 的结合： 设计组合索引时要兼顾 WHERE 条件的过滤和 ORDER BY/GROUP BY 的排序/分组需求。
过度依赖工具自动索引建议： 工具（如 pt-index-usage）可以辅助识别缺失索引，但最终决策需结合业务逻辑、查询频率和数据分布人工判断。
忘记最左前缀原则： 组合索引的顺序设计错误是常见错误。
不分析 EXPLAIN： 不做执行计划分析就修改索引是盲目的。EXPLAIN 是优化的眼睛。
忽视覆盖索引： 为常用查询设计覆盖索引能带来数倍性能提升。
对大字段建普通索引： 超长字符串/文本字段盲目建 B-Tree 索引代价巨大（空间、速度）。优先考虑前缀索引、创建哈希字段索引或使用全文索引（FULLTEXT）。
频繁变更的字段建索引： 索引需要持续维护。如果一个字段修改极其频繁，创建索引可能得不偿失，需仔细评估查询频率。

四、实践建议

从高影响查询开始优化： 使用慢查询日志（slow_query_log）识别执行时间长、频率高的 SQL。
使用 EXPLAIN： 为这些高影响的慢查询执行 EXPLAIN，分析问题所在。
针对性设计/调整索引： 基于 EXPLAIN 结果和上述原则，设计缺失索引、修改冗余/低效索引、优化组合索引顺序。
测试变更： 在非生产环境（或业务低峰期）应用索引变更，使用真实或模拟数据测试性能影响（包括查询和写操作）。 SELECT ... FOR UPDATE 之类的写操作也要测试。
监控效果： 在生产环境应用后，持续监控慢查询、服务器负载（CPU/IO）和关键业务指标。
持续迭代： 数据分布和查询模式会变，索引优化是持续过程。定期回顾性能热点。

除了以上的内容，在实际优化中还需要考虑具体的业务特点，以上的建议主要是针对集中式OLTP数据库，分布式或OLAP业务更需要针对数据库架构特点进行深度优化。

面试官:聊聊你知道的Vue与React的区别

最近面到很多大公司的时候，小编都会碰到一个很尴尬的问题，很多大公司的技术栈都是React，但是小编学的是Vue，其实从本质上来说两者都是比较优秀的前端框架，所以有些面试官会问到Vue和React的区别...

jenkins2.107+tomcat8+jdk1.8的安装和发布代码3种方式

jenkins2.107+tomcat8+jdk1.8的安装和发布代码3种方式如果对运维课程感兴趣，可以在b站上或csdn上搜索我的账号：运维实战课程，可以关注我，学习更多免费的运维实战技术视频1....

简析html5、html的13条区别（html5和html的突出优点）

html5的流行近一两年，在国内主要是移动端和html5游戏的发展，国外也是最近纷纷使用html5，如谷歌，全面的停止flash的广告的投放量，用html5取代之，那么html5较html的区别在哪里...

UEPlus for HTML5摩尔线程S50 GPU+统信UOS+海光CPU测试

UEPlus for HTML5案例测试。今天给大家带来UEPlus for HTML5的案例测试效果展示。测试环境由客户提供，处理器是海光3250，显卡是摩尔线程S50，8G显存。操作系统是统信V2...

如何使用HTML5实现多个元素的拖放功能

通过使用HTML5的拖放功能我们可以拖放HTML页面元素。在上一篇文章中，我们介绍了有关于可以拖放单个元素的代码。在接下来的这篇文章中，我们将来介绍关于允许拖放多个元素的代码。话不多说，我们直接看示例...

Excel中的FILTER函数详细介绍及使用示例

在Excel中处理大量数据时，经常需要根据特定条件筛选出符合条件的数据行或列。这正是Excel的FILTER函数发挥作用的地方。FILTER函数是Excel中一个非常强大的工具，它可以基于一个或多个条...

空木资源网