笔记六十三：段合并优化及注意事项

CrazyZard 的个人博客 / 0 / 0 / 创建于 6年前 / 更新于 6年前

Lucene Index 原理回顾
- 在 Lucene 中，单个倒排索引文件被称为 Segment。Segment 是自包含的，不可变更的。多个 Segments 汇总在一起，称为 Lucene 的 Index，其对应的就是 ES 中的 Shard
- 当有新文档写入时，并且执行 Refresh，就会生成一个新 Segment。 Lucene 中有一个文件，用来记录所有 Segments 信息，叫做 Commit Point。查询时会同时查询所有 Segments，并且对结果汇总。
- 删除的文档信息，保存在 “.del” 文件中，查询后会进行过滤。
- Segment 会定期 Merge，合并成一个，同时删除已删除文档

段合并优化及注意事项

Merge 优化

ES 和 Lucene 会自动进行 Merge 操作
Merge 操作相对比较重，需要优化，降低对系统的影响
优化点一：降低分段产生的数量/频率
- 可以将 Refresh Interval 调整到分钟级别 / indices.memory.index_buffer_size (默认是 10%)
- 尽量避免文档的更新操作
优化点二：降低最大分段大小，避免较大的分段继续参与 Merge，节省系统资源。（最终会有多个分段）
- Index.merge.policy.segments_per_tier，默认为 10，越小需要越多的合并操作
- Index.merge.policy.max_merged_segment, 默认 5 GB，操作此大小以后，就不再参与后续的合并操作

Force Merge

当 Index 不再有写入操作的时候，建议对其进行 force merge
- 提升查询速度 / 减少内存开销
最终分成几个 segments 比较合适？
- 越少越好，最好可以 force merge 成 1 个，但是，Force Merge 会占用大量的网络，IO 和 CPU
- 如果不能在业务高峰期之前做完，就需要考虑增大最终的分段数
  - Shard 的大小 / Index.merge.policy.max_merged_segment 的大小

本作品采用《CC 协议》，转载必须注明作者和本文链接

快乐就是解决一个又一个的问题！

版主 1.3k 声望

程序猿 @ 西湖心辰

暂无个人描述~

讨论数量: 0

(=￣ω￣=)··· 暂无内容！

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容，与人为善，比聪明更重要！

帮助

程序猿 @ 西湖心辰

私信

文章归档

1 篇 2023 年 8 月 1 篇 2023 年 3 月 1 篇 2022 年 11 月 1 篇 2021 年 12 月 1 篇 2021 年 8 月 1 篇 2021 年 7 月 1 篇 2021 年 2 月 1 篇 2021 年 1 月 1 篇 2020 年 10 月 1 篇 2020 年 9 月 1 篇 2020 年 8 月 7 篇 2020 年 7 月 7 篇 2020 年 6 月 1 篇 2020 年 5 月 6 篇 2020 年 4 月 11 篇 2020 年 3 月 13 篇 2020 年 2 月 8 篇 2020 年 1 月 16 篇 2019 年 12 月 13 篇 2019 年 11 月 22 篇 2019 年 10 月 2 篇 2019 年 9 月 1 篇 2018 年 12 月

2年前如何正确计算 openai stream 流式的 tokens 3年前 mysql 同步 es 详细步骤讲解 3年前在 mapping 上新建索引字段，更新全部文档，随后发现这个好用的功能 4年前 0 == "无". 结果是 true 4年前 golang 的 http 请求池

66 连 TCP 这几个参数都不懂，回去等通知吧！（一） 58 世界上最好的学习法：费曼学习法 56 七大缓存经典问题 31 吃透了这些 Redis 知识点，面试官一定觉得你很 NB 18 基于 swoole 的laravel 聊天平台

博客标签

成为赞助商