搜索
搜 索
本版
文章
帖子
用户
图文精华
hadoop-2.6.0+zookeeper-3.4.6+hbase-1.0.0+hive-1.1.0完全分布 ...
首页
Portal
专题
BBS
面试
更多
登录
注册
用户组:游客
主题
帖子
云币
我的帖子
我的收藏
我的好友
我的勋章
设置
退出
导读
淘贴
博客
群组
社区VIP
APP下载
今日排行
本周排行
本周热帖
本月排行
本月热帖
会员排行
About云-梭伦科技
»
专题
›
好文
›
好文
›
Solr|Nutch|Lucene|ES
›
文章
›
Elasticsearch架构原理
0
2
1
分享
Elasticsearch架构原理
levycui
2020-5-20 19:22:15
发表于
文章
[显示全部楼层]
只看大图
阅读模式
关闭右栏
2
3250
本帖最后由 levycui 于 2020-5-20 19:46 编辑
架构原理
本书作为 Elastic Stack 指南,关注于 Elasticsearch 在日志和数据分析场景的应用,并不打算对底层的 Lucene 原理或者 Java 编程做详细的介绍,但是 Elasticsearch 层面上的一些架构设计,对我们做性能调优,故障处理,具有非常重要的影响。
所以,作为 ES 部分的起始章节,先从数据流向和分布的层面,介绍一下 ES 的工作原理,以及相关的可控项。各位读者可以跳过这节先行阅读后面的运维操作部分,但作为性能调优的基础知识,依然建议大家抽时间返回来了解。
带着问题学习
写入的数据是如何变成elasticsearch里可以被检索和聚合的索引内容的?
lucene如何实现准实时索引?
什么是segment?
什么是commit?
segment的数据来自哪里?
segment在写入磁盘前就可以被检索,是因为利用了什么?
elasticsearch中的refresh操作是什么?配置项是哪个?设置的命令是什么?
refresh只是写到了文件系统缓存,那么实际写入磁盘是由什么控制呢?,如果这期间发生错误和故障,数据会不会丢失?
什么是translog日志?什么时候会被清空?什么是flush操作?配置项是什么?怎么配置?
什么是段合并?为什么要段合并?段合并线程配置项?段合并策略?怎么forcemerge(optimize)?
routing的规则是什么样的?replica读写过程?wait_for_active_shards参数timeout参数 ?
reroute 接口?
两种 自动发现方式?
segment、buffer和translog对实时性的影响
既然介绍数据流向,首先第一步就是:写入的数据是如何变成 Elasticsearch 里可以被检索和聚合的索引内容的?
以单文件的静态层面看,每个全文索引都是一个词元的倒排索引,具体涉及到全文索引的通用知识,这里不单独介绍,有兴趣的读者可以阅读《Lucene in Action》等书籍详细了解。
动态更新的 Lucene 索引
以在线动态服务的层面看,要做到实时更新条件下数据的可用和可靠,就需要在倒排索引的基础上,再做一系列更高级的处理。
其实总结一下 Lucene 的处理办法,很简单,就是一句话:新收到的数据写到新的索引文件里。
Lucene 把每次生成的倒排索引,叫做一个段(segment)。然后另外使用一个 commit 文件,记录索引内所有的 segment。而生成 segment 的数据来源,则是内存中的 buffer。也就是说,动态更新过程如下:
如何利用磁盘缓存实现的准实时检索?如何使用translog提供的磁盘同步控制?
可下载文档:
Elasticsearch架构原理 .pdf
(986.56 KB, 下载次数: 31)
2020-5-20 19:21 上传
点击文件名下载附件
原文链接:
https://mp.weixin.qq.com/s/wDcOK-dV1lpqjzzTExTKMw
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
显身卡
已有(2)人评论
电梯直达
正序浏览
美丽天空
发表于 2020-5-21 10:26:06
感谢f'xfx
回复
使用道具
举报
显身卡
美丽天空
发表于 2020-5-21 10:27:36
感谢分享
回复
使用道具
举报
显身卡
还有一些帖子被系统自动隐藏,点此展开
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
最佳新人
积极上进,爱好学习
热心会员
经常帮助其他会员答疑
发表新帖
levycui
超级版主
关注
654
主题
1167
帖子
97
粉丝
TA的主题
快手广告领域的大模型技术探索与实践
2024-12-12
人工智能,助力书写数字金融大文章
2024-9-14
开源模型超过最强闭源模型,Llama 3.1颠覆AI生态
2024-7-25
慈不掌兵,我被下属反向PUA了
2024-5-21
字节三面过程,最终还是凉了
2024-4-25
24小时热文
找工作很难,为什么我一天三个机会
股票魔法师.Ⅲ,趋势交易圆桌访谈
大数据面试题
我如何从股市赚了200万(珍藏版)
投资心理学(原书第5版) (华章经典&金融
关闭
推荐
/2
中文版ChatGPT
1.无需魔法 2.提高编程效率 3.提高文档能力
查看 »
新手帮助
新手帮助:注册遇到问题,领取资源,加入铁粉群,不会使用搜索,如何获取积分等
查看 »
意见
反馈