MySQL用得好好的，為什么要轉ES?

2019-11-03 作者：佚名來源：今日頭條閱讀：次

京東到家訂單中心系統(tǒng)業(yè)務中，無論是外部商家的訂單生產，或是內部上下游系統(tǒng)的依賴，訂單查詢的調用量都非常大，造成了訂單數據讀多寫少的情況。

我們把訂單數據存儲在MySQL中，但顯然只通過DB來支撐大量的查詢是不可取的。同時對于一些復雜的查詢，MySQL支持得不夠友好，所以訂單中心系統(tǒng)使用了Elasticsearch來承載訂單查詢的主要壓力。

Elasticsearch作為一款功能強大的分布式搜索引擎，支持近實時的存儲、搜索數據，在京東到家訂單系統(tǒng)中發(fā)揮著巨大作用，目前訂單中心ES集群存儲數據量達到10億個文檔，日均查詢量達到5億。

隨著京東到家近幾年業(yè)務的快速發(fā)展，訂單中心ES架設方案也不斷演進，發(fā)展至今ES集群架設是一套實時互備方案，很好地保障了ES集群讀寫的穩(wěn)定性，下面就給大家介紹一下這個歷程以及過程中遇到的一些坑。

ES 集群架構演進之路

1、初始階段

訂單中心ES初始階段如一張白紙，架設方案基本沒有，很多配置都是保持集群默認配置。整個集群部署在集團的彈性云上，ES集群的節(jié)點以及機器部署都比較混亂。同時按照集群維度來看，一個ES集群會有單點問題，顯然對于訂單中心業(yè)務來說也是不被允許的。

2、集群隔離階段

和很多業(yè)務一樣，ES集群采用的混布的方式。但由于訂單中心ES存儲的是線上訂單數據，偶爾會發(fā)生混布集群搶占系統(tǒng)大量資源，導致整個訂單中心ES服務異常。

顯然任何影響到訂單查詢穩(wěn)定性的情況都是無法容忍的，所以針對于這個情況，先是對訂單中心ES所在的彈性云，遷出那些系統(tǒng)資源搶占很高的集群節(jié)點，ES集群狀況稍有好轉。但隨著集群數據不斷增加，彈性云配置已經不太能滿足ES集群，且為了完全的物理隔離，最終干脆將訂單中心ES集群部署到高配置的物理機上，ES集群性能又得到提升。

3、節(jié)點副本調優(yōu)階段

ES的性能跟硬件資源有很大關系，當ES集群單獨部署到物理機器上時，集群內部的節(jié)點并不是獨占整臺物理機資源，在集群運行的時候同一物理機上的節(jié)點仍會出現資源搶占的問題。所以在這種情況下，為了讓ES單個節(jié)點能夠使用最大程度的機器資源，采用每個ES節(jié)點部署在單獨一臺物理機上方式。

但緊接著，問題又來了，如果單個節(jié)點出現瓶頸了呢？我們應該怎么再優(yōu)化呢？

ES查詢的原理，當請求打到某號分片的時候，如果沒有指定分片類型（Preference參數）查詢，請求會負載到對應分片號的各個節(jié)點上。而集群默認副本配置是一主一副，針對此情況，我們想到了擴容副本的方式，由默認的一主一副變?yōu)橐恢鞫?，同時增加相應物理機。

訂單中心ES集群架設示意圖

如圖，整個架設方式通過VIP來負載均衡外部請求：

整個集群有一套主分片，二套副分片（一主二副），從網關節(jié)點轉發(fā)過來的請求，會在打到數據節(jié)點之前通過輪詢的方式進行均衡。集群增加一套副本并擴容機器的方式，增加了集群吞吐量，從而提升了整個集群查詢性能。

下圖為訂單中心ES集群各階段性能示意圖，直觀地展示了各階段優(yōu)化后ES集群性能的顯著提升：

當然分片數量和分片副本數量并不是越多越好，在此階段，我們對選擇適當的分片數量做了進一步探索。分片數可以理解為MySQL中的分庫分表，而當前訂單中心ES查詢主要分為兩類：單ID查詢以及分頁查詢。

分片數越大，集群橫向擴容規(guī)模也更大，根據分片路由的單ID查詢吞吐量也能大大提升，但聚合的分頁查詢性能則將降低；分片數越小，集群橫向擴容規(guī)模也更小，單ID的查詢性能也會下降，但分頁查詢的性能將會提升。

所以如何均衡分片數量和現有查詢業(yè)務，我們做了很多次調整壓測，最終選擇了集群性能較好的分片數。

4、主從集群調整階段

到此，訂單中心的ES集群已經初具規(guī)模，但由于訂單中心業(yè)務時效性要求高，對ES查詢穩(wěn)定性要求也高，如果集群中有節(jié)點發(fā)生異常，查詢服務會受到影響，從而影響到整個訂單生產流程。很明顯這種異常情況是致命的，所以為了應對這種情況，我們初步設想是增加一個備用集群，當主集群發(fā)生異常時，可以實時的將查詢流量降級到備用集群。

那備用集群應該怎么來搭？主備之間數據如何同步？備用集群應該存儲什么樣的數據？

考慮到ES集群暫時沒有很好的主備方案，同時為了更好地控制ES數據寫入，我們采用業(yè)務雙寫的方式來搭設主備集群。每次業(yè)務操作需要寫入ES數據時，同步寫入主集群數據，然后異步寫入備集群數據。同時由于大部分ES查詢的流量都來源于近幾天的訂單，且訂單中心數據庫數據已有一套歸檔機制，將指定天數之前已經關閉的訂單轉移到歷史訂單庫。

所以歸檔機制中增加刪除備集群文檔的邏輯，讓新搭建的備集群存儲的訂單數據與訂單中心線上數據庫中的數據量保持一致。同時使用ZK在查詢服務中做了流量控制開關，保證查詢流量能夠實時降級到備集群。在此，訂單中心主從集群完成，ES查詢服務穩(wěn)定性大大提升。

5、現今：實時互備雙集群階段

期間由于主集群ES版本是較低的1.7，而現今ES穩(wěn)定版本都已經迭代到6.x，新版本的ES不僅性能方面優(yōu)化很大，更提供了一些新的好用的功能，所以我們對主集群進行了一次版本升級，直接從原來的1.7升級到6.x版本。

集群升級的過程繁瑣而漫長，不但需要保證線上業(yè)務無任何影響，平滑無感知升級，同時由于ES集群暫不支持從1.7到6.x跨越多個版本的數據遷移，所以需要通過重建索引的方式來升級主集群，具體升級過程就不在此贅述了。

主集群升級的時候必不可免地會發(fā)生不可用的情況，但對于訂單中心ES查詢服務，這種情況是不允許的。所以在升級的階段中，備集群暫時頂上充當主集群，來支撐所有的線上ES查詢，保證升級過程不影響正常線上服務。同時針對于線上業(yè)務，我們對兩個集群做了重新的規(guī)劃定義，承擔的線上查詢流量也做了重新的劃分。

備集群存儲的是線上近幾天的熱點數據，數據規(guī)模遠小于主集群，大約是主集群文檔數的十分之一。集群數據量小，在相同的集群部署規(guī)模下，備集群的性能要優(yōu)于主集群。

然而在線上真實場景中，線上大部分查詢流量也來源于熱點數據，所以用備集群來承載這些熱點數據的查詢，而備集群也慢慢演變成一個熱數據集群。之前的主集群存儲的是全量數據，用該集群來支撐剩余較小部分的查詢流量，這部分查詢主要是需要搜索全量訂單的特殊場景查詢以及訂單中心系統(tǒng)內部查詢等，而主集群也慢慢演變成一個冷數據集群。

同時備集群增加一鍵降級到主集群的功能，兩個集群地位同等重要，但都可以各自降級到另一個集群。雙寫策略也優(yōu)化為：假設有AB集群，正常同步方式寫主（A集群）異步方式寫備（B集群）。A集群發(fā)生異常時，同步寫B(tài)集群（主），異步寫A集群（備）。

ES 訂單數據的同步方案

MySQL數據同步到ES中，大致總結可以分為兩種方案：

方案1：監(jiān)聽MySQL的Binlog，分析Binlog將數據同步到ES集群中。

方案2：直接通過ES API將數據寫入到ES集群中。

考慮到訂單系統(tǒng)ES服務的業(yè)務特殊性，對于訂單數據的實時性較高，顯然監(jiān)聽Binlog的方式相當于異步同步，有可能會產生較大的延時性。且方案1實質上跟方案2類似，但又引入了新的系統(tǒng)，維護成本也增高。所以訂單中心ES采用了直接通過ES API寫入訂單數據的方式，該方式簡潔靈活，能夠很好的滿足訂單中心數據同步到ES的需求。

由于ES訂單數據的同步采用的是在業(yè)務中寫入的方式，當新建或更新文檔發(fā)生異常時，如果重試勢必會影響業(yè)務正常操作的響應時間。

所以每次業(yè)務操作只更新一次ES，如果發(fā)生錯誤或者異常，在數據庫中插入一條補救任務，有Worker任務會實時地掃這些數據，以數據庫訂單數據為基準來再次更新ES數據。通過此種補償機制，來保證ES數據與數據庫訂單數據的最終一致性。

遇到的一些坑

1、實時性要求高的查詢走DB

對于ES寫入機制的有了解的同學可能會知道，新增的文檔會被收集到Indexing Buffer，然后寫入到文件系統(tǒng)緩存中，到了文件系統(tǒng)緩存中就可以像其他的文件一樣被索引到。

然而默認情況文檔從Indexing Buffer到文件系統(tǒng)緩存（即Refresh操作）是每秒分片自動刷新，所以這就是我們說ES是近實時搜索而非實時的原因：文檔的變化并不是立即對搜索可見，但會在一秒之內變?yōu)榭梢姟?/div>

當前訂單系統(tǒng)ES采用的是默認Refresh配置，故對于那些訂單數據實時性比較高的業(yè)務，直接走數據庫查詢，保證數據的準確性。

2、避免深分頁查詢

ES集群的分頁查詢支持from和size參數，查詢的時候，每個分片必須構造一個長度為from+size的優(yōu)先隊列，然后回傳到網關節(jié)點，網關節(jié)點再對這些優(yōu)先隊列進行排序找到正確的size個文檔。

假設在一個有6個主分片的索引中，from為10000，size為10，每個分片必須產生10010個結果，在網關節(jié)點中匯聚合并60060個結果，最終找到符合要求的10個文檔。

由此可見，當from足夠大的時候，就算不發(fā)生OOM，也會影響到CPU和帶寬等，從而影響到整個集群的性能。所以應該避免深分頁查詢，盡量不去使用。

3、FieldData與Doc Values

FieldData

線上查詢出現偶爾超時的情況，通過調試查詢語句，定位到是跟排序有關系。排序在es1.x版本使用的是FieldData結構，FieldData占用的是JVM Heap內存，JVM內存是有限，對于FieldData Cache會設定一個閾值。

如果空間不足時，使用最久未使用（LRU）算法移除FieldData，同時加載新的FieldData Cache，加載的過程需要消耗系統(tǒng)資源，且耗時很大。所以導致這個查詢的響應時間暴漲，甚至影響整個集群的性能。針對這種問題，解決方式是采用Doc Values。

Doc Values

Doc Values是一種列式的數據存儲結構，跟FieldData很類似，但其存儲位置是在Lucene文件中，即不會占用JVM Heap。隨著ES版本的迭代，Doc Values比FieldData更加穩(wěn)定，Doc Values在2.x起為默認設置。

總結

架構的快速迭代源于業(yè)務的快速發(fā)展，正是由于近幾年到家業(yè)務的高速發(fā)展，訂單中心的架構也不斷優(yōu)化升級。而架構方案沒有最好的，只有最合適的，相信再過幾年，訂單中心的架構又將是另一個面貌，但吞吐量更大，性能更好，穩(wěn)定性更強，將是訂單中心系統(tǒng)永遠的追求。

上一篇：7 個常見的 JavaScript 測驗及解答

下一篇：想看女神喜不喜歡你，用AI機器掃掃臉就知道

我們很樂意傾聽您的聲音！
即刻與我們取得聯(lián)絡
成為日后肩并肩合作的伙伴。

行業(yè)資訊

聯(lián)系我們

13387904606

地址：新余市仙女湖區(qū)仙女湖大道萬商紅A2棟

手機：13755589003
QQ：122322500
微信號：13755589003

江西新余網站設計_小程序制作_OA系統(tǒng)開發(fā)_企業(yè)ERP管理系統(tǒng)_app開發(fā)-新余聯(lián)升網絡科技有限公司贛ICP備19013599號-1 贛公網安備 36050202000267號

MySQL用得好好的，為什么要轉ES?

行業(yè)資訊

ERP系統(tǒng)的運維階段有哪些？

到2026年，亞太地區(qū)Wi-Fi 6和6E市場規(guī)模將達85.59億美元

成本幾何？“賣幣”還是“囤幣”？牛市中對礦工的兩大靈魂拷問

區(qū)塊鏈四大趨勢和十大展望：或有一次小的上市潮

大家都在用什么小型ERP管理系統(tǒng)——聯(lián)升科技ERP系統(tǒng)開發(fā)

我差點因為在應用程序中選擇使用React而被解雇

2021年，學習這7門課程，學會創(chuàng)建無代碼應用

Yarn調度器(Scheduler)詳解

Golang 語言的標準庫 log 包怎么使用？

Java基礎入門篇——面向對象和類的定義

物聯(lián)網轉售如何在合規(guī)運營前提下營收破億？

2021，如何看待網絡安全渠道的發(fā)展

CentOS 停止維護的原因：Red Hat 拒絕為其投資

使用 Node.js 的 Async Hooks 模塊追蹤異步資源

前端開發(fā)者的現狀：豈是一個亂字了得？

Android12新亮點曝光，雙擊手機背部，快速實現各種操作

應對SolarWinds黑客攻擊的10個網絡安全技巧

企業(yè)上云的七大常見安全錯誤

調查顯示：逾20%企業(yè)承認對遠程員工秘密監(jiān)視

Android 12有望允許用戶通過“附近分享”功能分享WiFi密碼

聯(lián)系我們

13387904606

地址：新余市仙女湖區(qū)仙女湖大道萬商紅A2棟