我們很高興地宣布預覽期待已久的 LakeFS 功能:跨區域事務鏡像。鏡像建構在 S3 複製之上,可為其他區域中的版本化資料提供一致的視圖。配置完成後,它允許在您的所有區域中建立鏡像。來源儲存庫的每個鏡像都是已提交資料的唯讀副本。
資料來源:維基媒體(公共領域)
用例:本地讀取數據
您的資料是由 us-east-1 中執行的管道產生的,但您在 eu-central-1 中擁有額外的可用計算資源。配置從 us-east-1 到 eu-central-1 的鏡像。現在您可以使用任一區域中可用的運算資源來分析資料。
使用案例:災難復原
您的資料是由 us-west-2 中運行的管道產生的。配置從 us-west-2 到 us-east-1 的複製。如果 us-west-2 因任何原因不可用,您的資料仍然可用。
用例:複製快照
S3 複製具有非常高的頻寬。但它不能保證物件按照其生成的順序進行複製。如果多物件資料不斷更
新,它可能永遠無法在目標
上讀取。例如,假設 Iceberg 表每分鐘更新一次。由於 Iceberg 中的元資料物件比資料物件小得多,因此它們通常會先更新。因此,目的地的 泰國 WhatsApp 號碼數據 元資料物件可以引用從未到達的資料物件。因此,在目的地讀取 Iceberg 的應用程式將需要合併複雜的邏輯,以確保它們能夠讀取已複製的版本。
透過配置從來源區域到目標區域的
鏡像並提交新版本的數據,您始終可以讀取一致的更新版本。
本部落格深入探討了lakeFS事務鏡像的架構和操作。如果您只想開始,請隨時跳到事務鏡像:您將看到什麼。
LakeFS 事務鏡像架構
成分
湖FS
在底層,lakeFS 使用兩個 AWS 服務儲存您的資料:
在 S3 上儲存庫的儲存命名空間:
元範圍和範圍,列出任 隨時了解經濟趨勢 何提交的確切物件版本;
數據對象本身。
在 DynamoDB 上:
每個分支的頭提交;
每次提交的記錄;
每個分支的未提交物件的清單
事務鏡像元件
鏡像服務
在lakeFS鏡像中,一個主動儲存庫被鏡像到多個被動式儲存庫。為了配置鏡像,lakeFS Cloud在每個區域啟動一個服務副本。每個複製體 香港新聞 負責鏡像到其區域。從複製者的角度來看,它促進從遠端來源儲存
庫到本機目標儲存庫的鏡像
鏡像取決於3個步驟:
將S3中的資料物件和元資料物件從來源儲存桶複製到目標儲存桶。您將配置 S3 複製來執行此操作。
這確保了數據最終可用。複製物件的建立順序與原始物件非常不同,因此目標儲存桶可能永遠不會處於一致狀態。
將提交從遠端來源 LakeFS 複製
到本機目標 LakeFS。 LakeFS 鏡像主動執行此操作。
提拔支部負責人。當來源處的分支頭與目標處的目前分支頭不同時,等待 S3 Replication 複製所有資料和元資料對象,然後將目標處的分支頭提升為指向該提交。由於lakeFS從不重複使用資料或元資料物件的路徑名,因此鏡像可以安全地快取所有已到達物件的狀態。