LakeFS 儲存庫剖析:Git 資料的實際範例

Git 數據一開始聽起來可能很奇怪。但將 Git 邏輯和機制用於資料湖非常有意義。畢竟,軟體開發人員很久以前就知道如何使用 Git 有效地協作處理不斷變化的原始碼。

我們創建 LakeFS 是為了提供資料人員類似的功能。它提供基於 Git 語義的資料版本控制功能,僅縮放到典型 S3 儲存桶的大小。

為了幫助您了解 Git 對資料的價值,

這裡概述了每個 LakeFS 儲存庫中包含的工具。他們一定會幫助您制定資料策略,並確保您的組織符合其合規性、品質和安全要求。

提交、分支和標籤讓我們從 LakeFS

中可以找到的基本版本控制機制開始:進行提交、建立分支、新增標籤以及將分支合併到主幹。

以下是這些機制如何運作的快速快照:

提交可讓您擷取儲存庫中管理的所有資料的特定狀態。透過使用提交,您可以瀏覽儲存庫歷史記錄中

的某個點,並知道您看到的資料

與提交時的資料完全相同。

分支允許您建立開發、暫存和 西班牙 WhatsApp 號碼數據 生產環境,而無需複製任何資料。這為使用沙盒管道模式建立彈性資料管道打開了大門 。

標籤對於建立可重複的 ML 實驗

和模型非常有用,因為它們可以提供可靠且高效的方法來建立資料集快照,使您能夠追蹤實驗和資料版本,以了解任何時間點的資料的準確狀態。標籤的另一個很好的用例是與其他資料科學家和工程師合作,因為標籤的一致使用可以確保每個人都查看相同版本的資料。

WhatsApp數據

他們是如何走到一起的?這是一個範例流程:

從主分支建立一個新分支,以立即「複製」您的生產資料。
在將變更公開給其他使用者 13 個啟發靈感的互動式電子郵件範例 或資料消費者之前,將變更套用到隔離分支以了解其影響。
最後,執行從功能分支到主分支的合併,以原子方式促進生產的改進。
LakeFS 允許遵循此模式,從而實現更有效率的資料分發方法,可靠地提供您可以信任的資料資產。

掛鉤上圖包含一個名為 Pre-Merge Hook 的

步驟。什麼是鉤子,為什麼要關心?

LakeFS 掛鉤可讓您自動執行一組檢查和驗證,並確保它們在關鍵生命週期事件之前執行。

LakeFS hooks 理論上 香港新聞 與 Git Hooks 類似,但與 Git 不同的是,它們在伺服器上遠端操作,確保在觸發正確的事件時執行它們。

LakeFS hooks有兩個強大的用例:

它們可以充當品質門- 通過添加預合併掛鉤,您只允許高品質數據合併到生產分支中。
自動化常見資料操作– 您可以使用提交後或合併後掛鉤將新資料註冊到資料目錄中。
對於所有事件類型,傳回錯誤將迫使 LakeFS 停止操作並將故障傳達給發出請求的使用者。

這是一個強有力的保證:

現在您可以編纂並自動化所有

資料湖參與者必須遵循的規則和程序。

LakeFS 隨附一個Lua 虛擬機,可讓您直接在 LakeFS 中運行鉤子,而無需依賴任何外部元件。

存取控制策略
資料湖平台通常缺乏直接的資料治理實施。資料治理規則一開始就要求很高,更不用說當您面臨維護資料湖中的資料的額外複雜性時。因此,實施它們是一項成本高昂、耗時的持續活動,需要持續監控。通常,這是以資料工程或其他業務增強 DevOps 工作為代價的。

返回頂端