LakeFS + Unity 目錄整合:逐步教學

高效的資料管理是任何現代組織的關鍵組成部分。

隨著資料量的成長和資料來源變得更加多樣化,對強大的資料目錄解決方案的需求變得越來越明顯。認識到這一需求,開源資料湖管理平台LakeFS 與Databricks的綜合資料目錄解決方案Unity Catalog整合。

在這篇文章中,我們將探討這

種整合的令人興奮的功能和優勢,以及它如何簡化資料管理工作流程。

Databricks 的 Unity 目錄
Unity Catalog 是一個統一的治理解決方案,適用於任何雲端上 Lakehouse 中的所有資料和 AI 資產,包括文件、表格、機器學習模型和儀表板。

它提供了用於編目、組織和管理

不同資料來源的集中式解決方案,使資料工程師、資料科學家和分析師能夠更輕鬆地找到並利用他們所需的資料。憑藉著資料發現、資料沿襲和治理功能等功能,Unity Data Catalog 讓團隊能夠釋放資料的真正潛力。

與lakeFS無縫集成

LakeFS 和 Unity Catalog 之間的集合成為處理大規模複雜資料的組織帶來了一系列好處。

Unity 表的完整 台灣 WhatsApp 號碼數據 資料版本控制
透過將 LakeFS 與 Unity Catalog 集成,組織可以獲得強大的資料版本控制功能。

LakeFS 允許使用者對其資料

資產進行版本控制,以捕捉隨時間的變化。此功能使團隊能夠追蹤修改、比較不同版本,並在必要時輕鬆恢復到以前的狀態。使用者現在可以查詢 LakeFS 中不同分支或標籤中出現的表。

WhatsApp數據

協作與團隊合作透過這種集成

現在可以使用標準 SQL 表向利害關係人公開更改。使用lakeFS提供的隔離的零拷貝分支,使用者可以修改表格並自動將其變更公開 客戶成功策略 提高客戶成功的十大因素 為Unity表。消費者要做的就是選擇 LakeFS 分支的名稱並將其用作 Unity 架構名稱。

增強資料治理透過集成組織可

以建立強大的資料治理實踐。 LakeFS 配備了強大的鉤子系統,允許用戶準確控制允許哪些更改,驗證數據和元數據,而 Unity 允許在表甚至列級別定義細粒度的存取控制。這種組合使安全團隊可以輕鬆定義控制和護欄來保護他們最重要的資產—資料。

釋放無伺服器資料倉儲的全部功能(和成本優勢)
Enigma使用 LakeFS 產生經過 香港新聞 驗證的資料。他們的進程將資料寫入生產表。 LakeFS Unity Catalog

Export 功能配置為在生產分支和

其他幾個分支上公開這些表。接下來,資料科學家可以利用此設定來查詢所有匯出分支上的表。

然後,資料科學家可以使用 Databricks Unity Catalog 檢查表、其架構並查詢其資料。 Unity 支援 SQL 和無伺服器查詢,這意味著 Enigma 的資料科學家無需管理 Spark 叢集即可運作。

Unity 目錄整合:它是如何運作的?

利用 Unity Catalog 中的外部表功能,lakeFS 將從 LakeFS 匯出的 Delta Lake 表註冊到 Unity Catalog,您可以透過 Unity Catalog 存取它。後續逐步教學將引導您完成配置Lua 掛鉤的過程,該掛鉤從 LakeFS 匯出 Delta Lake 表,然後將它們註冊到 Unity Catalog 中。

表是透過使用一個簡短的 YAML 檔案在 LakeFS 儲存庫中定義的,該檔案將儲存庫中的 Delta Lake 表對應到 Unity Catalog 中的 Delta 表名稱。從 LakeFS 匯出 Delta Lake 表後,其在 LakeFS 中所屬的分支將被配置為在 Unity Catalog 中作為架構可見。

返回頂端