資料版本控制-它的意思是您認為的那樣嗎?

當我們第一次考慮開源專案LakeFS的口號時,我們本能地傾向於「資料版本控制」、「以管理程式碼的方式管理資料」、「Git for data」等術語,或這三個術語在語法上的任何變體。

我們對自己感到非常滿意 5 分鐘

或者可能 7 分鐘,然後才意識到這些短語實際上沒有任何意義。或者更準確地說,意義太多,無法正確描述 LakeFS 的價值。 (它們也經常被該領域的其他參與者使用,以解決完全不同的用例。)

因此,我們決定繪製專案世界,將 資料版本控制聲明 為它們根據用例所做的事情。我們將現有的分為三類:協作、機器學習管理和表格格式。

而lakeFS——它並不自然地屬

於這些類別——有自己的特徵:可管理性和彈性。

了解了這個空間後,讓我們更深入地研究這些類別所表徵的問題。並討論各種工具提供的解決方案如何解決這些問題。

使用案例:資料協作
痛苦

管理多個資料集(外部和內部)的資料工

程師和科學家一直在變化。管理對資料的存取並隨著時間的推移追蹤版本非常耗費腦力且容易出錯。

解決方案
允許資料和版本管理協作 土耳其 WhatsApp 號碼數據 的介面。實際的儲存庫可能是專有資料庫(例如 DoltHub),或提供對系統內分佈的資料的有效存取(例如Quilt 或 Splitgraph)。這些介面還可以輕鬆存取和管理相同資料集的不同版本。

此類別中的大多數參與者還在資料

工作流程的其他方面提供協作。也許最值得注意的是透過機器學習模型進行協作的能力。在此類別中,您可以找等。

用例:管理機器學習管道
痛苦

WhatsApp數據

機器學習流程有很多很多步驟:

從輸入資料開始到標記資料、驗證集、特徵建模、優化超參數,最後到產品化。簡而言之,沒有簡單的方法來管理這些管道的複雜性。有些複雜性是出於必要,有些是由於使用的各種工具不能很好地協同工作。

解決方案
MLOps 工具。您可能會 僅是確保您的網站成為有價值且值得信 自己,「為什麼在 資料版本控制的背景下會提到維運工具? 」 嗯,因為管理資料管道是 ML 應用程式生命週期中的一個主要挑戰。

由於機器學習是一項科學工作

因此它需要可重複性,而可重複性意味著資料+代碼 (至少)。有多種支援資料版本控制的 MLOps 工具:它們包括: DVC、 Pachyderm、 MLflow和 Neptune。

用例資料湖中的交易保證
痛苦
物件儲存上的資料湖 加拿大數據 是不可變的(物件和格式)。然而,這與以下可變性要求相衝突:

遵守 GDPR 和其他隱私法規(按需刪除記錄)

攝取流資料(需附加)
回填或處理遲到的資料(需要更新已儲存的資料)。
解決方案
允許插入、刪除和更新插入操作的結構化資料格式。這些格式是柱狀的,並提供透過將更改的增量保存到另一個物件中來更改現有物件的能力。

這些物件的元資料包括有關如

何從其儲存的增量物件產生物件的最新版本的說明。我們新增資料版本控制主要是為了提供並發控制。在此類別中,您可以找到

用例資料湖的可管理性和彈性
痛苦
管理基於物件儲存的 資料湖的多個資料生產者和消費者。消費者使用不同的工具存取數據,例和分析資料庫。

返回頂端