在新的開放資料堆疊領域：加入 LakeFS 冒險

在過去的十年中，開源已經在不斷發展的資料堆疊動物園（即 Hadoop 生態系統）中佔據了一席之地。為了讓一切井井有條，ZooKeeper 的任務是協調動物園的資源，所有的動物都很高興。

直到有一天，動物園有了新的生物需要照顧，例如史帕克（未來之星）、卡夫卡（一位未定義的新朋

友）和其他開始加入其中的生物

與 Yarn 一起，他們不願意將動物混在一起，並嚴格遵守資源順序，但資源並不總是充分利用。

隨著時間的推移，動物園資源保持不變，但支持新生物的需求急劇增長，ZooKeeper 發現自己處於冒險家的行列中，開始了雲之旅…

動物園生態系統
Hadoop 生態系統以開源優先的方式引領資料堆疊。難怪今天，新的資料棧是，你猜怎麼著！也開。

為什麼它很重要
開源使我們能夠試驗這些工具，評估它們與我們技術堆疊的相關性，並與其他從業者交流知識。對於技術以及檔案格式都是如此，例如等。由於是開源的，它們被高度使用並且與堆疊的其他部分連接良好。

區能夠建立超越直接使用的連接器和集成，並支援技術的採用和創新。

開源是一種 台灣 WhatsApp 號碼數據 實踐，也是一種文化。

新資料堆疊的變化

其概念很大程度上借鑒了傳統 SQL/資料庫領域。這項運動引入了新的可擴展解決方案，旨在解決在大型分散式資料集上啟用資料運算能力的問題。有人稱之為資料庫功能之謎。

關於增加數據複雜性

不斷成長的階段。數位化的力量嚴重影響我們處理、擷取和利用多少數據來推動創新和價值。

管理這些資料所需的分散式系統面臨的挑戰怎麼強調也不為過。觀察、編目、管理和儲存資料的所有功能，同時兼顧建構塊，都非 互動結合起來變得至關重要。 常困難！我們需要更好的方法來管理資料混亂！

如果您熟悉混沌工程的概念，它將在很大程度上說明在生產中持續運行自動化實驗，以幫助確保系統的設計能夠最大程度地減少潛在問題的影響範圍。

我們需要能夠在允許實驗的同時管理混亂資料空間的系統。聽起來很複雜？那是因為它是。

但是嗨！有個好消息：幾十年來 加拿大數據 開發軟體所形成的實踐可以被借用、改變用途並應用於資料學科。這些包括：

基於測試的自動化部署
原始碼控制管理（git）

總而言之，它們構成了應用程式生命週期管理 (ALM) 的重要組成部分。並非所有對軟體開發重要的東西都具有數據的相似性。但是，大部分情況確實如此，而且我們仍然有很多領域可以趕上軟體領域的同行。

到目前為止，我們討論了資料系統的複雜性、開源的重要性以及對更好的工具來管理資料生命週期的需求。

這就是lakeFS要解決的問題。它是一個開源項目，支援 git 處理資料、基於測試的部署等。將來我將詳細介紹它如何做到這一點，但現在我想更多地關注加入 LakeFS 對我個人意味著什麼。