在過去的十年中,開源已經在不斷發展的資料堆疊動物園(即 Hadoop 生態系統)中佔據了一席之地。為了讓一切井井有條,ZooKeeper 的任務是協調動物園的資源,所有的動物都很高興。
直到有一天,動物園有了新的生物需要照顧,例如史帕克(未來之星)、卡夫卡(一位未定義的新朋
友)和其他開始加入其中的生物
與 Yarn 一起,他們不願意將動物混在一起,並嚴格遵守資源順序,但資源並不總是充分利用。
隨著時間的推移,動物園資源保持不變,但支持新生物的需求急劇增長,ZooKeeper 發現自己處於冒險家的行列中,開始了雲之旅…
hadoop生態系動物園
動物園生態系統
Hadoop 生態系統以開源優先的方式引領資料堆疊。難怪今天,新的資料棧是,你猜怎麼著!也開。
為什麼它很重要
開源使我們能夠試驗這些工具,評估它們與我們技術堆疊的相關性,並與其他從業者交流知識。對於技術以及檔案格式都是如此,例如等。由於是開源的, 它們被高度使用並且與堆疊的其他部分連接良好。
共同點是開放格式!這種方法使社
區能夠建立超越直接使用的連接器和集成,並支援技術的採用和創新。
開源是一種 台灣 WhatsApp 號碼數據 實踐,也是一種文化。
新資料堆疊的變化
Hadoop 堆疊已逐步遷移到雲
其概念很大程度上借鑒了傳統 SQL/資料庫領域。這項運動引入了新的可擴展解決方案,旨在解決在大型分散式資料集上啟用資料運算能力的問題。 有人稱之為資料庫功能之謎。
關於增加數據複雜性
我們的產業正處於數據規模
不斷成長的階段。數位化的力量嚴重影響我們處理、擷取和利用多少數據來推動創新和價值。
管理這些資料所需的分散式系統面臨的挑戰怎麼強調也不為過。觀察、編目、管理和儲存資料的所有功能,同時兼顧建構塊,都非 互動結合起來變得至關重要。 常困難!我們需要更好的方法來管理資料混亂!
如果您熟悉 混沌工程的概念,它將在很大程度上說明在生產中持續運行 自動化 實驗,以幫助確保系統的設計能夠最大程度地減少潛在問題的影響範圍。
我們對數據也需要同樣的想法
我們需要能夠在允許實驗的同時管理混亂資料空間的系統。聽起來很複雜?那是因為它是。
但是嗨!有個好消息:幾十年來 加拿大數據 開發軟體所形成的實踐可以被借用、改變用途並應用於資料學科。這些包括:
基於測試的自動化部署
原始碼控制管理(git)
流程的正確記錄和可觀察性
總而言之,它們構成了應用程式生命週期管理 (ALM) 的重要組成部分。並非所有對軟體開發重要的東西都具有數據的相似性。但是,大部分情況確實如此,而且我們仍然有很多領域可以趕上 軟體領域的同行 。
LakeFS 在這張圖片中的位置
到目前為止,我們討論了資料系統的複雜性、開源的重要性以及對更好的工具來管理資料生命週期的需求 。
這就是lakeFS要解決的問題。它是一個開源項目,支援 git 處理資料、基於測試的部署等。將來我將詳細介紹它如何做到這一點,但現在我想更多地關注加入 LakeFS 對我個人意味著什麼。