如果痛的話,就多做幾次。”這是DevOps 工程師經常重複的一條明智建議。
除非你是個受虐狂,否則遵循這個建議自然會引導你找到方法,讓重複的過程不那麼痛苦。
在 DevOps 領域,這些流程通常是技術部署,例如建立雲端資源或應用程式版本升級。
一旦完成這些任務變得簡單我們就不再
需要害怕它們。我們可以建立可靠的應用程序,並且讓我們感覺自己像真正的專業人士一樣。
從 DevOps 到 DataOps
讓我們讓事情變得簡單的 DevOps 的核心原則是:協作、自動化和持續改進。遵循它們將帶來一條通往無痛開發體驗的道路。
基於本文的目的,我們將探討
這些原則如何不必局限於傳統軟體開發人員,而是也可以應用於所謂的資料密集型開發。
輸入資料操作。我們為什麼要關心這個概念?
好吧,看看周圍。許多現代資料環境都是脆弱且容易出錯的,正是因為它們在建置時沒有考慮與 DataOps 相關的因素。
如果我們將 DevOps 原則應用於
資料並選擇資料倉儲等特定技術,我們就會被鼓勵採取以下行為:
透過 Terraform 等 IaaC 平台自動建立倉庫。
自動建立資料庫模 沙特阿拉伯 WhatsApp 號碼數據 式、表格定義和使用者帳戶。
消除更新或更改資料集合所涉及的任何手動操作。
您的資料組織遵循了多少上述實務?
透過與各種數據團隊合作,我們發現大多數人只勾選了一個,也許兩個。因此,許多數據團隊建立的數據產品容易出錯且速度緩慢。
身為數據專業人員,我們可以做得更好。讓我們看看如何走上有效資料運作的道路。
踏出邁向更好數據營運的第一步
如果您希望改進 DataOps 實踐,我們建議先記錄需要您手動或在 GUI 中執行命令的操作。
也許當新人加入團隊時,您必須在一個或多個系統中為他們執行 CREATE USER 命令。每個月左右都這樣做似乎沒什麼大不了的。但隨著這些手動流程的積累,您將失去快速部署新資料堆疊或保證現有資料堆疊狀態的能力。
想像一下,如果您可以在幾分鐘而不是
幾天或幾週內重新建立生產 跟上最新主題和趨勢來增強您的品 環境(查詢引擎、佇列、儀表板、編排器,甚至資料本身),那將是多麼令人驚奇。
您將能夠更快、更可靠地從中斷中恢復。測試和了解部署到生產的更新的影響會更容易。
根據我們的經驗,實現這一目標所需的前期投資從長遠來看是有回報的。
有效的數據運作是什麼樣的
如果做得正確,DevOps 工程師可以讓
軟體開發人員專注於建立應用程式和應用程式邏輯,而不是陷入基礎設施問題的泥淖。這種分工被證明是有效的,因為要保持這 加拿大數據 兩個領域的專業知識並不容易。
同樣,資料工程師和資料科學家一旦擺脫了資料基礎設施的擔憂,就可以看到生產力的提升。
在開始新專案並建立解決方案時,工程師應先闡明使其正常運作所需的所有資源,以便 DataOps 團隊可以開始配置建立該專案的自動化。
我們正在密切關注開放資料中
心等項目 ,這些項目正在標準化流行資料技術的基於 Kubernetes 的部署,以幫助防止個別公司必須重新發明 DataOps 輪子。
接下來,資料工程師和科學家應該使用 shell 腳本或程式碼來建立資料表或轉換作業,而不是 GUI 介面。這可以防止從開發環境轉到生產環境時以容易出錯的方式回溯步驟。
然而,數據營運特別棘手的一點是,最後一步是用數據環境最重要的資源(數據本身)來補充數據環境。數據可以說是數位宇宙中最大的東西,在多個環境中複製數據可能是繁重且成本高昂的。