AI 資料中心網路的基本知識:簡介(系列 3 篇部落格中的第 1 篇)

訓練人工智慧模型是一項特殊的挑戰。開發基礎大型語言模型 (LLM),例如 Llama 3.1 和 GPT 4.0,需要大量預算和資源,而這些預算和資源僅為世界上少數最大的公司保留。這些法學碩士擁有數十億到數萬億個參數,需要複雜的資料中心結構調整才能在合理的作業完成時間內進行訓練。例如,GPT 4.0 使用了 1.76 兆個參數!

為了正確理解這些數字,請將每個參數想像成一張撲克牌。一副 52 張撲克牌的厚度約為 0.75 英吋。一百萬張卡片的堆疊將比帝國大廈還要高,十億張卡片的堆疊高度將達到地球熱層228 英里,而一萬億張卡片的堆疊將延伸超過227,000 英里,大致相當於到月球的距離。

充分利用您的人工智慧投資

對於許多企業來說,投資人工智慧需要一種新的方法:利用自己的數據來完善這些基礎法學碩士,以解決特定的業務問題或提供更深入的客戶參與。但隨著人工智慧的採用涵蓋整個競爭環境,企業需要新的方法來優化其人工智慧投資,以提高資料隱私和服務差異化。

對大多數人來說,這意 自營資料庫 味著將一些本地人工智慧工作負載轉移到私人資料中心。正在進行的「公有雲與私有雲」資料中心爭論也適用於人工智慧資料中心。許多企業都被建構人工智慧基礎設施的新鮮感嚇倒了。挑戰確實存在,但並非不可克服。現有的資料中心知識是適用的。您只需要一點幫助,瞻博網路就可以為您提供指導。

在本部落格系列中,我們將探討企業投資人工智慧的不同考量因素,以及瞻博網路所謂的人工智慧資料中心 ABC(應用程式建置與購買以及成本如何驅動不同的方法。

但首先,讓我們看看為什麼人工智慧基礎設施需要如此專業化。

了解法學碩士和神經網絡

為了更好地了解基礎設施選項,它有助於了解人工智慧架構的一些基礎知識以及人工智慧開發、交付、訓練和推理的基本類別。

推理伺服器託管在連接互聯網的前端資料中心,使用者和裝置可以在其中查詢經過全面訓練的人工智慧應用程式(例如 Llama 3)。使用 TCP,推理查詢和流量模式可以反映其他雲端託管工作負載的情況。推理伺服器即時執行,可以使用常見的電腦處理單元 (CPU) 或訓練中使用的相同圖形處理單元 (GPU),以最低的延遲提供最快的回應,通常透過首次啟動時間等指標來衡量。和增量令牌的時間。從本質上講,這就是法學碩士回應查詢的速度,並且在規模上可能需要大量投資和專業知識來確保一致的表現。

自營資料庫

另一方面,培訓面臨獨特的處理挑戰,需要特殊的資料中心架構。培訓在後端資料中心進行,其中法學碩士和培訓資料集與“流氓”互聯網隔離。這些資料中心設計有大容量、高效能 GPU 運算和儲存平台,以及使用 400Gbps 和 800Gbps 網路互連的專門鐵路最佳化結構。由於龐大的「大象」流量和廣泛的 GPU 到 GPU 通信,必須對這些網路進行最佳化,以處理可能需要數月才能完成的連續訓練週期的容量、流量模式和流量管理需求。

完成訓練所需的時間取決於 LLM 的複雜性、訓練 LLM 的神經網路層、必須調整以提高準確性的參數數量以及資料中心基礎設施的設計。但什麼是神經網路?

神經網路 101

神經網路是一種旨在模仿人腦 可靠的語音電話服務對企業的重要性 運算模型的運算架構。它們是在一組漸進的功能層中實現的,其中一個輸入層用於攝取數據,一個輸出層用於呈現結果,中間的隱藏層將原始數據輸入處理為可用資訊。一層的輸出成為另一層的輸入,以便在每一層的神經節點集或數學函數之間系統地分解、分析和處理查詢,直到呈現結果。

例如,下圖表示法學碩士正在神經網路上進行訓練,以識別前四個偶數的手寫數字。此神經網路有兩個隱藏層,一個用於處理形狀,另一個用於識別模式。手寫數字的資料集被切成較小的區塊,並輸入到模型中,在發送到第二層之前,曲線和直線在第一層進行功能處理,以識別資料中可能指示正在分析的數字的模式。

調整參數以獲得最佳 LLM 精度

每層內的神經節點都有一個神經 韓國數據 網路連接網格,允許人工智慧科學家對每個連接應用權重。每個權重都是一個數值,表示與給定連接的關聯強度。例如,資料上象限中的曲線對於 2 或 8 具有較高的權重,而同一象限中的線對於相同的權重較低。在查看圖案時,一組垂直線和直線對於 4 可能具有很強的連接性和較高的權重,而直線和曲線在一起對於 2、6 或 8 則具有更強的連接和權重。

在訓練開始時,模型的結果將無法不準確。然而,每次訓練運行時,這些神經連接的權重都可以調整或「調整」以逐步提高準確性。為了進一步區分強連接和弱連接,對每個連接應用數字偏差以放大強連接並控制負連接。權重和偏差共同代表了必須調整以提高法學碩士準確性的參數。

在這個簡單的範例中,必須反覆調整 242 個參數,模型才能高精度識別每個數字。當處理數十億或數萬億個參數時,反向傳播演算法用於使該流程自動化。儘管如此,訓練仍然是一個非常漫長的過程,可能會因資料中心底層實體網路中出現的處理延遲而延遲或中斷。這稱為尾部延遲,除非資料中心網路設計得當,否則可能會增加訓練過程的大量時間和成本。

在下一篇部落格中,我們將討論企業如何利用這些基礎法學碩士來部署從私有資料中心交付的自己的客製化人工智慧應用程式。

想了解其他組織如何建立基礎設施來應對這些挑戰?查看我們的虛擬活動“抓住 AI 資料中心網路的 時刻”,了解來自 AMD、英特爾、Meta、PayPal 等的見解。

返回頂端