AMD推出Instinct MI300X AI GPU加速器,比NVIDIA H100快達60%
AMD宣布正式推出旗艦AI GPU加速器MI300X,效能比NVIDIA H100提升高達60%。
AMD 終於擁有在 AI 領域對抗 NVIDIA 的 GPU,MI300X 比 H100 快 60%
AMD Instinct MI300 等級 AI 加速器將成為另一個小型晶片動力來源,利用台積電的先進封裝技術。今天,AMD 不僅宣布推出這些晶片,還分享了 MI300X 的首個性能基準測試,看起來非常棒。 AMD 首先使用一般規格作為比較,並使用其 CDNA 3 加速器提供的功能(與 NVIDIA H100 相比):
- 記憶體容量提高 2.4 倍
- 記憶體頻寬提高 1.6 倍
- 1.3 倍 FP8 TFLOPS
- 1.3 倍 FP16 TFLOPS
在一般 LLM 內核 TFLOP 中,MI300X 在 FlashAttention-2 和 Llama 2 70B 中提供高達 20% 的效能提升。從平台的角度來看,將 8x MI300X 解決方案與 8X H100 解決方案進行比較,我們發現 Llama 2 70B 和 Llama 2 70B 獲得了更大的 40% 增益。 Bloom 176B 增加了 60%。 AMD 提到,在訓練性能方面,MI300X 與競爭對手 (H100) 相當,並提供有競爭力的價格/性能,同時在推理工作負載方面表現出色。
AMD Instinct MI300X – 利用 CDNA 3 和 CDNA 挑戰 NVIDIA 的 AI 霸主地位超大記憶體
AMD Instinct MI300X 是最受關注的晶片,因為它針對的是 AI 領域的 NVIDIA Hopper 和英特爾 Gaudi 加速器。該晶片是完全基於 CDNA 3 架構設計的,並且有很多東西正在發生。該晶片將混合使用 5 奈米和 6 奈米 IP,所有這些 IP 組合起來可提供多達 1,530 億個電晶體 (MI300X)。
從設計開始,主中介層採用被動晶片佈局,該晶片使用第四代 Infinity Fabric 解決方案容納互連層。此中介層總共包含 28 個晶片,其中包括 8 個 HBM3 封裝、HBM 封裝之間的 16 個虛擬晶片以及 16 個虛擬晶片。四個活動晶片,每個活動晶片都有兩個計算晶片。
每個基於 CDNA 3 GPU 架構的 GCD 共有 40 個運算單元,相當於 2560 個核心。總共有 8 個計算晶片 (GCD),因此總共有 320 個計算和計算晶片。 20,480 個核心單元。就產量而言,AMD 將縮減這些核心的一小部分,我們將在一個月後獲得有關確切配置的更多詳細資訊。
記憶體是另一個巨大的升級領域,MI300X 的 HBM3 容量比其前身 MI250X(128 GB)增加了 50%。為了實現192 GB 的記憶體池,AMD 為MI300X 配備了8 個HBM3 堆疊,每個堆疊都是12-Hi,同時整合了16 Gb IC,每個IC 具有2 GB 容量,或每個堆疊具有24 GB 容量。
記憶體將提供高達 5.3 TB/s 的頻寬和 896 GB/s 的 Infinity Fabric 頻寬。相較之下,NVIDIA 的即將推出的H200 AI 加速器提供141 GB 容量,而英特爾的Gaudi 3將提供144 GB < /span>容量。大型記憶體池在法學碩士中非常重要,因為法學碩士主要受記憶體限制,AMD 可以透過在記憶體領域的領先來展示其 AI 實力。比較:
- 本能 MI300X – 192 GB HBM3
- Gaudi 3 – 144 GB HBM3
- H200 – 141 GB HBM3e
- MI300A – 128 GB HBM3
- MI250X – 128 GB HBM2e
- H100 – 96 GB HBM3
- Gaudi 2 – 96 GB HBM2e
耗電量方面,AMD Instinct MI300X的額定功率為750W,比Instinct MI250X的500W提升了50%,比NVIDIA H200多了50W。
一種配置展示了其G593-ZX1/ZX2 伺服器,配備多達8 個MI300X GPU 加速器和兩個AMD EPYC 9004 CPU。這些系統將配備多達八個3000W電源,總計18000W功率。
目前,AMD 應該知道,他們的競爭對手也在全力推動 AI 熱潮,NVIDIA 已經公佈了 2024 年 Hopper H100 GPU 和 2024 年 Hopper H100 GPU 的一些龐大數據。 Blackwell B100 GPU 和英特爾也準備在未來幾年內推出 Guadi 3 和 Falcon Shores GPU。
目前可以肯定的是,人工智慧客戶將吞噬幾乎所有他們能得到的東西,每個人都會利用這一點。但 AMD 擁有非常強大的解決方案,其目標不僅是成為 NVIDIA 的替代品,而且是人工智慧領域的領導者。
AMD Radeon Instinct 加速器
加速器名稱 | AMD 本能 MI400 | AMD 本能 MI300 | AMD 本能 MI250X | AMD 本能 MI250 | AMD 本能 MI210 | AMD 本能 MI100 | AMD Radeon Instinct MI60 | AMD Radeon Instinct MI50 | AMD Radeon Instinct MI25 | AMD Radeon Instinct MI8 | AMD Radeon Instinct MI6 |
---|---|---|---|---|---|---|---|---|---|---|---|
CPU架構 | Zen 5(百億億次 APU) | Zen 4(百億億次 APU) | 不適用 | 不適用 | 不適用 | 不適用 | 不適用 | 不適用 | 不適用 | 不適用 | 不適用 |
GPU架構 | cDNA 4 | 水族萬賈拉姆 (CDNA 3) | 畢宿五 (CDNA 2) | 畢宿五 (CDNA 2) | 畢宿五 (CDNA 2) | 大角星 (CDNA 1) | 織女星20 | 織女星20 | 織女星10 | 斐濟XT | 北極星10號 |
GPU行程節點 | 4奈米 | 5奈米+6奈米 | 6奈米 | 6奈米 | 6奈米 | 7奈米鰭式場效電晶體 | 7奈米鰭式場效電晶體 | 7奈米鰭式場效電晶體 | 14奈米鰭式場效電晶體 | 28奈米 | 14奈米鰭式場效電晶體 |
GPU 小晶片 | 待定 | 8(MCM) | 2 (MCM) 1(每個骰子) |
2 (MCM) 1(每個骰子) |
2 (MCM) 1(每個骰子) |
1(單片) | 1(單片) | 1(單片) | 1(單片) | 1(單片) | 1(單片) |
GPU 核心 | 待定 | 最多 19,456 | 14,080 | 13,312 | 6656 | 7680 | 4096 | 3840 | 4096 | 4096 | 2304 |
GPU 時脈速度 | 待定 | 待定 | 1700兆赫 | 1700兆赫 | 1700兆赫 | 1500兆赫 | 1800兆赫 | 1725兆赫 | 1500兆赫 | 1000兆赫 | 1237兆赫 |
FP16 計算 | 待定 | 待定 | 383 上衣 | 362 首 | 181 首 | 185 兆次浮點運算 | 29.5 TFLOPs | 26.5 TFLOPs | 24.6 TFLOPs | 8.2 TFLOPs | 5.7 TFLOPs |
FP32 計算 | 待定 | 待定 | 95.7 TFLOPs | 90.5 TFLOPs | 45.3 TFLOPs | 23.1 TFLOPs | 14.7 TFLOPs | 13.3 TFLOPs | 12.3 TFLOPs | 8.2 TFLOPs | 5.7 TFLOPs |
FP64 計算 | 待定 | 待定 | 47.9 TFLOPs | 45.3 TFLOPs | 22.6 TFLOPs | 11.5 TFLOPs | 7.4 TFLOPs | 6.6 TFLOPs | 768 GFLOPs | 512 GFLOPS | 384 GFLOPs |
顯存 | 待定 | 192GB HBM3 | 128 GB HBM2e | 128 GB HBM2e | 64 GB HBM2e | 32GB HBM2 | 32GB HBM2 | 16GB HBM2 | 16GB HBM2 | 4GB HBM1 | 16GB GDDR5 |
記憶體時鐘 | 待定 | 5.2Gbps | 3.2Gbps | 3.2Gbps | 3.2Gbps | 1200兆赫 | 1000兆赫 | 1000兆赫 | 945兆赫 | 500兆赫 | 1750兆赫 |
記憶體總線 | 待定 | 8192 位 | 8192 位 | 8192 位 | 4096 位 | 4096位總線 | 4096位總線 | 4096位總線 | 2048位元總線 | 4096位總線 | 256位元總線 |
記憶體頻寬 | 待定 | 5.2TB/秒 | 3.2TB/秒 | 3.2TB/秒 | 1.6TB/秒 | 1.23TB/秒 | 1TB/秒 | 1TB/秒 | 484GB/秒 | 512GB/秒 | 224GB/秒 |
構成因素 | 待定 | 維運管理系統 | 維運管理系統 | 維運管理系統 | 雙槽卡 | 雙槽,全長 | 雙槽,全長 | 雙槽,全長 | 雙槽,全長 | 雙槽,半長 | 單槽,全長 |
冷卻 | 待定 | 被動冷卻 | 被動冷卻 | 被動冷卻 | 被動冷卻 | 被動冷卻 | 被動冷卻 | 被動冷卻 | 被動冷卻 | 被動冷卻 | 被動冷卻 |
TDP(最大) | 待定 | 750W | 560W | 500W | 300W | 300W | 300W | 300W | 300W | 175W | 150W |
發佈留言