AMD推出Instinct MI300X AI GPU加速器,比NVIDIA H100快達60%

AMD推出Instinct MI300X AI GPU加速器,比NVIDIA H100快達60%

AMD宣布正式推出旗艦AI GPU加速器MI300X,效能比NVIDIA H100提升高達60%。

AMD 終於擁有在 AI 領域對抗 NVIDIA 的 GPU,MI300X 比 H100 快 60%

AMD Instinct MI300 等級 AI 加速器將成為另一個小型晶片動力來源,利用台積電的先進封裝技術。今天,AMD 不僅宣布推出這些晶片,還分享了 MI300X 的首個性能基準測試,看起來非常棒。 AMD 首先使用一般規格作為比較,並使用其 CDNA 3 加速器提供的功能(與 NVIDIA H100 相比):

  • 記憶體容量提高 2.4 倍
  • 記憶體頻寬提高 1.6 倍
  • 1.3 倍 FP8 TFLOPS
  • 1.3 倍 FP16 TFLOPS
amd-本能-mi300-_-mi300x-launch-_4amd-本能-mi300-_-mi300x-launch-_3amd-本能-mi300-_-mi300x-launch-_6

在一般 LLM 內核 TFLOP 中,MI300X 在 FlashAttention-2 和 Llama 2 70B 中提供高達 20% 的效能提升。從平台的角度來看,將 8x MI300X 解決方案與 8X H100 解決方案進行比較,我們發現 Llama 2 70B 和 Llama 2 70B 獲得了更大的 40% 增益。 Bloom 176B 增加了 60%。 AMD 提到,在訓練性能方面,MI300X 與競爭對手 (H100) 相當,並提供有競爭力的價格/性能,同時在推理工作負載方面表現出色。

AMD Instinct MI300X – 利用 CDNA 3 和 CDNA 挑戰 NVIDIA 的 AI 霸主地位超大記憶體

AMD Instinct MI300X 是最受關注的晶片,因為它針對的是 AI 領域的 NVIDIA Hopper 和英特爾 Gaudi 加速器。該晶片是完全基於 CDNA 3 架構設計的,並且有很多東西正在發生。該晶片將混合使用 5 奈米和 6 奈米 IP,所有這些 IP 組合起來可提供多達 1,530 億個電晶體 (MI300X)。

AMD Instinct MI300X 和 AMD Instinct MI300X MI300A AI 加速器詳細介紹:CDNA 3 & Zen 4 採用先進封裝 Marvel 2
AMD Instinct MI300X 加速器。

從設計開始,主中介層採用被動晶片佈局,該晶片使用第四代 Infinity Fabric 解決方案容納互連層。此中介層總共包含 28 個晶片,其中包括 8 個 HBM3 封裝、HBM 封裝之間的 16 個虛擬晶片以及 16 個虛擬晶片。四個活動晶片,每個活動晶片都有兩個計算晶片。

每個基於 CDNA 3 GPU 架構的 GCD 共有 40 個運算單元,相當於 2560 個核心。總共有 8 個計算晶片 (GCD),因此總共有 320 個計算和計算晶片。 20,480 個核心單元。就產量而言,AMD 將縮減這些核心的一小部分,我們將在一個月後獲得有關確切配置的更多詳細資訊。

AMD Instinct MI300X 和 AMD Instinct MI300X MI300A AI 加速器詳細介紹:CDNA 3 & Zen 4 採用先進封裝 Marvel 4
帶有 CDNA 3 晶片的 AMD Instinct MI300X 加速器。

記憶體是另一個巨大的升級領域,MI300X 的 HBM3 容量比其前身 MI250X(128 GB)增加了 50%。為了實現192 GB 的記憶體池,AMD 為MI300X 配備了8 個HBM3 堆疊,每個堆疊都是12-Hi,同時整合了16 Gb IC,每個IC 具有2 GB 容量,或每個堆疊具有24 GB 容量。

記憶體將提供高達 5.3 TB/s 的頻寬和 896 GB/s 的 Infinity Fabric 頻寬。相較之下,NVIDIA 的即將推出的H200 AI 加速器提供141 GB 容量,而英特爾的Gaudi 3將提供144 GB < /span>容量。大型記憶體池在法學碩士中非常重要,因為法學碩士主要受記憶體限制,AMD 可以透過在記憶體領域的領先來展示其 AI 實力。比較:

  • 本能 MI300X – 192 GB HBM3
  • Gaudi 3 – 144 GB HBM3
  • H200 – 141 GB HBM3e
  • MI300A – 128 GB HBM3
  • MI250X – 128 GB HBM2e
  • H100 – 96 GB HBM3
  • Gaudi 2 – 96 GB HBM2e
232328650_instinct_mi300a_exploded_view_01-自訂232328650_instinct_mi300x_exploded_view_01-自訂232328650_instinct_mi300a_exploded_view_02-自訂232328650_instinct_mi300x_exploded_view_02-自訂232328650_instinct_mi300a_cross_section_angle_01-定制232328650_instinct_mi300x_cross_section_angle_01-自訂232328650_instinct_mi300a_exploded_view_03-自訂232328650_instinct_mi300x_exploded_view_03-自訂

耗電量方面,AMD Instinct MI300X的額定功率為750W,比Instinct MI250X的500W提升了50%,比NVIDIA H200多了50W。

amd-instinct-mi300-ai-加速器-伺服器-_2amd-instinct-mi300-ai-加速器-伺服器-_1amd-instinct-mi300-ai-加速器-伺服器-_4amd-instinct-mi300-ai-加速器-伺服器-_5AMD Instinct MI300A APU 電源法語

一種配置展示了其G593-ZX1/ZX2 伺服器,配備多達8 個MI300X GPU 加速器和兩個AMD EPYC 9004 CPU。這些系統將配備多達八個3000W電源,總計18000W功率。

目前,AMD 應該知道,他們的競爭對手也在全力推動 AI 熱潮,NVIDIA 已經公佈了 2024 年 Hopper H100 GPU 和 2024 年 Hopper H100 GPU 的一些龐大數據。 Blackwell B100 GPU 和英特爾也準備在未來幾年內推出 Guadi 3 和 Falcon Shores GPU。

目前可以肯定的是,人工智慧客戶將吞噬幾乎所有他們能得到的東西,每個人都會利用這一點。但 AMD 擁有非常強大的解決方案,其目標不僅是成為 NVIDIA 的替代品,而且是人工智慧領域的領導者。

AMD Radeon Instinct 加速器

加速器名稱 AMD 本能 MI400 AMD 本能 MI300 AMD 本能 MI250X AMD 本能 MI250 AMD 本能 MI210 AMD 本能 MI100 AMD Radeon Instinct MI60 AMD Radeon Instinct MI50 AMD Radeon Instinct MI25 AMD Radeon Instinct MI8 AMD Radeon Instinct MI6
CPU架構 Zen 5(百億億次 APU) Zen 4(百億億次 APU) 不適用 不適用 不適用 不適用 不適用 不適用 不適用 不適用 不適用
GPU架構 cDNA 4 水族萬賈拉姆 (CDNA 3) 畢宿五 (CDNA 2) 畢宿五 (CDNA 2) 畢宿五 (CDNA 2) 大角星 (CDNA 1) 織女星20 織女星20 織女星10 斐濟XT 北極星10號
GPU行程節點 4奈米 5奈米+6奈米 6奈米 6奈米 6奈米 7奈米鰭式場效電晶體 7奈米鰭式場效電晶體 7奈米鰭式場效電晶體 14奈米鰭式場效電晶體 28奈米 14奈米鰭式場效電晶體
GPU 小晶片 待定 8(MCM) 2 (MCM)
1(每個骰子)
2 (MCM)
1(每個骰子)
2 (MCM)
1(每個骰子)
1(單片) 1(單片) 1(單片) 1(單片) 1(單片) 1(單片)
GPU 核心 待定 最多 19,456 14,080 13,312 6656 7680 4096 3840 4096 4096 2304
GPU 時脈速度 待定 待定 1700兆赫 1700兆赫 1700兆赫 1500兆赫 1800兆赫 1725兆赫 1500兆赫 1000兆赫 1237兆赫
FP16 計算 待定 待定 383 上衣 362 首 181 首 185 兆次浮點運算 29.5 TFLOPs 26.5 TFLOPs 24.6 TFLOPs 8.2 TFLOPs 5.7 TFLOPs
FP32 計算 待定 待定 95.7 TFLOPs 90.5 TFLOPs 45.3 TFLOPs 23.1 TFLOPs 14.7 TFLOPs 13.3 TFLOPs 12.3 TFLOPs 8.2 TFLOPs 5.7 TFLOPs
FP64 計算 待定 待定 47.9 TFLOPs 45.3 TFLOPs 22.6 TFLOPs 11.5 TFLOPs 7.4 TFLOPs 6.6 TFLOPs 768 GFLOPs 512 GFLOPS 384 GFLOPs
顯存 待定 192GB HBM3 128 GB HBM2e 128 GB HBM2e 64 GB HBM2e 32GB HBM2 32GB HBM2 16GB HBM2 16GB HBM2 4GB HBM1 16GB GDDR5
記憶體時鐘 待定 5.2Gbps 3.2Gbps 3.2Gbps 3.2Gbps 1200兆赫 1000兆赫 1000兆赫 945兆赫 500兆赫 1750兆赫
記憶體總線 待定 8192 位 8192 位 8192 位 4096 位 4096位總線 4096位總線 4096位總線 2048位元總線 4096位總線 256位元總線
記憶體頻寬 待定 5.2TB/秒 3.2TB/秒 3.2TB/秒 1.6TB/秒 1.23TB/秒 1TB/秒 1TB/秒 484GB/秒 512GB/秒 224GB/秒
構成因素 待定 維運管理系統 維運管理系統 維運管理系統 雙槽卡 雙槽,全長 雙槽,全長 雙槽,全長 雙槽,全長 雙槽,半長 單槽,全長
冷卻 待定 被動冷卻 被動冷卻 被動冷卻 被動冷卻 被動冷卻 被動冷卻 被動冷卻 被動冷卻 被動冷卻 被動冷卻
TDP(最大) 待定 750W 560W 500W 300W 300W 300W 300W 300W 175W 150W

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *