AMD推出Instinct MI300X AI GPU加速器，比NVIDIA H100快達60%

2023/12/06

AMD宣布正式推出旗艦AI GPU加速器MI300X，效能比NVIDIA H100提升高達60%。

AMD 終於擁有在 AI 領域對抗 NVIDIA 的 GPU，MI300X 比 H100 快 60%

AMD Instinct MI300 等級 AI 加速器將成為另一個小型晶片動力來源，利用台積電的先進封裝技術。今天，AMD 不僅宣布推出這些晶片，還分享了 MI300X 的首個性能基準測試，看起來非常棒。 AMD 首先使用一般規格作為比較，並使用其 CDNA 3 加速器提供的功能（與 NVIDIA H100 相比）：

記憶體容量提高 2.4 倍
記憶體頻寬提高 1.6 倍
1.3 倍 FP8 TFLOPS
1.3 倍 FP16 TFLOPS

在一般 LLM 內核 TFLOP 中，MI300X 在 FlashAttention-2 和 Llama 2 70B 中提供高達 20% 的效能提升。從平台的角度來看，將 8x MI300X 解決方案與 8X H100 解決方案進行比較，我們發現 Llama 2 70B 和 Llama 2 70B 獲得了更大的 40% 增益。 Bloom 176B 增加了 60%。 AMD 提到，在訓練性能方面，MI300X 與競爭對手 (H100) 相當，並提供有競爭力的價格/性能，同時在推理工作負載方面表現出色。

AMD Instinct MI300X – 利用 CDNA 3 和 CDNA 挑戰 NVIDIA 的 AI 霸主地位超大記憶體

AMD Instinct MI300X 是最受關注的晶片，因為它針對的是 AI 領域的 NVIDIA Hopper 和英特爾 Gaudi 加速器。該晶片是完全基於 CDNA 3 架構設計的，並且有很多東西正在發生。該晶片將混合使用 5 奈米和 6 奈米 IP，所有這些 IP 組合起來可提供多達 1,530 億個電晶體 (MI300X)。

AMD Instinct MI300X 和 AMD Instinct MI300X MI300A AI 加速器詳細介紹：CDNA 3 & Zen 4 採用先進封裝 Marvel 2 — AMD Instinct MI300X 加速器。

從設計開始，主中介層採用被動晶片佈局，該晶片使用第四代 Infinity Fabric 解決方案容納互連層。此中介層總共包含 28 個晶片，其中包括 8 個 HBM3 封裝、HBM 封裝之間的 16 個虛擬晶片以及 16 個虛擬晶片。四個活動晶片，每個活動晶片都有兩個計算晶片。

每個基於 CDNA 3 GPU 架構的 GCD 共有 40 個運算單元，相當於 2560 個核心。總共有 8 個計算晶片 (GCD)，因此總共有 320 個計算和計算晶片。 20,480 個核心單元。就產量而言，AMD 將縮減這些核心的一小部分，我們將在一個月後獲得有關確切配置的更多詳細資訊。

AMD Instinct MI300X 和 AMD Instinct MI300X MI300A AI 加速器詳細介紹：CDNA 3 & Zen 4 採用先進封裝 Marvel 4 — 帶有 CDNA 3 晶片的 AMD Instinct MI300X 加速器。

記憶體是另一個巨大的升級領域，MI300X 的 HBM3 容量比其前身 MI250X（128 GB）增加了 50%。為了實現192 GB 的記憶體池，AMD 為MI300X 配備了8 個HBM3 堆疊，每個堆疊都是12-Hi，同時整合了16 Gb IC，每個IC 具有2 GB 容量，或每個堆疊具有24 GB 容量。

記憶體將提供高達 5.3 TB/s 的頻寬和 896 GB/s 的 Infinity Fabric 頻寬。相較之下，NVIDIA 的即將推出的H200 AI 加速器提供141 GB 容量，而英特爾的Gaudi 3將提供144 GB < /span>容量。大型記憶體池在法學碩士中非常重要，因為法學碩士主要受記憶體限制，AMD 可以透過在記憶體領域的領先來展示其 AI 實力。比較：

本能 MI300X – 192 GB HBM3
Gaudi 3 – 144 GB HBM3
H200 – 141 GB HBM3e
MI300A – 128 GB HBM3
MI250X – 128 GB HBM2e
H100 – 96 GB HBM3
Gaudi 2 – 96 GB HBM2e

232328650_instinct_mi300a_exploded_view_01-自訂

232328650_instinct_mi300x_exploded_view_01-自訂

耗電量方面，AMD Instinct MI300X的額定功率為750W，比Instinct MI250X的500W提升了50%，比NVIDIA H200多了50W。

一種配置展示了其G593-ZX1/ZX2 伺服器，配備多達8 個MI300X GPU 加速器和兩個AMD EPYC 9004 CPU。這些系統將配備多達八個3000W電源，總計18000W功率。

目前，AMD 應該知道，他們的競爭對手也在全力推動 AI 熱潮，NVIDIA 已經公佈了 2024 年 Hopper H100 GPU 和 2024 年 Hopper H100 GPU 的一些龐大數據。 Blackwell B100 GPU 和英特爾也準備在未來幾年內推出 Guadi 3 和 Falcon Shores GPU。

目前可以肯定的是，人工智慧客戶將吞噬幾乎所有他們能得到的東西，每個人都會利用這一點。但 AMD 擁有非常強大的解決方案，其目標不僅是成為 NVIDIA 的替代品，而且是人工智慧領域的領導者。

AMD Radeon Instinct 加速器

加速器名稱	AMD 本能 MI400	AMD 本能 MI300	AMD 本能 MI250X	AMD 本能 MI250	AMD 本能 MI210	AMD 本能 MI100	AMD Radeon Instinct MI60	AMD Radeon Instinct MI50	AMD Radeon Instinct MI25	AMD Radeon Instinct MI8	AMD Radeon Instinct MI6
CPU架構	Zen 5（百億億次 APU）	Zen 4（百億億次 APU）	不適用	不適用	不適用	不適用	不適用	不適用	不適用	不適用	不適用
GPU架構	cDNA 4	水族萬賈拉姆 (CDNA 3)	畢宿五 (CDNA 2)	畢宿五 (CDNA 2)	畢宿五 (CDNA 2)	大角星 (CDNA 1)	織女星20	織女星20	織女星10	斐濟XT	北極星10號
GPU行程節點	4奈米	5奈米+6奈米	6奈米	6奈米	6奈米	7奈米鰭式場效電晶體	7奈米鰭式場效電晶體	7奈米鰭式場效電晶體	14奈米鰭式場效電晶體	28奈米	14奈米鰭式場效電晶體
GPU 小晶片	待定	8（MCM）	2 (MCM) 1（每個骰子）	2 (MCM) 1（每個骰子）	2 (MCM) 1（每個骰子）	1（單片）	1（單片）	1（單片）	1（單片）	1（單片）	1（單片）
GPU 核心	待定	最多 19,456	14,080	13,312	6656	7680	4096	3840	4096	4096	2304
GPU 時脈速度	待定	待定	1700兆赫	1700兆赫	1700兆赫	1500兆赫	1800兆赫	1725兆赫	1500兆赫	1000兆赫	1237兆赫
FP16 計算	待定	待定	383 上衣	362 首	181 首	185 兆次浮點運算	29.5 TFLOPs	26.5 TFLOPs	24.6 TFLOPs	8.2 TFLOPs	5.7 TFLOPs
FP32 計算	待定	待定	95.7 TFLOPs	90.5 TFLOPs	45.3 TFLOPs	23.1 TFLOPs	14.7 TFLOPs	13.3 TFLOPs	12.3 TFLOPs	8.2 TFLOPs	5.7 TFLOPs
FP64 計算	待定	待定	47.9 TFLOPs	45.3 TFLOPs	22.6 TFLOPs	11.5 TFLOPs	7.4 TFLOPs	6.6 TFLOPs	768 GFLOPs	512 GFLOPS	384 GFLOPs
顯存	待定	192GB HBM3	128 GB HBM2e	128 GB HBM2e	64 GB HBM2e	32GB HBM2	32GB HBM2	16GB HBM2	16GB HBM2	4GB HBM1	16GB GDDR5
記憶體時鐘	待定	5.2Gbps	3.2Gbps	3.2Gbps	3.2Gbps	1200兆赫	1000兆赫	1000兆赫	945兆赫	500兆赫	1750兆赫
記憶體總線	待定	8192 位	8192 位	8192 位	4096 位	4096位總線	4096位總線	4096位總線	2048位元總線	4096位總線	256位元總線
記憶體頻寬	待定	5.2TB/秒	3.2TB/秒	3.2TB/秒	1.6TB/秒	1.23TB/秒	1TB/秒	1TB/秒	484GB/秒	512GB/秒	224GB/秒
構成因素	待定	維運管理系統	維運管理系統	維運管理系統	雙槽卡	雙槽，全長	雙槽，全長	雙槽，全長	雙槽，全長	雙槽，半長	單槽，全長
冷卻	待定	被動冷卻	被動冷卻	被動冷卻	被動冷卻	被動冷卻	被動冷卻	被動冷卻	被動冷卻	被動冷卻	被動冷卻
TDP（最大）	待定	750W	560W	500W	300W	300W	300W	300W	300W	175W	150W

AMD 終於擁有在 AI 領域對抗 NVIDIA 的 GPU，MI300X 比 H100 快 60%

AMD Instinct MI300X – 利用 CDNA 3 和 CDNA 挑戰 NVIDIA 的 AI 霸主地位超大記憶體

AMD Radeon Instinct 加速器

發佈留言 取消回覆

發佈留言取消回覆