AMD Instinct MI300X 和 MI300A AI 加速器詳細介紹：CDNA 3 和 Zen 4 以先進的封裝奇蹟相結合

2023/11/13

AMD Instinct MI300X 和 MI300A 是人工智慧領域最受期待的加速器之一，將於下個月推出。人們對 AMD 首款成熟的人工智慧傑作抱有很多期待，今天我們想為您總結一下對這項技術奇蹟的期待。

AMD Instinct MI300X 專為 GPU 加速的 AI 工作負載而設計，而 MI300A 則採用技術最先進的 APU 套件來應對 HPC

12 月 6 日，AMD 將舉辦「推動人工智慧」主題演講，其中主要議程之一是全面推出代號為 MI300 的下一代 Instinct 加速器系列。這個新的 GPU 和 CPU 加速系列將成為 AI 領域的主導產品，該領域是AMD 的第一，也是目前最重要的戰略優先事項，因為它最終推出了一款不僅先進而且旨在滿足關鍵要求的產品。產業內的人工智慧需求。MI300 級 AI 加速器將成為另一個小晶片動力源，利用台積電的先進封裝技術，讓我們看看這些 AI 怪物的背後是什麼。

AMD Instinct MI300X – 以 CDNA 3 和大記憶體挑戰 NVIDIA 的 AI 霸主地位

AMD Instinct MI300X 絕對是最受關注的晶片，因為它顯然是針對人工智慧領域的 NVIDIA Hopper 和英特爾 Gaudi 加速器。該晶片僅基於 CDNA 3 架構設計，並且有很多事情正在發生。該晶片將混合使用 5 奈米和 6 奈米 IP，所有這些 IP 組合起來可提供多達 1,530 億個電晶體 (MI300X)。

AMD Instinct MI300X 和 MI300A AI 加速器詳細介紹：CDNA 3 和 Zen 4 採用先進封裝 Marvel 2 — AMD Instinct MI300X 加速器。

從設計開始，主中介層採用被動晶片佈局，該晶片使用新一代 Infinity Fabric 解決方案容納互連層。此中介層總共包含 28 個晶片，其中包括 8 個 HBM3 封裝、HBM 封裝之間的 16 個虛擬晶片以及 4 個主動晶片，每個有源晶片都有兩個運算晶片。

每個基於 CDNA 3 GPU 架構的 GCD 共有 40 個運算單元，相當於 2560 個核心。總共有 8 個計算晶片 (GCD)，因此總共有 320 個運算單元和 20,480 個核心單元。就產量而言，AMD 將縮減這些核心的一小部分，我們將在一個月後獲得有關確切配置的更多詳細資訊。

AMD Instinct MI300X 和 MI300A AI 加速器詳細介紹：CDNA 3 和 Zen 4 採用先進封裝 Marvel 4 — 帶有 CDNA 3 晶片的 AMD Instinct MI300X 加速器。

記憶體是另一個巨大的升級領域，MI300X 的 HBM3 容量比其前身 MI250X（128 GB）增加了 50%。為了實現192 GB 的記憶體池，AMD 為MI300X 配備了8 個HBM3 堆疊，每個堆疊都是12-Hi，同時整合了16 Gb IC，每個IC 具有2 GB 容量，或每個堆疊具有24 GB 容量。此記憶體將提供高達 5.2 TB/s 的頻寬和 896 GB/s 的 Infinity Fabric 頻寬。相比之下，NVIDIA即將推出的 H200 AI 加速器提供 141 GB 容量，而英特爾的 Gaudi 3 將提供 144 GB容量。大型記憶體池在 LLM 中非常重要，因為 LLM 大多受記憶體限制，AMD 絕對可以透過在記憶體部門的領先來展示其 AI 實力。

232328650_instinct_mi300a_exploded_view_01-自訂

232328650_instinct_mi300x_exploded_view_01-自訂

耗電量方面，AMD Instinct MI300X的額定功率為750W，比Instinct MI250X的500W提升了50%，比NVIDIA H200多了50W。

AMD Instinct MI300A – 密集封裝的百億億次 APU 現已成為現實

我們多年來一直等待 AMD 最終兌現 Exascale 級 APU 的承諾，隨著 Instinct MI300A 的推出，這一天也越來越近了。MI300A 的包裝與 MI300X 非常相似，只是它使用了 TCO 優化的記憶體容量和 Zen 4 核心。

AMD Instinct MI300X 和 MI300A AI 加速器詳細介紹：CDNA 3 和 Zen 4 採用先進封裝 Marvel 3 — AMD Instinct MI300A 加速器。

其中一個主動晶片具有兩個 CDNA 3 GCD，被切掉並替換為三個 Zen 4 CCD，這些 CCD 提供自己獨立的快取和核心 IP 池。每個 CCD 有 8 個核心和 16 個線程，因此活動晶片上總共有 24 個核心和 48 個線程。還有 24 MB 的二級快取（每個核心 1 MB）和一個單獨的快取池（每個 CCD 32 MB）。應該記住，CDNA 3 GCD 還具有獨立的 L2 快取。

AMD Instinct MI300X 和 MI300A AI 加速器詳細介紹：CDNA 3 和 Zen 4 採用先進封裝 Marvel 5 — AMD Instinct MI300A 加速器，搭配 CDNA 3 和 Zen 4 晶片。

總結 AMD Instinct MI300 加速器的一些突出功能，我們有：

首款整合CPU+GPU封裝
瞄準百億億超級電腦市場
AMD MI300A（整合CPU+GPU）
AMD MI300X（僅限 GPU）
1530 億個電晶體
多達 24 個 Zen 4 核心
CDNA 3 GPU 架構
高達 192 GB HBM3 內存
多達 8 個 Chiplet + 8 個記憶體堆疊（5nm + 6nm 製程）

將所有這些結合在一起，AMD 將與其生態系統推動者和合作夥伴合作，提供 8 路配置的 MI300 AI 加速器，採用 SXM 設計，透過夾層連接器連接到主機板。看看這些將提供什麼樣的配置將會很有趣，雖然 SXM 板是給定的，但我們也可以期待 PCI-E 外形尺寸的一些變體。

目前，AMD 應該知道，他們的競爭對手也在全力推動人工智慧熱潮，NVIDIA 已經公佈了 2024 年 Blackwell GPU 的龐大數字，英特爾也準備在未來幾年推出 Guadi 3 和 Falcon Shores GPU。目前可以肯定的是，人工智慧客戶將吞噬幾乎所有他們能得到的東西，每個人都會利用這一點。但 AMD 擁有非常強大的解決方案，其目標不僅是成為 NVIDIA 的替代品，而且是人工智慧領域的領導者，我們希望 MI300 能夠幫助他們取得這一成功。

AMD Radeon Instinct 加速器

加速器名稱	AMD 本能 MI400	AMD 本能 MI300	AMD 本能 MI250X	AMD 本能 MI250	AMD 本能 MI210	AMD 本能 MI100	AMD Radeon Instinct MI60	AMD Radeon Instinct MI50	AMD Radeon Instinct MI25	AMD Radeon Instinct MI8	AMD Radeon Instinct MI6
CPU架構	Zen 5（百億億次 APU）	Zen 4（百億億次 APU）	不適用	不適用	不適用	不適用	不適用	不適用	不適用	不適用	不適用
GPU架構	cDNA 4	水族萬賈拉姆 (CDNA 3)	畢宿五 (CDNA 2)	畢宿五 (CDNA 2)	畢宿五 (CDNA 2)	大角星 (CDNA 1)	織女星20	織女星20	織女星10	斐濟XT	北極星10號
GPU行程節點	4奈米	5奈米+6奈米	6奈米	6奈米	6奈米	7奈米鰭式場效電晶體	7奈米鰭式場效電晶體	7奈米鰭式場效電晶體	14奈米鰭式場效電晶體	28奈米	14奈米鰭式場效電晶體
GPU 小晶片	待定	8（MCM）	2 (MCM) 1（每個晶片）	2 (MCM) 1（每個晶片）	2 (MCM) 1（每個晶片）	1（單片）	1（單片）	1（單片）	1（單片）	1（單片）	1（單片）
GPU 核心	待定	最多 19,456	14,080	13,312	6656	7680	4096	3840	4096	4096	2304
GPU 時脈速度	待定	待定	1700兆赫	1700兆赫	1700兆赫	1500兆赫	1800兆赫	1725兆赫	1500兆赫	1000兆赫	1237兆赫
FP16 計算	待定	待定	383 上衣	362 首	181 首	185 兆次浮點運算	29.5 TFLOPs	26.5 TFLOPs	24.6 TFLOPs	8.2 TFLOPs	5.7 TFLOPs
FP32 計算	待定	待定	95.7 TFLOPs	90.5 TFLOPs	45.3 TFLOPs	23.1 TFLOPs	14.7 TFLOPs	13.3 TFLOPs	12.3 TFLOPs	8.2 TFLOPs	5.7 TFLOPs
FP64 計算	待定	待定	47.9 TFLOPs	45.3 TFLOPs	22.6 TFLOPs	11.5 TFLOPs	7.4 TFLOPs	6.6 TFLOPs	768 GFLOPs	512 GFLOPS	384 GFLOPs
顯存	待定	192GB HBM3	128 GB HBM2e	128 GB HBM2e	64 GB HBM2e	32GB HBM2	32GB HBM2	16GB HBM2	16GB HBM2	4GB HBM1	16GB GDDR5
記憶體時鐘	待定	5.2Gbps	3.2Gbps	3.2Gbps	3.2Gbps	1200兆赫	1000兆赫	1000兆赫	945兆赫	500兆赫	1750兆赫
記憶體總線	待定	8192 位	8192 位	8192 位	4096 位	4096位總線	4096位總線	4096位總線	2048位元總線	4096位總線	256位元總線
記憶體頻寬	待定	5.2TB/秒	3.2TB/秒	3.2TB/秒	1.6TB/秒	1.23TB/秒	1TB/秒	1TB/秒	484GB/秒	512GB/秒	224GB/秒
構成因素	待定	維運管理系統	維運管理系統	維運管理系統	雙槽卡	雙槽，全長	雙槽，全長	雙槽，全長	雙槽，全長	雙槽，半長	單槽，全長
冷卻	待定	被動冷卻	被動冷卻	被動冷卻	被動冷卻	被動冷卻	被動冷卻	被動冷卻	被動冷卻	被動冷卻	被動冷卻
TDP（最大）	待定	750W	560W	500W	300W	300W	300W	300W	300W	175W	150W

AMD Instinct MI300X 專為 GPU 加速的 AI 工作負載而設計，而 MI300A 則採用技術最先進的 APU 套件來應對 HPC

AMD Instinct MI300X – 以 CDNA 3 和大記憶體挑戰 NVIDIA 的 AI 霸主地位

AMD Instinct MI300A – 密集封裝的百億億次 APU 現已成為現實

AMD Radeon Instinct 加速器

發佈留言 取消回覆

發佈留言取消回覆