AMD Instinct MI300X 和 MI300A AI 加速器詳細介紹:CDNA 3 和 Zen 4 以先進的封裝奇蹟相結合
AMD Instinct MI300X 和 MI300A 是人工智慧領域最受期待的加速器之一,將於下個月推出。人們對 AMD 首款成熟的人工智慧傑作抱有很多期待,今天我們想為您總結一下對這項技術奇蹟的期待。
AMD Instinct MI300X 專為 GPU 加速的 AI 工作負載而設計,而 MI300A 則採用技術最先進的 APU 套件來應對 HPC
12 月 6 日,AMD 將舉辦「推動人工智慧」主題演講,其中主要議程之一是全面推出代號為 MI300 的下一代 Instinct 加速器系列。這個新的 GPU 和 CPU 加速系列將成為 AI 領域的主導產品,該領域是AMD 的第一,也是目前最重要的戰略優先事項,因為它最終推出了一款不僅先進而且旨在滿足關鍵要求的產品。產業內的人工智慧需求。MI300 級 AI 加速器將成為另一個小晶片動力源,利用台積電的先進封裝技術,讓我們看看這些 AI 怪物的背後是什麼。
AMD Instinct MI300X – 以 CDNA 3 和大記憶體挑戰 NVIDIA 的 AI 霸主地位
AMD Instinct MI300X 絕對是最受關注的晶片,因為它顯然是針對人工智慧領域的 NVIDIA Hopper 和英特爾 Gaudi 加速器。該晶片僅基於 CDNA 3 架構設計,並且有很多事情正在發生。該晶片將混合使用 5 奈米和 6 奈米 IP,所有這些 IP 組合起來可提供多達 1,530 億個電晶體 (MI300X)。
從設計開始,主中介層採用被動晶片佈局,該晶片使用新一代 Infinity Fabric 解決方案容納互連層。此中介層總共包含 28 個晶片,其中包括 8 個 HBM3 封裝、HBM 封裝之間的 16 個虛擬晶片以及 4 個主動晶片,每個有源晶片都有兩個運算晶片。
每個基於 CDNA 3 GPU 架構的 GCD 共有 40 個運算單元,相當於 2560 個核心。總共有 8 個計算晶片 (GCD),因此總共有 320 個運算單元和 20,480 個核心單元。就產量而言,AMD 將縮減這些核心的一小部分,我們將在一個月後獲得有關確切配置的更多詳細資訊。
記憶體是另一個巨大的升級領域,MI300X 的 HBM3 容量比其前身 MI250X(128 GB)增加了 50%。為了實現192 GB 的記憶體池,AMD 為MI300X 配備了8 個HBM3 堆疊,每個堆疊都是12-Hi,同時整合了16 Gb IC,每個IC 具有2 GB 容量,或每個堆疊具有24 GB 容量。此記憶體將提供高達 5.2 TB/s 的頻寬和 896 GB/s 的 Infinity Fabric 頻寬。相比之下,NVIDIA即將推出的 H200 AI 加速器提供 141 GB 容量,而英特爾的 Gaudi 3 將提供 144 GB容量。大型記憶體池在 LLM 中非常重要,因為 LLM 大多受記憶體限制,AMD 絕對可以透過在記憶體部門的領先來展示其 AI 實力。
耗電量方面,AMD Instinct MI300X的額定功率為750W,比Instinct MI250X的500W提升了50%,比NVIDIA H200多了50W。
AMD Instinct MI300A – 密集封裝的百億億次 APU 現已成為現實
我們多年來一直等待 AMD 最終兌現 Exascale 級 APU 的承諾,隨著 Instinct MI300A 的推出,這一天也越來越近了。MI300A 的包裝與 MI300X 非常相似,只是它使用了 TCO 優化的記憶體容量和 Zen 4 核心。
其中一個主動晶片具有兩個 CDNA 3 GCD,被切掉並替換為三個 Zen 4 CCD,這些 CCD 提供自己獨立的快取和核心 IP 池。每個 CCD 有 8 個核心和 16 個線程,因此活動晶片上總共有 24 個核心和 48 個線程。還有 24 MB 的二級快取(每個核心 1 MB)和一個單獨的快取池(每個 CCD 32 MB)。應該記住,CDNA 3 GCD 還具有獨立的 L2 快取。
總結 AMD Instinct MI300 加速器的一些突出功能,我們有:
- 首款整合CPU+GPU封裝
- 瞄準百億億超級電腦市場
- AMD MI300A(整合CPU+GPU)
- AMD MI300X(僅限 GPU)
- 1530 億個電晶體
- 多達 24 個 Zen 4 核心
- CDNA 3 GPU 架構
- 高達 192 GB HBM3 內存
- 多達 8 個 Chiplet + 8 個記憶體堆疊(5nm + 6nm 製程)
將所有這些結合在一起,AMD 將與其生態系統推動者和合作夥伴合作,提供 8 路配置的 MI300 AI 加速器,採用 SXM 設計,透過夾層連接器連接到主機板。看看這些將提供什麼樣的配置將會很有趣,雖然 SXM 板是給定的,但我們也可以期待 PCI-E 外形尺寸的一些變體。
目前,AMD 應該知道,他們的競爭對手也在全力推動人工智慧熱潮,NVIDIA 已經公佈了 2024 年 Blackwell GPU 的龐大數字,英特爾也準備在未來幾年推出 Guadi 3 和 Falcon Shores GPU。目前可以肯定的是,人工智慧客戶將吞噬幾乎所有他們能得到的東西,每個人都會利用這一點。但 AMD 擁有非常強大的解決方案,其目標不僅是成為 NVIDIA 的替代品,而且是人工智慧領域的領導者,我們希望 MI300 能夠幫助他們取得這一成功。
AMD Radeon Instinct 加速器
加速器名稱 | AMD 本能 MI400 | AMD 本能 MI300 | AMD 本能 MI250X | AMD 本能 MI250 | AMD 本能 MI210 | AMD 本能 MI100 | AMD Radeon Instinct MI60 | AMD Radeon Instinct MI50 | AMD Radeon Instinct MI25 | AMD Radeon Instinct MI8 | AMD Radeon Instinct MI6 |
---|---|---|---|---|---|---|---|---|---|---|---|
CPU架構 | Zen 5(百億億次 APU) | Zen 4(百億億次 APU) | 不適用 | 不適用 | 不適用 | 不適用 | 不適用 | 不適用 | 不適用 | 不適用 | 不適用 |
GPU架構 | cDNA 4 | 水族萬賈拉姆 (CDNA 3) | 畢宿五 (CDNA 2) | 畢宿五 (CDNA 2) | 畢宿五 (CDNA 2) | 大角星 (CDNA 1) | 織女星20 | 織女星20 | 織女星10 | 斐濟XT | 北極星10號 |
GPU行程節點 | 4奈米 | 5奈米+6奈米 | 6奈米 | 6奈米 | 6奈米 | 7奈米鰭式場效電晶體 | 7奈米鰭式場效電晶體 | 7奈米鰭式場效電晶體 | 14奈米鰭式場效電晶體 | 28奈米 | 14奈米鰭式場效電晶體 |
GPU 小晶片 | 待定 | 8(MCM) | 2 (MCM) 1(每個晶片) |
2 (MCM) 1(每個晶片) |
2 (MCM) 1(每個晶片) |
1(單片) | 1(單片) | 1(單片) | 1(單片) | 1(單片) | 1(單片) |
GPU 核心 | 待定 | 最多 19,456 | 14,080 | 13,312 | 6656 | 7680 | 4096 | 3840 | 4096 | 4096 | 2304 |
GPU 時脈速度 | 待定 | 待定 | 1700兆赫 | 1700兆赫 | 1700兆赫 | 1500兆赫 | 1800兆赫 | 1725兆赫 | 1500兆赫 | 1000兆赫 | 1237兆赫 |
FP16 計算 | 待定 | 待定 | 383 上衣 | 362 首 | 181 首 | 185 兆次浮點運算 | 29.5 TFLOPs | 26.5 TFLOPs | 24.6 TFLOPs | 8.2 TFLOPs | 5.7 TFLOPs |
FP32 計算 | 待定 | 待定 | 95.7 TFLOPs | 90.5 TFLOPs | 45.3 TFLOPs | 23.1 TFLOPs | 14.7 TFLOPs | 13.3 TFLOPs | 12.3 TFLOPs | 8.2 TFLOPs | 5.7 TFLOPs |
FP64 計算 | 待定 | 待定 | 47.9 TFLOPs | 45.3 TFLOPs | 22.6 TFLOPs | 11.5 TFLOPs | 7.4 TFLOPs | 6.6 TFLOPs | 768 GFLOPs | 512 GFLOPS | 384 GFLOPs |
顯存 | 待定 | 192GB HBM3 | 128 GB HBM2e | 128 GB HBM2e | 64 GB HBM2e | 32GB HBM2 | 32GB HBM2 | 16GB HBM2 | 16GB HBM2 | 4GB HBM1 | 16GB GDDR5 |
記憶體時鐘 | 待定 | 5.2Gbps | 3.2Gbps | 3.2Gbps | 3.2Gbps | 1200兆赫 | 1000兆赫 | 1000兆赫 | 945兆赫 | 500兆赫 | 1750兆赫 |
記憶體總線 | 待定 | 8192 位 | 8192 位 | 8192 位 | 4096 位 | 4096位總線 | 4096位總線 | 4096位總線 | 2048位元總線 | 4096位總線 | 256位元總線 |
記憶體頻寬 | 待定 | 5.2TB/秒 | 3.2TB/秒 | 3.2TB/秒 | 1.6TB/秒 | 1.23TB/秒 | 1TB/秒 | 1TB/秒 | 484GB/秒 | 512GB/秒 | 224GB/秒 |
構成因素 | 待定 | 維運管理系統 | 維運管理系統 | 維運管理系統 | 雙槽卡 | 雙槽,全長 | 雙槽,全長 | 雙槽,全長 | 雙槽,全長 | 雙槽,半長 | 單槽,全長 |
冷卻 | 待定 | 被動冷卻 | 被動冷卻 | 被動冷卻 | 被動冷卻 | 被動冷卻 | 被動冷卻 | 被動冷卻 | 被動冷卻 | 被動冷卻 | 被動冷卻 |
TDP(最大) | 待定 | 750W | 560W | 500W | 300W | 300W | 300W | 300W | 300W | 175W | 150W |
發佈留言