AMD Instinct MI300X 和 MI300A AI 加速器詳細介紹:CDNA 3 和 Zen 4 以先進的封裝奇蹟相結合

AMD Instinct MI300X 和 MI300A AI 加速器詳細介紹:CDNA 3 和 Zen 4 以先進的封裝奇蹟相結合

AMD Instinct MI300X 和 MI300A 是人工智慧領域最受期待的加速器之一,將於下個月推出。人們對 AMD 首款成熟的人工智慧傑作抱有很多期待,今天我們想為您總結一下對這項技術奇蹟的期待。

AMD Instinct MI300X 專為 GPU 加速的 AI 工作負載而設計,而 MI300A 則採用技術最先進的 APU 套件來應對 HPC

12 月 6 日,AMD 將舉辦「推動人工智慧」主題演講,其中主要議程之一是全面推出代號為 MI300 的下一代 Instinct 加速器系列。這個新的 GPU 和 CPU 加速系列將成為 AI 領域的主導產品,該領域是AMD 的第一,也是目前最重要的戰略優先事項,因為它最終推出了一款不僅先進而且旨在滿足關鍵要求的產品。產業內的人工智慧需求。MI300 級 AI 加速器將成為另一個小晶片動力源,利用台積電的先進封裝技術,讓我們看看這些 AI 怪物的背後是什麼。

AMD Instinct MI300X – 以 CDNA 3 和大記憶體挑戰 NVIDIA 的 AI 霸主地位

AMD Instinct MI300X 絕對是最受關注的晶片,因為它顯然是針對人工智慧領域的 NVIDIA Hopper 和英特爾 Gaudi 加速器。該晶片僅基於 CDNA 3 架構設計,並且有很多事情正在發生。該晶片將混合使用 5 奈米和 6 奈米 IP,所有這些 IP 組合起來可提供多達 1,530 億個電晶體 (MI300X)。

AMD Instinct MI300X 和 MI300A AI 加速器詳細介紹:CDNA 3 和 Zen 4 採用先進封裝 Marvel 2
AMD Instinct MI300X 加速器。

從設計開始,主中介層採用被動晶片佈局,該晶片使用新一代 Infinity Fabric 解決方案容納互連層。此中介層總共包含 28 個晶片,其中包括 8 個 HBM3 封裝、HBM 封裝之間的 16 個虛擬晶片以及 4 個主動晶片,每個有源晶片都有兩個運算晶片。

每個基於 CDNA 3 GPU 架構的 GCD 共有 40 個運算單元,相當於 2560 個核心。總共有 8 個計算晶片 (GCD),因此總共有 320 個運算單元和 20,480 個核心單元。就產量而言,AMD 將縮減這些核心的一小部分,我們將在一個月後獲得有關確切配置的更多詳細資訊。

AMD Instinct MI300X 和 MI300A AI 加速器詳細介紹:CDNA 3 和 Zen 4 採用先進封裝 Marvel 4
帶有 CDNA 3 晶片的 AMD Instinct MI300X 加速器。

記憶體是另一個巨大的升級領域,MI300X 的 HBM3 容量比其前身 MI250X(128 GB)增加了 50%。為了實現192 GB 的記憶體池,AMD 為MI300X 配備了8 個HBM3 堆疊,每個堆疊都是12-Hi,同時整合了16 Gb IC,每個IC 具有2 GB 容量,或每個堆疊具有24 GB 容量。此記憶體將提供高達 5.2 TB/s 的頻寬和 896 GB/s 的 Infinity Fabric 頻寬。相比之下,NVIDIA即將推出的 H200 AI 加速器提供 141 GB 容量,而英特爾的 Gaudi 3 將提供 144 GB容量。大型記憶體池在 LLM 中非常重要,因為 LLM 大多受記憶體限制,AMD 絕對可以透過在記憶體部門的領先來展示其 AI 實力。

232328650_instinct_mi300a_exploded_view_01-自訂232328650_instinct_mi300x_exploded_view_01-自訂232328650_instinct_mi300a_exploded_view_02-自訂232328650_instinct_mi300x_exploded_view_02-自訂232328650_instinct_mi300a_cross_section_angle_01-定制232328650_instinct_mi300x_cross_section_angle_01-定制232328650_instinct_mi300a_exploded_view_03-自訂232328650_instinct_mi300x_exploded_view_03-自訂

耗電量方面,AMD Instinct MI300X的額定功率為750W,比Instinct MI250X的500W提升了50%,比NVIDIA H200多了50W。

AMD Instinct MI300A – 密集封裝的百億億次 APU 現已成為現實

我們多年來一直等待 AMD 最終兌現 Exascale 級 APU 的承諾,隨著 Instinct MI300A 的推出,這一天也越來越近了。MI300A 的包裝與 MI300X 非常相似,只是它使用了 TCO 優化的記憶體容量和 Zen 4 核心。

AMD Instinct MI300X 和 MI300A AI 加速器詳細介紹:CDNA 3 和 Zen 4 採用先進封裝 Marvel 3
AMD Instinct MI300A 加速器。

其中一個主動晶片具有兩個 CDNA 3 GCD,被切掉並替換為三個 Zen 4 CCD,這些 CCD 提供自己獨立的快取和核心 IP 池。每個 CCD 有 8 個核心和 16 個線程,因此活動晶片上總共有 24 個核心和 48 個線程。還有 24 MB 的二級快取(每個核心 1 MB)和一個單獨的快取池(每個 CCD 32 MB)。應該記住,CDNA 3 GCD 還具有獨立的 L2 快取。

AMD Instinct MI300X 和 MI300A AI 加速器詳細介紹:CDNA 3 和 Zen 4 採用先進封裝 Marvel 5
AMD Instinct MI300A 加速器,搭配 CDNA 3 和 Zen 4 晶片。

總結 AMD Instinct MI300 加速器的一些突出功能,我們有:

  • 首款整合CPU+GPU封裝
  • 瞄準百億億超級電腦市場
  • AMD MI300A(整合CPU+GPU)
  • AMD MI300X(僅限 GPU)
  • 1530 億個電晶體
  • 多達 24 個 Zen 4 核心
  • CDNA 3 GPU 架構
  • 高達 192 GB HBM3 內存
  • 多達 8 個 Chiplet + 8 個記憶體堆疊(5nm + 6nm 製程)

將所有這些結合在一起,AMD 將與其生態系統推動者和合作夥伴合作,提供 8 路配置的 MI300 AI 加速器,採用 SXM 設計,透過夾層連接器連接到主機板。看看這些將提供什麼樣的配置將會很有趣,雖然 SXM 板是給定的,但我們也可以期待 PCI-E 外形尺寸的一些變體。

amd-instinct-mi300-ai-加速器-伺服器-_2amd-instinct-mi300-ai-加速器-伺服器-_1amd-instinct-mi300-ai-加速器-伺服器-_4amd-instinct-mi300-ai-加速器-伺服器-_5amd-instinct-mi300-ai-加速器-伺服器-_3

目前,AMD 應該知道,他們的競爭對手也在全力推動人工智慧熱潮,NVIDIA 已經公佈了 2024 年 Blackwell GPU 的龐大數字,英特爾也準備在未來幾年推出 Guadi 3 和 Falcon Shores GPU。目前可以肯定的是,人工智慧客戶將吞噬幾乎所有他們能得到的東西,每個人都會利用這一點。但 AMD 擁有非常強大的解決方案,其目標不僅是成為 NVIDIA 的替代品,而且是人工智慧領域的領導者,我們希望 MI300 能夠幫助他們取得這一成功。

AMD Radeon Instinct 加速器

加速器名稱 AMD 本能 MI400 AMD 本能 MI300 AMD 本能 MI250X AMD 本能 MI250 AMD 本能 MI210 AMD 本能 MI100 AMD Radeon Instinct MI60 AMD Radeon Instinct MI50 AMD Radeon Instinct MI25 AMD Radeon Instinct MI8 AMD Radeon Instinct MI6
CPU架構 Zen 5(百億億次 APU) Zen 4(百億億次 APU) 不適用 不適用 不適用 不適用 不適用 不適用 不適用 不適用 不適用
GPU架構 cDNA 4 水族萬賈拉姆 (CDNA 3) 畢宿五 (CDNA 2) 畢宿五 (CDNA 2) 畢宿五 (CDNA 2) 大角星 (CDNA 1) 織女星20 織女星20 織女星10 斐濟XT 北極星10號
GPU行程節點 4奈米 5奈米+6奈米 6奈米 6奈米 6奈米 7奈米鰭式場效電晶體 7奈米鰭式場效電晶體 7奈米鰭式場效電晶體 14奈米鰭式場效電晶體 28奈米 14奈米鰭式場效電晶體
GPU 小晶片 待定 8(MCM) 2 (MCM)
1(每個晶片)
2 (MCM)
1(每個晶片)
2 (MCM)
1(每個晶片)
1(單片) 1(單片) 1(單片) 1(單片) 1(單片) 1(單片)
GPU 核心 待定 最多 19,456 14,080 13,312 6656 7680 4096 3840 4096 4096 2304
GPU 時脈速度 待定 待定 1700兆赫 1700兆赫 1700兆赫 1500兆赫 1800兆赫 1725兆赫 1500兆赫 1000兆赫 1237兆赫
FP16 計算 待定 待定 383 上衣 362 首 181 首 185 兆次浮點運算 29.5 TFLOPs 26.5 TFLOPs 24.6 TFLOPs 8.2 TFLOPs 5.7 TFLOPs
FP32 計算 待定 待定 95.7 TFLOPs 90.5 TFLOPs 45.3 TFLOPs 23.1 TFLOPs 14.7 TFLOPs 13.3 TFLOPs 12.3 TFLOPs 8.2 TFLOPs 5.7 TFLOPs
FP64 計算 待定 待定 47.9 TFLOPs 45.3 TFLOPs 22.6 TFLOPs 11.5 TFLOPs 7.4 TFLOPs 6.6 TFLOPs 768 GFLOPs 512 GFLOPS 384 GFLOPs
顯存 待定 192GB HBM3 128 GB HBM2e 128 GB HBM2e 64 GB HBM2e 32GB HBM2 32GB HBM2 16GB HBM2 16GB HBM2 4GB HBM1 16GB GDDR5
記憶體時鐘 待定 5.2Gbps 3.2Gbps 3.2Gbps 3.2Gbps 1200兆赫 1000兆赫 1000兆赫 945兆赫 500兆赫 1750兆赫
記憶體總線 待定 8192 位 8192 位 8192 位 4096 位 4096位總線 4096位總線 4096位總線 2048位元總線 4096位總線 256位元總線
記憶體頻寬 待定 5.2TB/秒 3.2TB/秒 3.2TB/秒 1.6TB/秒 1.23TB/秒 1TB/秒 1TB/秒 484GB/秒 512GB/秒 224GB/秒
構成因素 待定 維運管理系統 維運管理系統 維運管理系統 雙槽卡 雙槽,全長 雙槽,全長 雙槽,全長 雙槽,全長 雙槽,半長 單槽,全長
冷卻 待定 被動冷卻 被動冷卻 被動冷卻 被動冷卻 被動冷卻 被動冷卻 被動冷卻 被動冷卻 被動冷卻 被動冷卻
TDP(最大) 待定 750W 560W 500W 300W 300W 300W 300W 300W 175W 150W

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *