深入解析第五代英特爾至強處理器:64 核心、更大的三級緩存和更快的內存 三倍更大緩存和更快內存

 人参与 | 时间:2024-02-28 14:09:05

第五代英特爾至強鉑金 8592 + 處理器憑借更優化的深入 SoC,三倍更大緩存和更快內存,解析在運行諸多工作負載時具備與眾不同的第代的级優勢,尤其是英特 AI 工作負載。

優點:

深入解析第五代英特爾至強處理器:64 核心、更大的三級緩存和更快的內存 三倍更大緩存和更快內存

・ 主流型號上擁有額外的尔至八個核心

深入解析第五代英特爾至強處理器:64 核心、更大的三級緩存和更快的內存 三倍更大緩存和更快內存

・ 高端型號上的三級緩存容量增大了三倍

深入解析第五代英特爾至強處理器:64 核心、更大的三級緩存和更快的內存 三倍更大緩存和更快內存

・ 在 AI 工作負載中具備領先性能

・ 在多線程和輕線程工作負載中均有出色表現

・ 支持英特爾 AMX、AVX-512、强处VNNI 和 BFloat 16

・ 支持 CXL Type 3 存儲設備

英特爾數據中心產品始終具備與眾不同的理器優勢。於去年 12 月最新推出的核心缓存和更第五代英特爾至強可擴展處理器(以下簡稱第五代至強),在一眾基準測試中,站群软件6内存展現出強大性能提升。深入而且,解析這款最新產品的第代的级發布也展示出英特爾正在持續推動自身產品路線圖發展並踐行對客戶的承諾。

第五代至強的英特旗艦型號上比上一代增加了四個核心,為雙插槽服務器提供高達 128 核心和 256 線程。尔至其三級緩存亦增加三倍,强处並為高性能型號配備了更快的 DDR5-5600。結合其它有針對性的改進,包括對芯片架構的更新設計,站群软件3相較上一代產品,第五代至強可將 AI 推理性能提升 42%,可在進行通用計算時將整體性能提升高達 21%,並在一係列客戶工作負載中將每瓦性能提升高達 36%。

第五代至強采用 Intel 7 製程工藝,是該節點的升級版本,並使用了增強版的 Raptor Cove 微架構。第五代至強擁有許多創新和設計升級,遠超我們對新一代產品的期待。其中,英特爾從第四代至強芯片的複雜四芯粒設計,站群软件1轉變為更簡單的雙 die 設計,總共包含 610 億個晶體管,新的 die 提供了更一致的延遲性。盡管經過重新設計,第五代至強仍然與現有的四代至強 Eagle Stream 平台的兼容性,從而縮短了驗證時間,使新的處理器能夠快速在市場上應用。

第五代至強在整體核心數量上雖然並未創造業界紀錄,但英特爾的芯片仍能滿足大部分市場的站群软件5需求,而且得益於其內置加速器和在 AI 工作負載中的性能表現,英特爾能夠以兼具性能和能效的優勢組合贏得更多客戶青睞。

第五代英特爾至強處理器規格和售價

第五代英特爾至強處理器係列包括 32 個 SKU,主要分為六類,包括為雲、網絡、存儲、長使用壽命、單路通用及液冷通用。該係列也被劃分為鉑金、金、銀和銅四個子等級。值得注意的站群软件4是,第五代英特爾至強可擴展處理器最多支持雙路,沒有八插槽版本。但同時,英特爾還提供了不同級別的內存支持,八通道速度從 DDR5-4400 擴展到 DDR5-5600。

英特爾為每種類型的工作負載都設置了不同的 SKU,第五代至強的 32 個 SKU 較之有 52 個 SKU 的上一代至強,在產品組合上已經精簡了很多。

對於第五代至強,站群软件2英特爾繼續推動加速技術的發展,這些技術可以直接購買或通過“即用即付”的模式進行購買。芯片上專門設計的幾大加速器區域旨在大幅提升多種工作的性能,例如壓縮、加密、數據移動和數據分析,而這些工作通常需要使用獨立的加速器才能展現出領先性能。每個芯片都可以啟用不同數量的加速器“設備”,但“+”型號的芯片默認情況下每種類型的加速器都至少啟用一個。

第五代至強標準型號的 TDP 從 125W 到 350W 不等,但液冷通用的版本則最高可達 385W。

第五代至強鉑金 8592 + 擁有 64 核心和 128 線程,比 60 個核心的第四代至強 8490H 多了四個核心。然而,8592 + 比第四代通用旗艦型號 8480 + 多了八個核心。

正如其後綴“+”所表示的,8592 + 激活了內置的每一個加速器。額外付費後,每種加速器都可以升級到四個加速處理單元,這通常由原始設備製造商提供,因此價格有所不同。

8592 + 的核心基頻為 2.0 GHz,但可以在所有核心上提升到 3.0 GHz,或在單個核心上提升到 3.8 GHz。該芯片配備了 320MB 的 L3 緩存,大小是上一代產品的三倍多。英特爾提升三級緩存容量的決定將有利於運行多種工作負載,但也有個前提條件。正如我們將在下文中介紹的,第五代至強處理器可以采用三種不同的芯片配置,隻有最高端的芯片配置(40 個核心及以上)才具有三倍的緩存容量。與此同時,32 核及更低的型號所使用的芯片通常與上一代處理器的緩存容量相同。

至強處理器現在在 1DPC(每通道一個 DIMM)模式下最高支持 DDR5-5600,在 2DC 模式下支持 DDR5-4800,比上一代的 DDR5-4800 有所改進。英特爾還將 UPI 鏈路調整為 20GT/s,比以前的 16 GT/s略有提高。

所有的第五代至強都具備以下特性:

lLGA4677 插槽/ Eagle Stream 平台

l 超線程

l 八通道 DDR5 內存:頂配型號運行速度高達 DDR5-5600(1DPC)和 DDR5-4800(2DPC),但速度會因型號而異

l80 個 PCIe 5.0 通道

l 每個插槽最高 6TB 內存

l 支持 CXL Type 3 內存

lAMX,AVX-512,VNNI,BFLOAT 16

lUPI 速度從 16 GT / S 提高到 20 GT / S

AI 工作負載

生成式 AI 的熱議度與日俱增,但數據中心中使用的人工智能模型多種多樣。盡管目前,我們仍然使用 GPU 來訓練 AI 大模型和運行大多數大型生成式 AI 模型。然而,大多數 AI 推理一直在數據中心 CPU 上運行,我們預計這一趨勢不僅會繼續,而且還會穩步攀升。

AI 領域的發展瞬息萬變,因此要對其在數據中心裏的性能進行標準化衡量始終具備挑戰性。而且,批處理大小和其他測試參數在實際部署中也會有所不同。因此,在這些並沒有優化到我們在實際部署中期望的水平的時候,如下基準測試僅供參考。而一些數據中心和企業會采用現成的 AI 模型進行微調,因此,雖然該方法適用於通用性能測試,但所采用的模型等因素也會相應不同。

顯然,英特爾啟用 AMX、AVX-512、VNNI 和 Bfloat16 等 AI 增強功能,為 AI 用戶奠定了堅實的基礎。在 TensorFlow ResNet-50 測試中,第五代至強 8592 + 的速度比 64 核的第四代霄龍 9554 快 18%,但在 AlexNet 和 GoogLeNet 模型中,這兩款芯片的速度不相上下。令人驚訝的是,96 核的第四代霄龍 9654 在三個 TensorFlow 工作負載中均排名墊底,這意味著其 chiplets 陣列可能無法為此類模型提供最低延遲和最佳可擴展性。

在 MLpack 中,我們發現 8592 + 在完成任務的速度上,比兩款用於對比的其他處理器都要快 40%。三個 ONNX 推斷基準測試也都突顯出第五代至強內置加速器的優勢。

關鍵的是,我們注意到第五代至強在除了 GoogleNet 模型外的所有工作負載中,相對於上一代 60 核的 8490H 都有了大幅度的性能提升。因此整體來看,第五代至強的性能表現出眾。而從其他一些第三方基準測試中可以看出,AMX 為英特爾在利用指令集的模型中提供了顯著的領先優勢。正如我們在許多基準測試中看到的,更高的核心數量並不是所有類型工作負載的萬能選擇 —— 尤其是在像 AI 這樣對延遲敏感的工作負載中。

第五代至強利用其 AI 加速等內置的加速引擎,為廣泛工作負載提供了顯著優勢。而且,第五代至強在包括 AI 工作負載在內的多個工作負載中均具備領先優勢,這也為即將在 2024 年推出的具備多達 288 核心的 Sierra Forest,以及緊隨其後發布的 Granite Rapids 奠定了良好的基礎。

廣告聲明:文內含有的對外跳轉鏈接(包括不限於超鏈接、二維碼、口令等形式),用於傳遞更多信息,節省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。

顶: 6494踩: 62261