亚洲欧洲精品无码AV,亚洲VA久久久噜噜噜熟女8

推理算力需求或達訓練10倍英特爾旗艦CPU加碼AI推理帶動多廠服務器新品排隊面市|行業(yè)觀察

原創(chuàng)

2024-09-28 21:55 星期六

財聯(lián)社記者付靜

①多家芯片、云廠商盯上推理的蛋糕，英特爾CPU亦瞄準推理需求，已可以面向10B模型做推理。
②基于至強新品，多款服務器新品將密集面市，國內(nèi)數(shù)據(jù)中心預期步入新發(fā)展階段。
③眾多從業(yè)者認為算力需求將持續(xù)增長，未來推理需求規(guī)?；?qū)⑦_到訓練需求的5-10倍。

財聯(lián)社9月28日訊（記者付靜）“可能在短期或中短期內(nèi)，市場焦點會集中在一些大型通用模型上，然而對于AI來說，更廣闊的應用空間實際上是在推理場景中?！苯照匍_的英特爾?至強?6性能核處理器發(fā)布會后，英特爾市場營銷集團副總裁、中國區(qū)云與行業(yè)解決方案和數(shù)據(jù)中心銷售部總經(jīng)理梁雅莉在接受財聯(lián)社記者采訪時表示。

據(jù)財聯(lián)社記者多方采訪梳理獲悉，當前國內(nèi)大模型廠商算力成本至少七成仍用于訓練端，而未來推理將成“大模型下半場”。海內(nèi)外眾多廠商均已盯上推理算力的蛋糕，芯片巨頭英特爾服務器CPU至強（Xeon）系列重量級新品亦瞄準推理市場需求，直接帶動多家服務器廠商新品于今年9月起至明年一季度密集面市，國內(nèi)數(shù)據(jù)中心預期步入新發(fā)展階段。

推理算力需求或達訓練10倍供給端緊盯蛋糕

“實際上，在AI技術(shù)的實際應用落地過程中，用戶感受最直觀、最強烈的往往是推理環(huán)節(jié)的性能表現(xiàn)。雖然過去我們一直在強調(diào)大模型訓練的重要性，但真正到了企業(yè)應用層面，推理的需求規(guī)模往往是訓練需求的5-10倍。”站在推理算力需求視角，紫光股份（000938.SZ）旗下新華三集團計算存儲產(chǎn)品線副總裁劉宏程向財聯(lián)社記者表示。

他進一步告訴財聯(lián)社記者，通用模型應用于具體行業(yè)時，往往需要結(jié)合企業(yè)數(shù)據(jù)進行私有化微調(diào)與推理?！巴ㄓ么竽Ｐ偷耐度氤杀具^高，很多企業(yè)難以承擔，而且投入與產(chǎn)出的時間比也較長。因此，企業(yè)更傾向于在通用模型的基礎上進行微調(diào)，以滿足自身特定需求，并通過推理來實現(xiàn)應用落地?！?/p>

財聯(lián)社記者采訪了解到，眾多從業(yè)者認為算力需求將持續(xù)增長，對行業(yè)發(fā)展前景持樂觀態(tài)度。

“我們認為能夠在‘百模大戰(zhàn)’競爭中生存下來的通用大模型數(shù)量將非常有限，可能不會超過一只手能數(shù)得過來的數(shù)量。某些參與者可能會面臨巨大挑戰(zhàn)，甚至被市場淘汰。但從整個市場的角度來看，訓練規(guī)模的需求仍然非常龐大。此外，當所有的通用模型和私域模型都達到可用并準備變現(xiàn)的階段時，我們預測將會有一個規(guī)模達到訓練市場5到10倍的推理市場等待著我們。算力投入預計將在未來5-10年內(nèi)保持高速增長。”劉宏程稱。

站在供給視角，據(jù)財聯(lián)社記者觀察，國內(nèi)炙手可熱的華為、近期因啟動IPO頗受關注的GPU獨角獸燧原科技、壁仞科技、海外的AMD、Cerebras Systems、FuriosaAI等眾多芯片廠商紛紛加碼AI推理競賽。與此同時，Meta、微軟、OpenAI等廠商亦透露親自下場做推理芯片的計劃，其中Meta上半年已正式發(fā)布MTIA v2芯片。

財聯(lián)社記者問及英特爾如何看待推理算力供給側(cè)的蓬勃趨勢，梁雅莉稱，前述廠商親自開發(fā)推理芯片，“一方面是因為需求旺盛，另一方面也是為了尋找價值和性能之間的平衡?！?/p>

她認為，推理算力需求下，硬件架構(gòu)和性能固然重要，更重要的是軟件的優(yōu)化和整體系統(tǒng)的設計。軟件層面，比如深度學習框架需要不斷優(yōu)化；整體系統(tǒng)設計層面，無論CPU、GPU甚至FPGA，最重要的是如何與產(chǎn)業(yè)的每一個具體場景深度融合。

CPU可用于10B模型推理推動服務器革新

英特爾最新至強6性能核處理器（代號Granite Rapids）的發(fā)布，使得AI推理算力賽道迎來更強勁的CPU選手。

據(jù)悉，至強6性能核采用分離式模塊化設計，包括Intel 3工藝的計算模塊、Intel 7工藝的I/O模塊；最高配備128個X86內(nèi)核，支持高達每秒6400MT的DDR5內(nèi)存、每秒8800MT的MRDIMM內(nèi)存、6條UPI 2.0鏈路（速率達每秒24 GT），96條PCIe 5.0或64條CXL 2.0通道、504MB的L3緩存。

英特爾至強6能效核處理器（代號Sierra Forest）曾于今年6月推出，針對高核心密度和規(guī)模擴展任務所需的高效能優(yōu)化，而性能核處理器則面向計算密集型和AI工作負載所需的高性能進行優(yōu)化。

公開資料顯示，至強是英特爾為與普通個人電腦市場作區(qū)分研制推出的服務器CPU品牌，該產(chǎn)品線面向中高端企業(yè)級服務器、工作站市場。英特爾數(shù)據(jù)中心與人工智能集團副總裁兼中國區(qū)總經(jīng)理陳葆立透露，現(xiàn)有AI服務器中大部分機頭CPU仍是英特爾CPU。基于英特爾“四年五個制程節(jié)點”戰(zhàn)略，2024年至強6系列采用了Intel 3制程工藝。

據(jù)悉，自第四代至強起，英特爾針對AI加速推出專屬指令集“英特爾?高級矩陣擴展（下稱AMX）”，使得CPU能夠支持市面常見大模型的推理計算，第四代、第五代至強可以用于處理6B、7B甚至13B的模型，正被業(yè)內(nèi)大量使用中。而在第六代至強中，AMX亦做出升級。

財聯(lián)社記者于發(fā)布會現(xiàn)場獲悉，從實際推理表現(xiàn)看，針對70億參數(shù)的Llama2大模型推理，至強6性能核相比第五代至強單顆CPU性能和每瓦特性能分別有3.08倍、2.16倍提升；針對80億參數(shù)的Llama3，則分別有2.40倍、1.68倍提升。

（受訪者供圖）

“2年前，一個主流服務器搭配的至強處理器應該是24-48核。相比上一代，至強6性能核性能裝備從64核到128核，單核性能提升1.2倍?！标愝崃⒃诎l(fā)布會上稱。

據(jù)財聯(lián)社記者觀察，除了CPU內(nèi)核數(shù)及整體性能提升，在GPU用于AI推理被視作主流的當下，這款CPU加碼推理的意義更在于帶動國內(nèi)數(shù)據(jù)中心步入新發(fā)展階段。

劉宏程認為，融合架構(gòu)相比單一GPU服務器更符合企業(yè)私有化微調(diào)、推理的需求?！耙驗閷τ谒接蛐∫?guī)模的訓練和推理任務來說，融合架構(gòu)的投資回報率更高，能更有效地利用資源?！?/p>

梁雅莉亦告訴財聯(lián)社記者，“未來的市場環(huán)境下，性能和成本必須做平衡考慮。尤其是對于推理場景，只追求性能是欠妥的，企業(yè)最終要平衡的是在這樣一個場景下耗費的算力成本是多少，以及它如何轉(zhuǎn)化為企業(yè)的商業(yè)價值，最終大家都需要進行成本效益分析。”

財聯(lián)社記者注意到，由于生成式AI算力需求持續(xù)增長，在本月受業(yè)內(nèi)關注的兩大互聯(lián)網(wǎng)巨頭的“主場”2024騰訊全球數(shù)字生態(tài)大會、2024云棲大會上，圍繞英特爾至強6性能核的討論聲就已逐漸增多。

而OEM廠商方面，超聚變服務器產(chǎn)品總經(jīng)理朱勇對財聯(lián)社在內(nèi)的媒體表示，基于通用場景的CPU推理可實現(xiàn)“一芯多用”：“現(xiàn)在CPU已經(jīng)發(fā)展到可以去做一些10Billion左右的大模型推理場景，這為客戶帶來的優(yōu)勢是能夠降低TCO?！?/p>

“過去我們常常區(qū)分通用服務器和GPU服務器，但在這一代至強6服務器上，我們實現(xiàn)了一個融合基礎設施，即能夠同時兼顧通用計算和GPU加速的需求。這種融合將加速各行業(yè)對新技術(shù)應用的推動，因為用戶不再需要在不同類型的服務器之間做出選擇，而是可以更加靈活地應對多樣化的計算需求。”劉宏程稱。

此外財聯(lián)社記者獲悉，浪潮信息（000977.SZ）、超聚變、新華三、中興通訊（000063.SZ）、聯(lián)想等廠商基于英特爾至強6性能核處理器的服務器新品將陸續(xù)面市。

閱85.2W

我要評論

反饋意見