①多家芯片、云廠商盯上推理的蛋糕,英特爾CPU亦瞄準推理需求,已可以面向10B模型做推理。 ②基于至強新品,多款服務器新品將密集面市,國內(nèi)數(shù)據(jù)中心預期步入新發(fā)展階段。 ③眾多從業(yè)者認為算力需求將持續(xù)增長,未來推理需求規(guī)?;?qū)⑦_到訓練需求的5-10倍。
財聯(lián)社9月28日訊(記者 付靜)“可能在短期或中短期內(nèi),市場焦點會集中在一些大型通用模型上,然而對于AI來說,更廣闊的應用空間實際上是在推理場景中?!苯照匍_的英特爾?至強?6性能核處理器發(fā)布會后,英特爾市場營銷集團副總裁、中國區(qū)云與行業(yè)解決方案和數(shù)據(jù)中心銷售部總經(jīng)理梁雅莉在接受財聯(lián)社記者采訪時表示。
據(jù)財聯(lián)社記者多方采訪梳理獲悉,當前國內(nèi)大模型廠商算力成本至少七成仍用于訓練端,而未來推理將成“大模型下半場”。海內(nèi)外眾多廠商均已盯上推理算力的蛋糕,芯片巨頭英特爾服務器CPU至強(Xeon)系列重量級新品亦瞄準推理市場需求,直接帶動多家服務器廠商新品于今年9月起至明年一季度密集面市,國內(nèi)數(shù)據(jù)中心預期步入新發(fā)展階段。
推理算力需求或達訓練10倍 供給端緊盯蛋糕
“實際上,在AI技術(shù)的實際應用落地過程中,用戶感受最直觀、最強烈的往往是推理環(huán)節(jié)的性能表現(xiàn)。雖然過去我們一直在強調(diào)大模型訓練的重要性,但真正到了企業(yè)應用層面,推理的需求規(guī)模往往是訓練需求的5-10倍。”站在推理算力需求視角,紫光股份(000938.SZ)旗下新華三集團計算存儲產(chǎn)品線副總裁劉宏程向財聯(lián)社記者表示。
他進一步告訴財聯(lián)社記者,通用模型應用于具體行業(yè)時,往往需要結(jié)合企業(yè)數(shù)據(jù)進行私有化微調(diào)與推理?!巴ㄓ么竽P偷耐度氤杀具^高,很多企業(yè)難以承擔,而且投入與產(chǎn)出的時間比也較長。因此,企業(yè)更傾向于在通用模型的基礎上進行微調(diào),以滿足自身特定需求,并通過推理來實現(xiàn)應用落地?!?/p>
財聯(lián)社記者采訪了解到,眾多從業(yè)者認為算力需求將持續(xù)增長,對行業(yè)發(fā)展前景持樂觀態(tài)度。
“我們認為能夠在‘百模大戰(zhàn)’競爭中生存下來的通用大模型數(shù)量將非常有限,可能不會超過一只手能數(shù)得過來的數(shù)量。某些參與者可能會面臨巨大挑戰(zhàn),甚至被市場淘汰。但從整個市場的角度來看,訓練規(guī)模的需求仍然非常龐大。此外,當所有的通用模型和私域模型都達到可用并準備變現(xiàn)的階段時,我們預測將會有一個規(guī)模達到訓練市場5到10倍的推理市場等待著我們。算力投入預計將在未來5-10年內(nèi)保持高速增長。”劉宏程稱。
站在供給視角,據(jù)財聯(lián)社記者觀察,國內(nèi)炙手可熱的華為、近期因啟動IPO頗受關注的GPU獨角獸燧原科技、壁仞科技、海外的AMD、Cerebras Systems、FuriosaAI等眾多芯片廠商紛紛加碼AI推理競賽。與此同時,Meta、微軟、OpenAI等廠商亦透露親自下場做推理芯片的計劃,其中Meta上半年已正式發(fā)布MTIA v2芯片。
財聯(lián)社記者問及英特爾如何看待推理算力供給側(cè)的蓬勃趨勢,梁雅莉稱,前述廠商親自開發(fā)推理芯片,“一方面是因為需求旺盛,另一方面也是為了尋找價值和性能之間的平衡?!?/p>
她認為,推理算力需求下,硬件架構(gòu)和性能固然重要,更重要的是軟件的優(yōu)化和整體系統(tǒng)的設計。軟件層面,比如深度學習框架需要不斷優(yōu)化;整體系統(tǒng)設計層面,無論CPU、GPU甚至FPGA,最重要的是如何與產(chǎn)業(yè)的每一個具體場景深度融合。
CPU可用于10B模型推理 推動服務器革新
英特爾最新至強6性能核處理器(代號Granite Rapids)的發(fā)布,使得AI推理算力賽道迎來更強勁的CPU選手。
據(jù)悉,至強6性能核采用分離式模塊化設計,包括Intel 3工藝的計算模塊、Intel 7工藝的I/O模塊;最高配備128個X86內(nèi)核,支持高達每秒6400MT的DDR5內(nèi)存、每秒8800MT的MRDIMM內(nèi)存、6條UPI 2.0鏈路(速率達每秒24 GT),96條PCIe 5.0或64條CXL 2.0通道、504MB的L3緩存。
英特爾至強6能效核處理器(代號Sierra Forest)曾于今年6月推出,針對高核心密度和規(guī)模擴展任務所需的高效能優(yōu)化,而性能核處理器則面向計算密集型和AI工作負載所需的高性能進行優(yōu)化。
公開資料顯示,至強是英特爾為與普通個人電腦市場作區(qū)分研制推出的服務器CPU品牌,該產(chǎn)品線面向中高端企業(yè)級服務器、工作站市場。英特爾數(shù)據(jù)中心與人工智能集團副總裁兼中國區(qū)總經(jīng)理陳葆立透露,現(xiàn)有AI服務器中大部分機頭CPU仍是英特爾CPU。基于英特爾“四年五個制程節(jié)點”戰(zhàn)略,2024年至強6系列采用了Intel 3制程工藝。
據(jù)悉,自第四代至強起,英特爾針對AI加速推出專屬指令集“英特爾?高級矩陣擴展(下稱AMX)”,使得CPU能夠支持市面常見大模型的推理計算,第四代、第五代至強可以用于處理6B、7B甚至13B的模型,正被業(yè)內(nèi)大量使用中。而在第六代至強中,AMX亦做出升級。
財聯(lián)社記者于發(fā)布會現(xiàn)場獲悉,從實際推理表現(xiàn)看,針對70億參數(shù)的Llama2大模型推理,至強6性能核相比第五代至強單顆CPU性能和每瓦特性能分別有3.08倍、2.16倍提升;針對80億參數(shù)的Llama3,則分別有2.40倍、1.68倍提升。
(受訪者供圖)
“2年前,一個主流服務器搭配的至強處理器應該是24-48核。相比上一代,至強6性能核性能裝備從64核到128核,單核性能提升1.2倍?!标愝崃⒃诎l(fā)布會上稱。
據(jù)財聯(lián)社記者觀察,除了CPU內(nèi)核數(shù)及整體性能提升,在GPU用于AI推理被視作主流的當下,這款CPU加碼推理的意義更在于帶動國內(nèi)數(shù)據(jù)中心步入新發(fā)展階段。
劉宏程認為,融合架構(gòu)相比單一GPU服務器更符合企業(yè)私有化微調(diào)、推理的需求?!耙驗閷τ谒接蛐∫?guī)模的訓練和推理任務來說,融合架構(gòu)的投資回報率更高,能更有效地利用資源?!?/p>
梁雅莉亦告訴財聯(lián)社記者,“未來的市場環(huán)境下,性能和成本必須做平衡考慮。尤其是對于推理場景,只追求性能是欠妥的,企業(yè)最終要平衡的是在這樣一個場景下耗費的算力成本是多少,以及它如何轉(zhuǎn)化為企業(yè)的商業(yè)價值,最終大家都需要進行成本效益分析。”
財聯(lián)社記者注意到,由于生成式AI算力需求持續(xù)增長,在本月受業(yè)內(nèi)關注的兩大互聯(lián)網(wǎng)巨頭的“主場”2024騰訊全球數(shù)字生態(tài)大會、2024云棲大會上,圍繞英特爾至強6性能核的討論聲就已逐漸增多。
而OEM廠商方面,超聚變服務器產(chǎn)品總經(jīng)理朱勇對財聯(lián)社在內(nèi)的媒體表示,基于通用場景的CPU推理可實現(xiàn)“一芯多用”:“現(xiàn)在CPU已經(jīng)發(fā)展到可以去做一些10Billion左右的大模型推理場景,這為客戶帶來的優(yōu)勢是能夠降低TCO?!?/p>
“過去我們常常區(qū)分通用服務器和GPU服務器,但在這一代至強6服務器上,我們實現(xiàn)了一個融合基礎設施,即能夠同時兼顧通用計算和GPU加速的需求。這種融合將加速各行業(yè)對新技術(shù)應用的推動,因為用戶不再需要在不同類型的服務器之間做出選擇,而是可以更加靈活地應對多樣化的計算需求。”劉宏程稱。
此外財聯(lián)社記者獲悉,浪潮信息(000977.SZ)、超聚變、新華三、中興通訊(000063.SZ)、聯(lián)想等廠商基于英特爾至強6性能核處理器的服務器新品將陸續(xù)面市。