梁文鋒參與著作!DeepSeek最新論文介紹新機(jī)制 可使AI模型進(jìn)一步降本增效
原創(chuàng)
2025-02-18 20:47 星期二
科創(chuàng)板日報 宋子喬
①新注意力架構(gòu)NSA專為長文本訓(xùn)練與推理設(shè)計;
②DeepSeek創(chuàng)始人梁文鋒現(xiàn)身論文著作者之中,在作者排名中位列倒數(shù)第二;
③論文一作為北大在讀碩士研究生、DeepSeek實(shí)習(xí)生。

《科創(chuàng)板日報》2月18日訊(編輯 宋子喬) 2月18日,DeepSeek團(tuán)隊(duì)發(fā)布一篇論文介紹了新的注意力機(jī)制NSA(Natively Sparse Attention,原生稀疏注意力機(jī)制)。

image

NSA專為長文本訓(xùn)練與推理設(shè)計,能利用動態(tài)分層稀疏策略等方法,通過針對現(xiàn)代硬件的優(yōu)化設(shè)計,顯著優(yōu)化傳統(tǒng)AI模型在訓(xùn)練和推理過程中的表現(xiàn),特別是提升長上下文的推理能力,在保證性能的同時提升了推理速度,并有效降低了預(yù)訓(xùn)練成本。

DeepSeek創(chuàng)始人梁文鋒現(xiàn)身論文著作者之中,在作者排名中位列倒數(shù)第二。

image

其他研究人員來自DeepSeek、北大和華盛頓大學(xué),其中第一作者Jingyang Yuan(袁景陽)是在DeepSeek實(shí)習(xí)期間完成的這項(xiàng)研究。

資料顯示,袁景陽目前為北京大學(xué)碩士研究生。他的研究領(lǐng)域包括大型語言模型(LLM)、人工智能在科學(xué)中的應(yīng)用(AI for Science)。他是DeepSeek-V3技術(shù)報告的主要作者之一,還參與了DeepSeek-R1項(xiàng)目,該項(xiàng)目旨在通過強(qiáng)化學(xué)習(xí)激勵大型語言模型的推理能力。

image

在論文中,DeepSeek團(tuán)隊(duì)表示,隨著大型語言模型的發(fā)展,長上下文建模變得越來越重要,但傳統(tǒng)注意力機(jī)制的計算復(fù)雜度隨著序列長度的增加而呈平方級增長,成為制約模型發(fā)展的關(guān)鍵瓶頸。

NSA便是為高效處理長上下文任務(wù)而生的一種技術(shù)路徑,其核心創(chuàng)新在于:

1)動態(tài)分層稀疏策略:結(jié)合粗粒度的Token壓縮和細(xì)粒度的Token選擇,既保證全局上下文感知,又兼顧局部信息的精確性。

2)硬件對齊與端到端訓(xùn)練:通過算術(shù)強(qiáng)度平衡的算法設(shè)計和硬件優(yōu)化,顯著提升計算速度,同時支持端到端訓(xùn)練,減少預(yù)訓(xùn)練計算量。

實(shí)驗(yàn)表明,NSA不僅在通用任務(wù)和長上下文任務(wù)中表現(xiàn)出色,還在鏈?zhǔn)酵评淼葟?fù)雜任務(wù)中展現(xiàn)了強(qiáng)大的潛力,且推理速度加快。在通用基準(zhǔn)測試、長文本處理以及基于指令的推理任務(wù)中,NSA的表現(xiàn)均能達(dá)到甚至超越傳統(tǒng)全注意力(Full Attention)模型的水平,其以性價比極高的方式,罕見地在訓(xùn)練階段應(yīng)用稀疏性,在訓(xùn)推場景中均實(shí)現(xiàn)速度的明顯提升,特別是在解碼階段實(shí)現(xiàn)了高達(dá)11.6倍的提升。

通過高效的長序列處理能力,NSA使模型能夠直接處理整本書籍、代碼倉庫或多輪對話(如千輪客服場景),擴(kuò)展了大語言模型在文檔分析、代碼生成、復(fù)雜推理等領(lǐng)域的應(yīng)用邊界。例如,Gemini 1.5 Pro已展示長上下文潛力,NSA可進(jìn)一步降低此類模型的訓(xùn)練與推理成本。

收藏
98.63W
我要評論
歡迎您發(fā)表有價值的評論,發(fā)布廣告和不和諧的評論都將會被刪除,您的賬號將禁止評論。
發(fā)表評論
要聞
股市
關(guān)聯(lián)話題
4.95W 人關(guān)注
9814 人關(guān)注
1.22W 人關(guān)注
1.72W 人關(guān)注