①VideoWorld在業(yè)界首次實現(xiàn)無需依賴語言模型,僅通過“視覺信息”即可認知世界; ②僅300M參數(shù)量下,VideoWorld已取得可觀的模型表現(xiàn); ③目前,該項目代碼與模型已開源。
《科創(chuàng)板日報》2月10日訊(編輯 宋子喬) 2月10日,A股視覺認知概念股午后大幅走強,創(chuàng)業(yè)板星宸科技直線拉升漲停,全志科技、富瀚微、虹軟科技等紛紛大幅沖高。
消息面上,豆包發(fā)布視頻生成實驗?zāi)P汀癡ideoWorld”。據(jù)介紹,不同于Sora、DALL-E、Midjourney等主流多模態(tài)模型,VideoWorld在業(yè)界首次實現(xiàn)無需依賴語言模型,僅通過“視覺信息”即可認知世界,也就是說,VideoWorld可通過瀏覽視頻數(shù)據(jù),讓機器掌握推理、規(guī)劃和決策等復(fù)雜能力。團隊實驗發(fā)現(xiàn),僅300M參數(shù)量下,VideoWorld已取得可觀的模型表現(xiàn)。
目前,該項目代碼與模型已開源。
現(xiàn)有模型大多依賴語言或標簽數(shù)據(jù)學(xué)習(xí)知識,很少涉及純視覺信號的學(xué)習(xí)。VideoWorld選擇去掉語言模型,實現(xiàn)了統(tǒng)一執(zhí)行理解和推理任務(wù)。
怎么做到的?
豆包大模型團隊稱,VideoWorld基于一種潛在動態(tài)模型(Latent Dynamics Model,LDM),可高效壓縮視頻幀間的變化信息,在保留豐富視覺信息的同時,壓縮了關(guān)鍵決策和動作相關(guān)的視覺變化,顯著提升知識學(xué)習(xí)效率和效果。
在不依賴任何強化學(xué)習(xí)搜索或獎勵函數(shù)機制前提下,VideoWorld達到了專業(yè)5段9x9圍棋水平,并能夠在多種環(huán)境中,執(zhí)行機器人任務(wù)。
但該模型并不完美,其在真實世界環(huán)境中的應(yīng)用,仍面臨著高質(zhì)量視頻生成和多環(huán)境泛化等挑戰(zhàn)。這一點最直觀體現(xiàn)在,視頻中存在大量冗余信息,會大大影響模型的學(xué)習(xí)效率,使得視頻序列的知識挖掘效率顯著落后于文本形式,不利于模型對復(fù)雜知識的快速學(xué)習(xí)。
大模型的視覺理解能力一直是AI前沿研究方向之一。對人類而言,與語言相比,“用眼睛看”是門檻更低的認知方式。正如李飛飛教授9年前TED演講中提到“幼兒可以不依靠語言理解真實世界”。
AI視覺學(xué)習(xí),簡單來說,需要大模型理解物品/空間/場景的整體含義,并根據(jù)識別內(nèi)容進行復(fù)雜的邏輯計算,根據(jù)圖像信息更細膩地表述并創(chuàng)作。
AI視覺學(xué)習(xí)能力提升,有望催發(fā)更多的AI應(yīng)用。長城證券此前發(fā)布研報稱,國內(nèi)AI大模型多模態(tài)能力正持續(xù)提升,如快手可靈AI大模型、字節(jié)豆包AI大模型等視頻生成的效果正在持續(xù)提升,包括精準語義理解、一致性多鏡頭生成、動態(tài)運鏡等。受益于底層技術(shù)能力的升級,國內(nèi)AI應(yīng)用持續(xù)迭代,token調(diào)用量持續(xù)增長,AI應(yīng)用有望從中受益。
