①《科創(chuàng)板日報》記者實測發(fā)現(xiàn)谷歌Gemini 1.5 Pro在文本理解能力上優(yōu)于GPT-4o,但在多模態(tài)理解方面,GPT-4o更勝一籌; ②前華為“天才少年”預(yù)測國內(nèi)第一個端到端多模態(tài)大模型年底將到來。
《科創(chuàng)板日報》5月17日訊(記者 朱凌) 近日,OpenAI用一場26分鐘的線上直播展示了GPT-4o帶來的驚艷交互能力,將新一輪AI爭霸帶入了“Her 時代”。GPT-4o的“o”代表“omni”,一詞意為“全能”,該模型能夠?qū)崿F(xiàn)無縫的文本、視頻和音頻輸入,并生成相應(yīng)模態(tài)的輸出,真正意義上實現(xiàn)了多模態(tài)交互。
緊隨其后一天,年度Google I/O開發(fā)者大會如期而至,谷歌CEO Sundar Pichai宣布了一系列圍繞其最新生成式AI模型Gemini的重大更新,全面反擊OpenAI,其中就有由升級后Gemini模型驅(qū)動的AI助手項目Project Astra、對標Sora的文生視頻模型Veo等。
本周AI戰(zhàn)場暫告一段落,《科創(chuàng)板日報》記者對AI界的“明星”選手——谷歌Gemini 1.5 Pro(100萬tokens)、OpenAI最新升級的GPT-4o與此前發(fā)布的GPT-4進行了一場能力評測。
▍文本測試:谷歌Gemini 1.5 Pro正確率和速度完勝GPT-4o和GPT-4
OpenAI發(fā)布GPT-4已過去一年多,據(jù)介紹,此次推出新旗艦?zāi)P虶PT-4o的推理能力有明顯的提升,速度快了,價格也下降了。
谷歌Gemini系列以其標志性的超大上下文窗口出名,此前已擁有Ultra、Pro和Nano三種規(guī)格,各適配不同規(guī)模與需求的應(yīng)用場景。本次發(fā)布會宣布,迭代后的Gemini 1.5 Pro 的上下文長度從原有的100萬tokens(語句單位)提升到了200萬tokens。這一改進顯著增強了模型的數(shù)據(jù)處理能力,使其在處理更加復(fù)雜和龐大的數(shù)據(jù)集時更加游刃有余。
兩家公司都對自己的大模型的升級換代展現(xiàn)出自信姿態(tài),但情況還需要實際驗證。
第一題是“事實回答題”,只有谷歌Gemini 1.5 Pro模型回答正確,它能辨別出“螺絲釘并不是一種食品”這一事實。
Gemini 1.5 Pro回復(fù)結(jié)果
GPT-4和GPT-4o雖然對“麻辣螺絲釘怎么做”的回答非常詳細和全面,涵蓋了所需材料、制作步驟以及小貼士,但是卻忽略了“螺絲釘并不是一種可食用品”這一前置事實。
GPT-4、GPT-4o回復(fù)結(jié)果
第二題是“邏輯計算題”,GPT-4和GPT-4o均回答錯誤,谷歌模型給出正確答案,并且顯示了具體作答時間,不到10秒的時間里便給出了答案和解析,表現(xiàn)可謂“又快又好”。
Gemini 1.5 Pro回復(fù)結(jié)果
不同模型在處理邏輯問題時所采取的思考策略有所差別。與Gemini 1.5 Pro在解答時先給出答案再詳細解釋其背后規(guī)律的方式不同,GPT-4和GPT-4o更傾向于首先深入拆解問題,而非直接呈現(xiàn)答案。然而,這種對問題的細致分析和拆解過程也導(dǎo)致了后兩者在回答時所需的時間相對較長。
GPT-4、GPT-4o回復(fù)結(jié)果
第三題是“生物題”,GPT-4回答錯誤,GPT-4o和谷歌Gemini 1.5 Pro回答正確,用時分別為14.83秒和11.2秒,Gemini 1.5 Pro略勝一籌。
Gemini 1.5 Pro回復(fù)結(jié)果
第四題是“倫理道德題”,三個大模型的回答都正確,并且都能識別出是經(jīng)典的倫理困境“電車難題”。GPT-4和 Gemini 1.5 Pro強調(diào)了倫理困境的復(fù)雜性,并沒有給出直接的選擇,GPT-4o則根據(jù)“最大限度減少傷亡”的原則進行分析并給出選擇。
三大模型回復(fù)結(jié)果
《科創(chuàng)板日報》記者總結(jié)文本測試結(jié)果發(fā)現(xiàn),谷歌100萬級參數(shù)的Gemini 1.5 Pro模型憑借四次全部正確的表現(xiàn),實力杠桿,GPT-4o答對了兩次,而GPT-4模型的表現(xiàn)則不盡人意,僅答對了一次。
由于目前200萬級參數(shù)的Gemini 1.5 Pro模型尚未開放,《科創(chuàng)板日報》記者申請了內(nèi)測,等待通過后再做進一步測試分享。
▍多模態(tài)測試:GPT-4o在細節(jié)和分析能力上更勝一籌
GPT-4o是OpenAI對其廣受歡迎的大型多模態(tài)模型GPT-4的第三次重大迭代,它通過視覺功能擴展了GPT-4的能力,新發(fā)布的模型能夠以一種集成且無縫的方式與用戶進行對話、視覺識別和互動。Gemini 1.5 Pro也擁有多模態(tài)功能,適合處理摘要、聊天、圖片分析和視頻字幕、以及從長文本和表格中提取數(shù)據(jù)等。
記者用“公園照片”詢問三個大模型
在測試中,記者用一張“公園照片”來詢問三個大模型。根據(jù)圖片測試反饋,三個大模型都準確地描述了公園照片的內(nèi)容,但側(cè)重點略有不同。GPT-4o勝在信息完整性,詳細列舉了船只類型、湖面狀態(tài)等各種細節(jié),但略顯冗長。Gemini 1.5 Pro語言簡潔流暢,用“悠閑地泛舟”、“景色宜人”等詞語描繪出畫面美感,但細節(jié)不如GPT-4o豐富。GPT-4描述簡潔,但細節(jié)不夠豐富。
簡而言之,如果看重信息的全面性,GPT-4o最強;若更注重語言表達,則Gemini 1.5 Pro表現(xiàn)略佳。
由于目前GPT-4尚未具備音頻和視頻內(nèi)容的解析能力,所以不做相關(guān)測評。OpenAI聯(lián)合創(chuàng)始人Sam Altman表示,新款語音模型GPT-4o尚未發(fā)貨,已經(jīng)發(fā)貨只是文字版GPT-4o。等到語音版一發(fā)貨,記者將第一時間帶來評測。
根據(jù)視頻測試反饋,GPT-4o在解析視頻內(nèi)容時表現(xiàn)出了強大的多模態(tài)處理能力。它能夠提取和分析視頻幀,并通過圖形界面直觀地展示給用戶。在分析過程中,模型準確地識別出了視頻中的四足機器人,并對其外觀、所處的環(huán)境以及所進行的活動進行了詳細的描述。
GPT-4o視頻測試回復(fù)
相比之下,Gemini 1.5 Pro的回復(fù)則顯得簡略又單調(diào),在記者第二次追問下,才充實了更多細節(jié)。
總體來看,如果目標是獲取最全面、深入的多模態(tài)內(nèi)容理解,GPT-4o是當前的最佳選擇,而Gemini 1.5 Pro則更適合那些重視表述質(zhì)量與效率的多模態(tài)應(yīng)用場景。不過,GPT-4o和Gemini 1.5 Pro都沒有提及對視頻里的聲音的分析,這是兩個多模態(tài)大模型解析中的一個共同缺失。
▍前華為“天才少年”預(yù)測國內(nèi)第一個端到端多模態(tài)大模型年底將到來
AI比賽行至白熱化階段已經(jīng)告別單純的技術(shù)競爭,轉(zhuǎn)向應(yīng)用和用戶體驗的競爭。
在搜索引擎和辦公領(lǐng)域,谷歌也將進一步將AI引入其中。記者發(fā)現(xiàn),能夠總結(jié)谷歌搜索引擎結(jié)果的“AI概覽”(AI Overviews)功能已能夠使用。百度創(chuàng)始人、董事長兼首席執(zhí)行官李彥宏昨晚在財報電話會上表示,目前百度搜索上有11%的搜索結(jié)果由AI生成。他指出,百度搜索的AI重構(gòu)工作仍處于早期階段,整體來看,搜索最有可能成為AI時代的殺手級應(yīng)用。
OpenAI與谷歌都不約而同地盯上了能自然交互的智能助理,這種智能助理是一個端到端的統(tǒng)一多模態(tài)大模型,將推動AI應(yīng)用的革命性變化。
前華為“天才少年”、Logenic Al 聯(lián)合創(chuàng)始人李博杰認為,國內(nèi)第一個多模端到端多模態(tài),很有可能今年年底就能差不多能出來了。
針對AI Agent近期的發(fā)展速度放緩的問題,李博杰表示,“雖然AI智能助理的發(fā)展前景廣闊,但成本和用戶的付費意愿是目前限制其快速發(fā)展的主要因素。GPT-4o它比GPT-4快4倍,并將成本降低了一倍,但是對于普通消費者來說可能仍然較貴?!?/p>
李博杰稱,從長期來看,實用性強的智能助理因其解決現(xiàn)實問題的能力而具有更高的價值。而短期內(nèi),情感陪伴和娛樂功能的智能助理更容易商業(yè)化,因為它們對可靠性的要求較低,開發(fā)和部署相對容易。