“在一些基礎工作被AI替代的同時,也會衍生諸如人工智能培訓師等新興行業(yè)。當前中國版ChatGPT要實現(xiàn)追趕,最大的挑戰(zhàn)在于追趕時間差。”
《安安訪談錄》是界面財聯(lián)社執(zhí)行總裁徐安安出品的一檔深度訪談類欄目。從投資角度對話1000位行業(yè)領軍人物,覆蓋傳媒創(chuàng)新、VC/PE、信息服務、金融科技、交易體系、戰(zhàn)略新興等方向。
科創(chuàng)板日報《連線創(chuàng)始人/CEO》是由《安安訪談錄》出品的針對創(chuàng)新創(chuàng)業(yè)型未上市企業(yè)創(chuàng)始人的訪談欄目,以企業(yè)創(chuàng)始人/CEO的訪談為一手信源,讓成長中的創(chuàng)業(yè)公司走入公眾和市場視野,并發(fā)掘最新技術和產(chǎn)業(yè)趨勢。
本期訪談人物:
天壤創(chuàng)始人兼首席執(zhí)行官 薛貴榮
“在一些基礎工作被AI替代的同時,也會衍生諸如人工智能培訓師等新興行業(yè)。當前中國版ChatGPT要實現(xiàn)追趕,最大的挑戰(zhàn)在于追趕時間差?!?/p>
▍個人介紹
天壤創(chuàng)始人兼首席執(zhí)行官,人工智能與大數(shù)據(jù)領域科學家,國家科技部云計算專家組成員,原阿里媽媽首席數(shù)據(jù)科學家。首批全國優(yōu)秀博士論文獎獲得者,國內(nèi)第一位在全球搜索領域頂級會議ACM SIGIR上發(fā)表論文的科學家,全球遷移學習領域開創(chuàng)者和深度強化學習頂尖專家。薛貴榮博士曾在世界頂級會議NIPS、ICML、SIGKDD、SIGIR、WWW與世界頂級刊物ACM TOIS、ACM TIST等發(fā)表論文70余篇,擁有專利十余項,論文引用達9000+。
▍第一標簽
國內(nèi)深度強化學習領域開拓者
▍公司簡介
天壤成立于2016年,是專注于通用智能研究(AGI)的創(chuàng)新企業(yè),致力于解決人工智能的可用性和易用性問題,實現(xiàn)以最小成本、最快速度賦能業(yè)務場景,讓智能像水電煤一樣便捷。
目前,已經(jīng)廣泛地服務于城市運行、交通治理、金融保險、商業(yè)零售、生物科技等場景。希望為人類社會的可持續(xù)發(fā)展帶來突破性進展,讓社會更便捷、更聰明、更智慧。
大模型近幾年持續(xù)火熱,薛貴榮認為,ChatGPT能夠脫穎而出的根本原因是強化學習技術的創(chuàng)新和高質(zhì)量數(shù)據(jù)積累的疊加效應。
“先預訓練一個大模型,然后用強化學習去‘教導’模型,讓模型生產(chǎn)出足夠多的新數(shù)據(jù),進行‘自學習’。就像一個小孩對應一個教導老師,不僅學習知識,還學習方法,解決問題的能力就可以持續(xù)提升。這才能代表真正的人工智能?!?/p>
薛貴榮指出,現(xiàn)如今的所有界面可能都會被重構,最終將變成人類通過AI和數(shù)字世界進行自然語言交流,可以直接向機器發(fā)送指令,解決問題。
在2016年創(chuàng)立天壤之前,薛貴榮曾就職于阿里巴巴,先后任職阿里媽媽大數(shù)據(jù)中心負責人、阿里媽媽首席數(shù)據(jù)科學家等職務,負責研發(fā)了阿里搜索引擎等平臺。
作為上海交通大學計算機系副教授,薛貴榮的研究方向主要為機器學習、信息檢索、互聯(lián)網(wǎng)營銷、大規(guī)模數(shù)據(jù)分析和分布式計算,在世界頂級會議NIPS等發(fā)表論文70余篇,擁有專利十余項。
談及當下ChatGPT所引領的人工智能熱潮,薛貴榮認為未來兩年,會看到AI應用的極度爆發(fā),人工智能技術將廣泛、深刻地改變各行各業(yè),并將帶來人機交互方式的巨大變革,所有的應用和平臺要基于ChatGPT框架重新開發(fā)。
“在一些基礎工作被AI替代的同時,也會衍生諸如人工智能培訓師等新興行業(yè)。當前中國版ChatGPT要實現(xiàn)追趕,最大的挑戰(zhàn)在于追趕時間差。”薛貴榮說。
01
——————————
做中國版ChatGPT 算法創(chuàng)新和高質(zhì)量的數(shù)據(jù)缺一不可
對于ChatGPT熱潮背后的推動力,薛貴榮認為,首先是算力的提升,其次是算法的躍遷。Transformer把自然語言模型的上下文之間關系的學習能力,提升了新的臺階。
“過去基于卷積的神經(jīng)網(wǎng)絡依賴大量數(shù)據(jù),通過一層一層網(wǎng)絡的學習,掌握如何把一個概念與另一個概念相關聯(lián)。但這種方式傳遞過程中往往容易產(chǎn)生信息的丟失。Transformer模型出現(xiàn)后,針對某兩個概念,機器可以更迅速、準確地建立關系的連接。這種方式更接近于我們?nèi)祟惤鉀Q問題的方式,可以考慮更復雜的事情。
同時,ChatGPT引入了強化學習機制,加速推動了通用人工智能的發(fā)展。
“在過去,標數(shù)據(jù)是一個很困難的事兒,特別是標這么大的規(guī)模。如今的ChatGPT基于大模型學到的知識,并通過人類的反饋進行訓練優(yōu)化。通過人的指導,不斷告訴AI,這么回答是錯的、這么回答是很有條理的。讓AI盡可能地掌握與人類進行溝通的‘技能’,以保證AI能夠像人類一樣思考和回答問題,并和人類保持相似的價值觀?!?/p>
隨著ChatGPT帶動人工智能產(chǎn)業(yè)成長,引起新一輪全球科技競賽。中國的ChatGPT究竟該如何追趕?薛貴榮表示,國內(nèi)廠商要不惜代價地迎頭追趕,現(xiàn)在最重要的是追趕時間差。ChatGPT的智能化程度指數(shù)級增長且與日俱增。其最終的迭代信息差和發(fā)展高度決定了我國與國外的平均智商差。
“大模型近幾年持續(xù)火熱,ChatGPT能夠脫穎而出的根本原因是強化學習技術的創(chuàng)新和高質(zhì)量數(shù)據(jù)積累的疊加效應。第一,只有基于深度強化學習體系,模型才會有更好的反饋機制和價值判斷標準,才能掌握更多優(yōu)質(zhì)數(shù)據(jù)和答案,才更逼近人類智能。第二,只有對語料數(shù)據(jù)的抓取足夠充分,實現(xiàn)規(guī)模、深度、廣度的全覆蓋,才能提升高質(zhì)量數(shù)據(jù)密度,訓練出好的大模型。要實現(xiàn)中國的ChatGPT大模型,這兩點缺一不可,而國內(nèi)廠商目前在這兩方面的探索還有較大提升空間?!?/p>
在模型方面,自然語言處理的兩大路線分別為谷歌BERT和OpenAI的GPT系列,兩者一直處于競爭狀態(tài)。此前,BERT模型的表現(xiàn)更好,也導致國內(nèi)企業(yè)大多追隨的是谷歌BERT路線,國內(nèi)的模型面臨技術路線的調(diào)整。
02
——————————
每個人都將擁有AI大腦
作為國家科技部云計算專家組成員,薛貴榮是國內(nèi)第一位在全球搜索領域頂級會議ACM SIGIR上發(fā)表論文的科學家。之后,也曾加入阿里巴巴,負責研發(fā)阿里全網(wǎng)搜索引擎。
2016年離開阿里創(chuàng)立天壤后,薛貴榮堅定了通用人工智能的探索道路?!白屆總€人都有一個AI大腦,是我們一直以來所堅持的方向,也是我們最大的目標?!?/p>
迄今,薛貴榮帶領團隊先后在AI圍棋、交通、生物科技等領域開展探索,研發(fā)了AI圍棋TRGo、蛋白質(zhì)結構預測系統(tǒng)TRFold,以及國內(nèi)首個城市級交通調(diào)度系統(tǒng)TRTraffic、蛋白質(zhì)設計TRDesign等多個大模型。
薛貴榮向《科創(chuàng)板日報》記者坦言,在創(chuàng)業(yè)過程中曾面臨中文版ChatGPT一樣的難題,即有標注的數(shù)據(jù)量不夠。如果沒有高質(zhì)量的數(shù)據(jù),很難把技術做深。為此,天壤很早地就在實踐中引入了基于強化學習的數(shù)據(jù)增強機制。
“我們做強化學習在國內(nèi)是非常早的。2016年我們做AI圍棋的時候,用兩個機器人對抗的方法來生成大量的棋譜數(shù)據(jù),并通過優(yōu)勝劣汰的方式迭代優(yōu)化模型。那時候我們就發(fā)現(xiàn)用強化學習對模型的效果提升作用非常巨大,這個發(fā)現(xiàn)對當時的我們來說非常震撼,也證明我們找對了路子。”
薛貴榮認為,生成高質(zhì)量數(shù)據(jù)的能力是天壤的優(yōu)勢。
“后來這套方法論我們在智能交通領域進行應用。路上的信號燈基本上都是靠人力調(diào)控,調(diào)地好壞沒有很客觀的評價標準。同時信號燈又涉及上下游路口聯(lián)調(diào),流量24小時都在動態(tài)變化,要獲取訓練數(shù)據(jù)非常復雜。我們搭建交通模擬器來生成數(shù)據(jù),通過強化學習不斷的進行模型的學習和數(shù)據(jù)生成,從而獲得高質(zhì)量的交通信號燈調(diào)控模型。
薛貴榮透露,在做蛋白質(zhì)研究時,同樣采用了強化學習來進行數(shù)據(jù)增強?!跋扔媚P皖A測結果,然后再把預測好的數(shù)據(jù)投喂給模型訓練,用數(shù)據(jù)增強的方式讓模型質(zhì)量有了大幅度的提升。經(jīng)過幾個大的復雜場景的實踐,我們研究大模型訓練的路線越來越通用,也形成了統(tǒng)一的思路?!?/p>
“先預訓練一個大模型,然后用強化學習去‘教導’模型,讓模型生產(chǎn)出足夠多的新數(shù)據(jù),進行‘自學習’。就像一個小孩對應一個教導老師,不僅學習知識,還學習方法,解決問題的能力就可以持續(xù)提升。這才能代表真正的人工智能?!毖F榮總結。
從科學家變成創(chuàng)業(yè)者,薛貴榮直言這條路上確實荊棘重重。
“創(chuàng)業(yè)的關鍵,還是要有核心技術,并且靠核心技術能夠帶動商業(yè)。我覺得在國內(nèi),創(chuàng)業(yè)的門檻要足夠高,才能有機會。”
03
——————————
“這兩年AI應用會極度爆發(fā),沖擊所有行業(yè)”
對未來人工智能的發(fā)展,薛貴榮表達了樂觀的態(tài)度。
“這兩年AI應用會爆發(fā),而且會極度爆發(fā)。我覺得對所有的行業(yè)都會有沖擊。首當其沖是客服會被顛覆,普通的律師、財務、人力等工作可能也會被替代。以后,人類要學會和機器一起工作,這是競爭力所在。機器將承擔絕大部分基礎性的工作,人類主要做好‘指導’的角色,并把精力投入到更有創(chuàng)造性的事情上?!?/p>
在替代一些基礎工作的同時,AI也將催生新的行業(yè),比如人工智能培訓師。
“AI生產(chǎn)內(nèi)容的組織方式很重要。比如,讓AI提取財報的核心數(shù)據(jù),需要依賴人類給他指令,告訴它重點是什么。將來會'提問題'是一項很重要的能力。你問的問題越有挑戰(zhàn),越能持續(xù)幫助AI訓練,升級AI應用,AI回答問題也將更加準確、全面。這在未來幾年會是一個很大的行業(yè)?!?/p>
ChatGPT所引領的這波人工智能熱潮,也會帶來人機交互方式的巨大變革,所有的應用和平臺要基于ChatGPT框架重新開發(fā)。
“ChatGPT的成功不僅僅是新一代聊天機器人的突破,更是人工智能對整個信息產(chǎn)業(yè)帶來的革命,將帶來全要素生產(chǎn)率的極速提升?;贑hatGPT的全新的交互接口,所有的應用、平臺、軟件將全部重新開發(fā),代替以往Windows視窗作業(yè)系統(tǒng)?!?/p>
薛貴榮進一步解釋,“現(xiàn)如今的所有界面可能都會被重構,最終將變成人類通過AI和數(shù)字世界進行自然語言交流。可以直接向機器發(fā)送指令,解決問題。人和數(shù)字世界的通道徹底被打通,AI將變得更加實用。你可以直接跟AI交流,來完成一個客戶email的回復,完成一個廣告策劃的文案,也可以完成會議的關鍵內(nèi)容整理,獲取財報的關鍵數(shù)據(jù)。他會變成你個人的一個AI助手。越多的交流,他就會越能明白你的意圖,幫你解決各類問題?!?/p>
除了工作場景,行業(yè)和企業(yè)級的應用,也將被完全顛覆?!安辉偈莻鹘y(tǒng)的交互方式,而是直接給AI下指令:把招聘需求、大量文稿翻譯,面試和財務報告的整理等等?!?/p>
當然,這背后都需要大模型的支撐。薛貴榮認為,未來模型會進一步細分,除了通用模型外,還會衍生針對不同細分領域的行業(yè)模型,以及企業(yè)內(nèi)部模型、個人模型等等。
“總之ChatGPT讓我們看到大模型有希望實現(xiàn)通用人工智能。未來針對某個場景有Best Model(最佳模型),每個行業(yè)、每個企業(yè)都需要有一個ChatGPT,再結合個人模型。其中,個人模型里會包括你的基礎信息、喜好偏向等,便于AI更準確地為你提供個性化服務。”