受海外Stability AI公司開源Stable Diffusion模型啟發(fā),CCNL于今年11月1日正式開源了自主研發(fā)的首個中文Stable Diffusion模型“太乙”,將AI繪畫底層模型帶入中文語境。
《安安訪談錄》是界面財聯(lián)社執(zhí)行總裁徐安安出品的一檔深度訪談類欄目。從投資角度對話1000位行業(yè)領軍人物,覆蓋傳媒創(chuàng)新、VC/PE、信息服務、金融科技、交易體系、戰(zhàn)略新興等方向。
《財專訪》是由《安安訪談錄》出品的系列專訪,財聯(lián)社上市公司報道部聚焦行業(yè)熱點,通過專訪各類專家、領軍人物,致力尋找投資價值標的,還原行業(yè)發(fā)展邏輯。
本期訪談人物:
IDEA研究院講席科學家 張家興
“中文世界需要有中國文化內核的AIGC模型,行業(yè)發(fā)展還需要有更多的AIGC產(chǎn)品創(chuàng)新出現(xiàn),傳統(tǒng)產(chǎn)品都值得用AIGC做一次升級?!?/p>
▍個人介紹
現(xiàn)任IDEA研究院講席科學家,認知計算與自然語言研究中心負責人;曾任微軟亞洲研究院研究員、螞蟻金服資深算法專家、360數(shù)科首席科學家。
▍第一標簽
AIGC底層技術研究和實踐的領軍者
▍組織簡介
粵港澳大灣區(qū)數(shù)字經(jīng)濟研究院(International Digital Economy Academy,簡稱“IDEA研究院”)成立于2020年,目前已聚集包括院士、世界著名大學教授、世界知名開源系統(tǒng)發(fā)明人在內的國際一流技術專家,致力于在AI基礎技術與開源系統(tǒng)、人工智能金融科技、區(qū)塊鏈技術與機密計算、企業(yè)級AI系統(tǒng)、產(chǎn)業(yè)智能物聯(lián)網(wǎng)與智能機器人等領域研發(fā)國際頂尖成果,并培育一批國際領先科技企業(yè),帶動深圳乃至大灣區(qū)萬億級數(shù)字經(jīng)濟產(chǎn)業(yè)發(fā)展。
IDEA研究院認知計算與自然語言研究中心(Cognitive Computing and Natural Language,CCNL)致力于推動預訓練大模型為代表的新一代認知與自然語言基礎前沿技術的進一步發(fā)展,力圖解決大模型實際落地過程中的全部技術問題,構建對話機器人、知識抽取、知識體系等自然語言領域的新的技術架構,打造認知人工智能的新技術范式。
AIGC正成為繼PGC和UGC之后的全新內容創(chuàng)作模式,底層模型能力突破帶來的行業(yè)應用潛力初現(xiàn)。在AI繪畫這一技術應用分支,受海外Stability AI公司開源Stable Diffusion模型推動,行業(yè)準入門檻大幅降低,AI繪畫的產(chǎn)業(yè)化和商業(yè)化進程加速。
由此可見,在AIGC行業(yè)發(fā)展初期,底層模型的迭代、開源將成為重要的核心推動力?;诖耍珻CNL于今年11月1日正式開源了自主研發(fā)的首個中文Stable Diffusion模型“太乙”,旨在更好地助力中國AIGC文化產(chǎn)業(yè)數(shù)字化轉型的創(chuàng)新發(fā)展。
IDEA研究院講席科學家張家興在接受財聯(lián)社記者專訪時表示,中國并不缺乏產(chǎn)品創(chuàng)新者,當下欠缺的是AIGC底層能力的提供者?!拔覀儓F隊希望在中國的AIGC產(chǎn)業(yè)里,承擔Open AI跟Stability AI這樣的角色,不斷迭代底層模型能力,助力上層出現(xiàn)更多的產(chǎn)品創(chuàng)新,服務于更廣泛的用戶。”
01
——————————
AIGC模型也需要有中國文化內核
受海外Stability AI公司開源Stable Diffusion模型啟發(fā),CCNL于今年11月1日正式開源了自主研發(fā)的首個中文Stable Diffusion模型“太乙”,將AI繪畫底層模型帶入中文語境。
之所以選擇推出“太乙”,張家興表示,一方面因為英文模型會產(chǎn)生翻譯損耗、難以生成具有中國文化內核的圖片。另一方面Stable Diffusion模型已經(jīng)在英文世界中證明了自己的價值,即極大降低了AIGC行業(yè)門檻,中文世界同樣需要一個“原汁原味”的Stable Diffusion模型去推動整個產(chǎn)業(yè)發(fā)展。
對于AI來說,“投喂”什么樣的數(shù)據(jù)會直接決定學習結果。例如,在英文Stable Diffusion模型中輸入“宮殿”關鍵詞,由于系統(tǒng)默認為英文思維,故輸出的也是西方類型的各式宮殿圖片。而在“太乙”中輸入“宮殿”,生成的則是具有中國特色的宮殿建筑。輸入人像、古詩類描述詞也是同樣的道理。
張家興透露,“太乙”的訓練數(shù)據(jù)量超過了1億對的中文的圖文對?!拔覀円呀?jīng)把整個團隊都投入進去了,幾十個成員基本都是在圍繞著AIGC模型研究實踐,也希望做一些更貼近下游應用的AIGC模型?!?/p>
實際上,目前Stable Diffusion模型技術并不完美。一個最明顯的不足點是,當圖片為照片風格時,人臉生成和人手的生成質量較差。為此,“太乙”加入了圖像編輯功能,用戶可以對一張圖片的人臉部分進行單獨修復,這是原版Stable Diffusion模型無法支持的。
02
——————————
“太乙”只是第一步,生態(tài)合作是關鍵
在整個AIGC行業(yè),“太乙”作為底層模型,為應用層提供技術支撐。張家興表示,推出“太乙”只是CCNL在AIGC方向上走出的第一步,后續(xù)團隊將從三個層面持續(xù)發(fā)力。
一是不斷進行模型迭代,對模型結構進行創(chuàng)新、構建質量越來越高的數(shù)據(jù)集等,完善最基礎最底層的AIGC模型。目前CCNL已經(jīng)開源了88個預訓練模型,整體稱為“封神榜”是目前中國最大的預訓練模型開源體系。
二是推出針對特定領域的AIGC模型,例如二次元、科幻、游戲等領域。張家興認為,一個通用的AIGC模型很難在所有領域上都表現(xiàn)出色,而與各垂直行業(yè)業(yè)內公司合作,有助于一同推出更多精準的模型工具。
三是通過API(Application Program Interface,應用程序界面)將模型接入更多的業(yè)務場景?!疤摇眻F隊目前已經(jīng)推出了API功能,免費提供給用戶,每人每天有1萬的調用額度。“這足以支持一個小團隊前期去做產(chǎn)品創(chuàng)新,在特定領域面向特定用戶的公司,往往有自己獨特的經(jīng)驗和產(chǎn)品上的想法。這個時候可以直接調用我們的API構建產(chǎn)品,如果后期試驗的比較成功了,我們可以再進一步探討如何做一些針對產(chǎn)品的定制化的模型?!睆埣遗d表示。
當前階段,“太乙”已經(jīng)在推進一些生態(tài)合作,對象主要瞄準在數(shù)據(jù)和場景上有優(yōu)勢的公司,CCNL提供模型技術支持,對方公司則專注于產(chǎn)品運營,雙方形成優(yōu)勢互補關系。
“一種是對方的產(chǎn)品已經(jīng)跑在前面了,但急需技術升級,以及更好的 AIGC模型內核。另一種是對方本身有很強的數(shù)據(jù)圖像方面的優(yōu)勢,通過‘太乙’技術賦予數(shù)據(jù)新的價值。因為有的數(shù)據(jù)是有版權的,有一定獲取成本,現(xiàn)在用AIGC的方式給業(yè)務數(shù)據(jù)再進行一次大規(guī)模的擴充,這樣他們就有了更多自有版權了,并且基本是零成本。”張家興表示。
張家興透露,目前團隊也在跟一些在圖片數(shù)據(jù)上非常有優(yōu)勢的頭部公司商議,推出一些商業(yè)版的模型,能夠生成更高分辨率更高清晰度更寫真的照片。
03
——————————
中國AIGC產(chǎn)業(yè)的瓶頸和機會
AIGC被業(yè)界廣泛視為解放未來生產(chǎn)力的工具,與“降本增效”緊密掛鉤。在張家興看來,AIGC改變的更多是生產(chǎn)方式。“現(xiàn)在AI生成一張圖片基本上1秒鐘就夠了,就算需要人工篩選也只需要幾分鐘。但過去如果是純人工生成,可能以天為基數(shù)?!痹贏I的加持下,人在創(chuàng)作過程中更多是提供創(chuàng)意,以及篩選和挑選,顛覆了以往的生產(chǎn)方式。
張家興認為,“降本增效”并不是AIGC真正的潛力?!敖当驹鲂е皇侨魏我粋€技術剛出來時,大家都會關注的點。但時間久了,讓這個技術真正被大家廣泛使用,成為社會底層的支撐性技術,都是因為它支持了一些新的產(chǎn)品甚至新的產(chǎn)業(yè),這才是它真正的價值?!?/p>
張家興表示,中國不缺乏做產(chǎn)品創(chuàng)新的人,但現(xiàn)在缺少AIGC底層能力的提供者?!昂M獗热鏞pen AI和Stability AI兩家公司,對整個AIGC產(chǎn)業(yè)提供基礎設施。國內這方面目前比較欠缺,至今沒有這樣的一個商業(yè)公司出現(xiàn)?!?/p>
“這就造成一個問題,每個想做AIGC的公司從模型到產(chǎn)品都要考慮在內,但前期的資源往往有限,可能更多為了保證產(chǎn)品效果,在底層模型研發(fā)上投入不了那么多的精力,也不可能投入像Open AI和Stability AI那么大的資源,基本上是對模型進行一些微調,然后就上線了,這樣其實會存在大量問題?!睆埣遗d表示。
張家興透露,目前部分推出AIGC產(chǎn)品的公司已經(jīng)大體實現(xiàn)收支平衡,頭部產(chǎn)品已經(jīng)有很大的用戶體量和日調用量?!暗鋵嵾€需要有更多AIGC的產(chǎn)品和落地場景出現(xiàn),包括一些傳統(tǒng)場景,比如圖片搜索和圖庫,值得全部做一次升級。”
至于眼前的機會,張家興表示,明年最值得期待的是視頻和3D功能突破。“目前兩方面還處于初級階段,類似于兩年前的圖像生成。而人工視頻的制作成本要比圖片成本高,但對于AI來說區(qū)別不大,如果有AIGC技術在這些方面大幅度應用的話,會產(chǎn)生更大的商業(yè)價值?!?/p>
(記者:崔銘) (編輯:劉琰)
對話1000位行業(yè)領軍人物:安安訪談錄