從“無到有”走向“有到優(yōu)” 國產(chǎn)視頻生成大模型漸入佳境
文生視頻大模型Sora誕生半年后,它的中國“挑戰(zhàn)者”列隊(duì)登場,爭奪下一張AI殺手級應(yīng)用的“船票”。過去一個月,4款國產(chǎn)視頻生成模型陸續(xù)上線、走向大眾。
與Sora僅釋放小樣、未開放使用不同,中國的視頻生成大模型發(fā)布即上線,便于使用者“拿來就用”。眼下,在應(yīng)用端,一批內(nèi)容創(chuàng)作者已初嘗“會打字就會生視頻”“生視頻不求人”的樂趣;在技術(shù)側(cè),還有一批孵化中的視頻生成模型正在路上。盡管國產(chǎn)工具還不具備一次性“分鐘級”的生成能力、無法實(shí)現(xiàn)比肩實(shí)拍的“無縫”“絲滑”,但視頻生成已解決了“有”的問題,逐步向“優(yōu)”進(jìn)化。
想象力“動”起來
最近,文生視頻賽道擠滿了強(qiáng)有力的中國選手。7月下旬,我國人工智能獨(dú)角獸智譜AI推出視頻生成模型“清影”、愛詩科技發(fā)布視頻生成產(chǎn)品PixVerse V2、生數(shù)科技上線視頻生成模型Vidu的同時,快手6月發(fā)布的“可靈AI”已積累百萬用戶。
“Sora還停留在實(shí)驗(yàn)室的小樣階段,國產(chǎn)視頻生成工具已密集上線,并向C端開放使用,令人振奮?!北本┐髮W(xué)深圳研究生院信息工程學(xué)院助理教授、博導(dǎo)袁粒說。
Sora的中國“挑戰(zhàn)者”有何本領(lǐng)?
清晨,大熊貓坐在湖邊彈吉他、兔子在餐廳里看報紙、袋鼠和金絲猴在一旁吃早餐,然后去動物城的運(yùn)動場上集合,觀看一年一度的自行車大賽……這部由可靈AI生成的動畫微電影,盡管時長只有62秒,卻表現(xiàn)出了對現(xiàn)實(shí)世界物理規(guī)律(反射定律、重力定律等)的理解與呈現(xiàn)能力,以及一定的想象力與故事的實(shí)現(xiàn)能力。
進(jìn)入“奧運(yùn)時間”,不少刷屏朋友圈的、可銜接不同場景和運(yùn)鏡的短片,也同樣出自國產(chǎn)視頻生成大模型之手。
“視頻生成,簡言之是通過生成式AI技術(shù),將文本、圖片等多模態(tài)輸入,轉(zhuǎn)化為視頻信號?!笨焓忠曈X生成和互動中心負(fù)責(zé)人萬鵬飛說,“與過去我們常見的相機(jī)拍攝、圖形渲染獲得視頻的方式不同,視頻生成的本質(zhì)是從目標(biāo)分布中采樣計(jì)算得到像素。這種方式能以更低的成本,達(dá)到更高的內(nèi)容自由度。”
進(jìn)入Vidu的視頻生成頁面,記者體驗(yàn)了“一鍵生成”的自由。上傳一張照片設(shè)置為“起始幀”或作為“參考的人物角色”,在對話框里輸入想要生成場景的文字描繪,點(diǎn)擊“生成”鍵,一條栩栩如生的短視頻就自動生成了。從進(jìn)入頁面到下載完畢,不足1分鐘。
一名技術(shù)負(fù)責(zé)人告訴記者一個“生成秘籍”:“試試‘鏡頭語言+建立場景+細(xì)節(jié)描述’的提示詞公式,不出5次就能獲得想要的視頻內(nèi)容。”比如,在對話框中輸入“寫實(shí)風(fēng)格,近距離,老虎伏在地上,身體微微起伏”的文本。1分鐘后,一段視頻出現(xiàn)在屏幕上:微風(fēng)拂過的草地上,老虎的身體隨呼吸起伏,它的毛發(fā)、胡須隨風(fēng)而動,甚至能“以假亂真”。
視頻生成技術(shù)的快速迭代,建立在對生成內(nèi)容效果的精準(zhǔn)評價之上。如何區(qū)分視頻生成模型性能的優(yōu)劣?“一看可控性,即生成內(nèi)容與輸入文本的對應(yīng)程度;二看穩(wěn)定性、一致性;三看合理性,即生成內(nèi)容是否合乎物理規(guī)律;四看風(fēng)格、審美、創(chuàng)意;最后一點(diǎn),看生成的實(shí)時性?!毕愀鄞髮W(xué)計(jì)算機(jī)系教授、歐洲科學(xué)院外籍院士徐東這樣歸納。
成本降下去 速度提上來
國外網(wǎng)友已經(jīng)用行動表達(dá)了對中國自研視頻生成模型的贊許,不少Twitter賬號發(fā)布的文字已經(jīng)配上了可靈AI、清影AI生成的視頻。
“坦白說,現(xiàn)在技術(shù)還沒有到成熟的階段,視頻生成模型的技術(shù)天花板高,可以提升的空間大。但是,我們看到了影視、動畫、廣告、游戲行業(yè)的痛點(diǎn):制作周期長、制作成本高,而這是技術(shù)可以努力解決的?!鄙鷶?shù)科技聯(lián)合創(chuàng)始人、首席執(zhí)行官唐家渝告訴記者。
一項(xiàng)技術(shù)想要成為“剛需”,須在增強(qiáng)可用性、可控性的前提下降低成本。作為直接拉低創(chuàng)作與制作門檻的技術(shù),視頻生成模型的出現(xiàn),讓影視動畫從業(yè)者看到了“小團(tuán)隊(duì)制作動畫”“小成本內(nèi)容創(chuàng)作”的春天。
“創(chuàng)作AIGC(生成式人工智能)動畫短片是一次有趣的經(jīng)歷。我們先是有了一個創(chuàng)意,把它畫成故事版,然后用AI生成圖像,再用Vidu把圖像生成了視頻?!北本╇娪肮?jié)AIGC短片單元最佳影片得主、Ainimate Lab AI負(fù)責(zé)人陳劉芳告訴記者。
視頻生成,將讓科幻、奇幻、動畫不再是大廠才敢玩的“燒錢游戲”。陳劉芳說,用上Vidu之后,制作周期與制作成本的降低堪稱顯著。
“拿動畫短片《一路向南》來說,創(chuàng)作團(tuán)隊(duì)僅由三人構(gòu)成:一名導(dǎo)演、一名故事版藝術(shù)家和一名AIGC技術(shù)應(yīng)用專家。而傳統(tǒng)流程需要20人,包含導(dǎo)演、故事版、美術(shù)、建模、材質(zhì)、燈光、渲染等不同‘工種’,周期在一個月左右。這樣算下來,成本降低了90%以上?!标悇⒎颊f,當(dāng)然,目前視頻生成技術(shù)的精致程度還不夠,約為傳統(tǒng)動畫性能的三分之一。
然而,更低的成本、更高的效率,已讓傳統(tǒng)的影視、動畫、游戲從業(yè)者感受到技術(shù)顛覆前夜的凜冽。“‘人人成為設(shè)計(jì)師’‘人人成為導(dǎo)演’的時代將會到來,就像當(dāng)年進(jìn)入‘人人擁有麥克風(fēng)’的時代?!敝亲VAI首席執(zhí)行官張鵬說。
“這對于動畫行業(yè)而言,是挑戰(zhàn),也是機(jī)遇。比如一名武林高手,哪怕用最簡單的武器、最普通的招式也會威力十足,核心在于他的內(nèi)功強(qiáng)大。對于動畫行業(yè)而言,‘招式’好比新技術(shù),‘內(nèi)功’則是創(chuàng)意、是視聽表達(dá)、是對審美的品控判斷?!敝袊鴤髅酱髮W(xué)動畫與數(shù)字藝術(shù)學(xué)院教授、動畫系主任艾勝英說。
技術(shù)固然帶來了性價比更高的工具,但也凸顯了創(chuàng)意的關(guān)鍵作用?!爱?dāng)影視、動畫、游戲的制作環(huán)節(jié)投入占比大幅降低后,比拼的就更加是創(chuàng)意?!标悇⒎颊f。
“煉”一個殺手級應(yīng)用
大語言模型敲開生成式AI的大門后,視頻作為圖像模態(tài)的再擴(kuò)展,將AIGC的技術(shù)推向高潮,也讓AIGC的應(yīng)用離大眾越來越近。
當(dāng)前,全球視頻生成的技術(shù)路線主要有兩種:一種是擴(kuò)散模型,這其中又分為兩類,一類是基于卷積神經(jīng)網(wǎng)絡(luò)的擴(kuò)散模型,如Meta的Emu Video、騰訊等推出的VideoCrafter;另一類是基于Transformer架構(gòu)的擴(kuò)散模型,如生數(shù)科技的Vidu、OpenAI的Sora、快手的可靈AI等。第二種是自回歸路線,如谷歌的VideoPoet、Phenaki等。
“國內(nèi)視頻生成的主流選擇是基于Transformer架構(gòu)的擴(kuò)散模型,這一架構(gòu)能使模型在處理語言、計(jì)算機(jī)視覺、圖像生成等領(lǐng)域表現(xiàn)出擴(kuò)展能力,遵從‘規(guī)模定律’?!毙鞏|說。
這一選擇也意味著,更大的算力、更高的質(zhì)量與更大規(guī)模的數(shù)據(jù),以及復(fù)雜的算法。
“首當(dāng)其沖的是算法。視頻在圖像的基礎(chǔ)上增加了時間維度,算法的復(fù)雜程度會指數(shù)級增長?!毙鞏|說,數(shù)據(jù)、算力一定的條件下,模型性能關(guān)鍵在于算法的能力,取決于算法人才水平的高低。
其次,最為缺乏的是數(shù)據(jù)?!耙曨l生成強(qiáng)依賴于數(shù)據(jù)。與文本數(shù)據(jù)相比,視頻數(shù)據(jù)的積累難度更大。數(shù)據(jù)的質(zhì)量提升,不僅包括視頻的解析度、風(fēng)格、分鏡、組合、連續(xù)性等,還包括數(shù)據(jù)的清洗、篩選、處理。”張鵬說。
視頻生成模型更是“吞卡巨獸”。從Sora的實(shí)踐來看,持續(xù)提高模型的數(shù)據(jù)量、參數(shù)規(guī)模,迄今依然是AIGC進(jìn)化的核心。中信證券測算,一個60幀的視頻(約6至8秒)大約需要6萬個Patches(補(bǔ)片),如果去噪步數(shù)是20的話,相當(dāng)于生成120萬個Tokens(詞元)。考慮到擴(kuò)散模型在實(shí)際使用中需多次生成,實(shí)際計(jì)算量會遠(yuǎn)超120萬個Tokens(詞元)。
“大模型參數(shù)正以每年十倍的速度增長。不論對科技企業(yè)還是研究機(jī)構(gòu)而言,如何持續(xù)訓(xùn)練高性能的模型,依然是巨大挑戰(zhàn)。但與此同時,C端的‘殺手級應(yīng)用’讓人充滿期待。從創(chuàng)意的生成,到圖片、音樂、視頻的制作,AI都將有大施拳腳之地。未來,視頻制作也許就像今天做PPT一樣簡單便捷。”北京智源人工智能研究院院長王仲遠(yuǎn)說。(記者 張漫子)