中科院自動(dòng)化所發(fā)布通用AI平臺(tái) 可實(shí)現(xiàn)圖文音“無縫轉(zhuǎn)換”
新華社北京7月12日電 從檢索圖像、描述視頻,到吟詩作賦、續(xù)寫文章,再到識(shí)別語音、雙語翻譯,虛擬人“小初”日前亮相2021世界人工智能大會(huì),展示了圖、文、音三種模態(tài)的智能轉(zhuǎn)換和生成。
“小初”具備這樣的能力,得益于一個(gè)名為“紫東太初”的跨模態(tài)通用人工智能平臺(tái)。該平臺(tái)由中國科學(xué)院自動(dòng)化研究所研發(fā),基于國產(chǎn)化基礎(chǔ)軟硬件,僅采用一個(gè)大模型,即可“鍛煉”人工智能在視覺、文本、語音多個(gè)場景的理解能力。
中科院自動(dòng)化所所長徐波介紹,“大數(shù)據(jù)+大模型+多模態(tài)”將改變當(dāng)前單一模型對(duì)應(yīng)單一任務(wù)的人工智能研發(fā)范式,多模態(tài)大模型將成為不同領(lǐng)域的共性平臺(tái)技術(shù),是邁向通用人工智能的重要路徑探索。
“‘紫東太初’實(shí)現(xiàn)了圖、文、音三種模態(tài)的統(tǒng)一表達(dá),以圖生音,以音生圖,將開拓AI在視頻配音、語音播報(bào)、標(biāo)題摘要、海報(bào)創(chuàng)作等更多元場景的應(yīng)用!毙觳ㄕf。
據(jù)了解,中科院自動(dòng)化所構(gòu)建了中文預(yù)訓(xùn)練模型、語音預(yù)訓(xùn)練模型、視覺預(yù)訓(xùn)練模型,并通過跨模態(tài)語義關(guān)聯(lián),構(gòu)建了三模態(tài)預(yù)訓(xùn)練大模型。