中證網(wǎng)
返回首頁

科大訊飛榮膺ECCV OOV-ST挑戰(zhàn)賽文字識別賽道冠軍

王珞 中國證券報·中證網(wǎng)

中證網(wǎng)訊(王珞)近日,在三大計算機視覺頂級會議之一的2022 ECCV(歐洲計算機視覺會議)上,科大訊飛榮膺2022 OOV-ST挑戰(zhàn)賽(The ECCV 2022 Challenge on Out of Vocabulary Scene Text Understanding )文字識別賽道冠軍,取得了OOV場景和綜合場景雙指標(biāo)第一的佳績。

與以往文本識別比賽不同,OOV-ST挑戰(zhàn)賽中測試集的詞語從未出現(xiàn)在訓(xùn)練集中,參賽的文本識別系統(tǒng)相當(dāng)于進行了“閉卷考試”,而且考的還是之前沒有學(xué)過的內(nèi)容,難度大大升級。此次比賽奪冠展現(xiàn)了科大訊飛在圖文識別領(lǐng)域上的技術(shù)實力,這也是科大訊飛連續(xù)第五年在圖文識別國際比賽上奪冠。

OOV-ST挑戰(zhàn)賽是由谷歌、亞馬遜和巴塞羅那自治大學(xué)共同舉辦的首個針對集外泛化問題的場景文字理解賽事,較全面地定義了面向集外字詞的比賽任務(wù),并提出了相應(yīng)的數(shù)據(jù)集。這就要求模型具備較高的集外場景泛化性。此次比賽吸引了包括字節(jié)跳動、好未來、NAVER/LINE、清華大學(xué)、東京大學(xué)等國內(nèi)外知名公司、機構(gòu)和高校參賽。

科大訊飛研究院所參與的文本識別賽道中,OOV-ST挑戰(zhàn)賽以魯棒性和泛化性為考察目標(biāo),重點要求參賽者方案具備對訓(xùn)練階段從未見過的“位置詞語詞匯”的識別能力,同時要求參賽者所提交的解決方案能夠兼顧集內(nèi)已知詞匯的識別效果,這就要求模型具備較高的集外場景泛化性。

人類能夠通過學(xué)習(xí)簡單樣本快速提升知識水平,并具備較好的遷移能力——例如人類通過學(xué)習(xí)漢字的筆畫和偏旁部首知識,就能完成對新漢字的辨認和轉(zhuǎn)寫。而這種能力是當(dāng)前神經(jīng)網(wǎng)絡(luò)模型的薄弱項,也是本次比賽的核心考察項。

為此,科大訊飛研究院提出了基于視覺語言自適應(yīng)權(quán)衡的VLADM(Vision-Language Adaptive Mutual Decoder)方案,在復(fù)雜場景上取得了集外詞59.61%、綜合指標(biāo)70.31%的句正確率效果,最終奪冠。此次比賽所涉及的文字識別能力和集外詞識別技術(shù),目前已經(jīng)在訊飛翻譯機、訊飛AI學(xué)習(xí)機等產(chǎn)品中落地應(yīng)用,為人們的工作、學(xué)習(xí)和生活提供了更多便利。

未來,訊飛研究院將在圖文識別領(lǐng)域的相關(guān)技術(shù)上持續(xù)發(fā)力,并結(jié)合實際落地應(yīng)用探索更多技術(shù)賦能場景,讓機器擁有更犀利的“眼睛”和智慧的“頭腦”。

中證網(wǎng)聲明:凡本網(wǎng)注明“來源:中國證券報·中證網(wǎng)”的所有作品,版權(quán)均屬于中國證券報、中證網(wǎng)。中國證券報·中證網(wǎng)與作品作者聯(lián)合聲明,任何組織未經(jīng)中國證券報、中證網(wǎng)以及作者書面授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。