百度:文心一言成國內(nèi)首款通過中國信息通信研究院推理能力測評大模型
中證報中證網(wǎng)訊(記者 董添)5月20日,百度AI Day活動在北京舉辦,百度集團副總裁吳甜、中國信息通信研究院人工智能研究所平臺與工程化部主任曹峰及文心一言用戶代表陳君航現(xiàn)場分享了文心大模型最新技術(shù)、全球大模型發(fā)展及大模型能力測評、文心一言使用體驗等?;顒蝇F(xiàn)場,中國信息通信研究院發(fā)布大模型推理能力評估結(jié)果。結(jié)果顯示,百度文心X1 Turbo在24項能力評估中,16項達(dá)5分、7項達(dá)4分、1項達(dá)3分,綜合評級獲當(dāng)前最高級“4+級”,成為國內(nèi)首款通過該測評的大模型。文心X1 Turbo邏輯推理、代碼推理、推理效果優(yōu)化等技術(shù)能力及工具支持度、安全可靠度等應(yīng)用能力均獲得滿分。
活動現(xiàn)場,吳甜對文心大模型最新版本的技術(shù)創(chuàng)新進行了系統(tǒng)性的講解。她介紹,文心大模型4.5是多模態(tài)基礎(chǔ)大模型,文心4.5 Turbo源自文心4.5,效果更好、成本更低;基于文心4.5 Turbo,文心X1升級到X1 Turbo,性能提升的同時,具備更先進的思維鏈,問答、創(chuàng)作、邏輯推理、工具調(diào)用和多模態(tài)能力進一步增強。
后訓(xùn)練方面,百度研制了自反饋增強的技術(shù)框架。在訓(xùn)練階段,通過融合偏好學(xué)習(xí)的強化學(xué)習(xí)技術(shù),實現(xiàn)多元統(tǒng)一獎勵機制,提升了對結(jié)果質(zhì)量判別的準(zhǔn)確率。通過離線偏好學(xué)習(xí)和在線強化學(xué)習(xí)統(tǒng)一優(yōu)化,進一步提升了數(shù)據(jù)利用效率和訓(xùn)練穩(wěn)定性,并增強了模型對高質(zhì)量結(jié)果的感知。
在深度思考方面,文心大模型最新版本突破了僅基于思維鏈優(yōu)化的范式,在思考路徑中結(jié)合工具調(diào)用,構(gòu)建了融合思考和行動的復(fù)合思維鏈,模型解決問題能力得到顯著提升,模型輸出結(jié)果思路清晰、邏輯嚴(yán)密,表達(dá)自然。同時,結(jié)合多元統(tǒng)一的獎勵機制,實現(xiàn)了思考和行動鏈的端到端優(yōu)化,大幅提升了跨領(lǐng)域的問題解決能力。
在數(shù)據(jù)方面,文心大模型最新版本打造了“數(shù)據(jù)挖掘與合成-數(shù)據(jù)分析與評估-模型能力反饋”的數(shù)據(jù)建設(shè)閉環(huán),為模型訓(xùn)練源源不斷地生產(chǎn)知識密度高、類型多樣、領(lǐng)域覆蓋廣的大規(guī)模數(shù)據(jù)。同時,數(shù)據(jù)建設(shè)流程具備良好的可擴展性,能夠輕松遷移到全新的數(shù)據(jù)類型,實現(xiàn)快速、高效的數(shù)據(jù)生產(chǎn)。
中國信息通信研究院人工智能研究所平臺與工程化部主任曹峰從全球大模型發(fā)展等多個行業(yè)視角在現(xiàn)場進行了趨勢解讀。他表示,2024年人工智能能力持續(xù)進化,在多任務(wù)語言理解、競賽級數(shù)學(xué)、博士級科學(xué)問題等之前具有挑戰(zhàn)性的基準(zhǔn)測試中超越了人類的表現(xiàn)。評估結(jié)果表明,文心X1 Turbo擅長結(jié)構(gòu)化的邏輯思考,并具備平衡模型能力與效率的優(yōu)化技術(shù),其有效的數(shù)據(jù)機制保障了模型的可信及可用程度,其推理服務(wù)能廣泛支持各類應(yīng)用。文心X1 Turbo強化推理泛化能力,拓寬工具鏈應(yīng)用生態(tài),加強安全機制建設(shè),構(gòu)筑可信應(yīng)用保障壁壘。