中證網(wǎng)
返回首頁(yè)

超長(zhǎng)文本是AI大模型的能力突破口嗎?

劉怡鶴 上海證券報(bào)

  近日,能“一口氣讀完20萬(wàn)字小說(shuō)”的AI大模型應(yīng)用Kimi再次為國(guó)內(nèi)AI產(chǎn)業(yè)添了一把火。業(yè)內(nèi)認(rèn)為,國(guó)產(chǎn)大模型能力提升或成今年國(guó)內(nèi)AI領(lǐng)域最核心的主線。超長(zhǎng)上下文是主要突破口嗎?大模型還將如何提升能力?

  在3月24日舉行的2024全球開(kāi)發(fā)者先鋒大會(huì)(2024 GDC)大模型前沿論壇上,阿里通義、騰訊混元、稀宇科技MiniMax ABAB、商湯商量、書(shū)生·浦語(yǔ)五個(gè)大模型的技術(shù)負(fù)責(zé)人罕見(jiàn)“同框”, 共同探討未來(lái)大模型的技術(shù)演進(jìn)方向。

  超長(zhǎng)上下文成國(guó)產(chǎn)大模型新競(jìng)逐焦點(diǎn)

  3月18日,月之暗面公司宣布Kimi智能助手啟動(dòng)200萬(wàn)字無(wú)損上下文內(nèi)測(cè)。2023年10月,Kimi初次亮相時(shí)其處理能力還只有20萬(wàn)字。也就是說(shuō),Kimi只用了不到半年,就將上下文處理能力提升了一個(gè)數(shù)量級(jí)。

  月之暗面介紹稱,大模型無(wú)損上下文長(zhǎng)度的數(shù)量級(jí)提升,能進(jìn)一步打開(kāi)對(duì)AI應(yīng)用場(chǎng)景的想象力,包括完整代碼庫(kù)的分析理解、可以自主幫人類完成多步驟復(fù)雜任務(wù)的智能體、不會(huì)遺忘關(guān)鍵信息的終身助理、真正統(tǒng)一架構(gòu)的多模態(tài)模型等。

  消息發(fā)布后,Kimi訪問(wèn)量激增,一度無(wú)法正常使用。連日來(lái),Kimi還帶“紅”一眾A股“Kimi概念股”。以超長(zhǎng)上下文處理能力為突破口,Kimi成為國(guó)內(nèi)出現(xiàn)“百模大戰(zhàn)”以來(lái)為數(shù)不多的“破圈者”。

  Kimi迅速走紅后,阿里宣布“通義千問(wèn)”將向所有人免費(fèi)開(kāi)放1000萬(wàn)字的長(zhǎng)文檔處理功能,可以幫助用戶快速讀研報(bào)、分析財(cái)報(bào)、讀科研論文、研判案情、讀醫(yī)療報(bào)告、解讀法律條文、分析考試成績(jī)、總結(jié)深度文章。360智腦也宣布正式內(nèi)測(cè)500萬(wàn)字長(zhǎng)文本處理功能,該功能將入駐360AI瀏覽器。

  事實(shí)上,從2023年下半年開(kāi)始,大模型支持的上下文長(zhǎng)度就快速增長(zhǎng),從早期GPT-3的2K(存儲(chǔ)容量單位),到今年3月提升到1M。

  “更長(zhǎng)的上下文意味著什么,是我們需要思考的?!鄙虾H斯ぶ悄軐?shí)驗(yàn)室首席科學(xué)家林達(dá)華介紹說(shuō),2K的上下文能力支持日常聊天、知識(shí)問(wèn)答、短文理解;32K支持?jǐn)M人對(duì)話、長(zhǎng)文分析、代碼解釋及編寫(xiě);100K支持處理長(zhǎng)報(bào)告及短篇小說(shuō)、智能體長(zhǎng)時(shí)間交互、簡(jiǎn)單的軟件及網(wǎng)站構(gòu)建;1M支持處理長(zhǎng)篇小說(shuō)、直接注入小型知識(shí)庫(kù)、項(xiàng)目級(jí)代碼分析與構(gòu)建。

  長(zhǎng)文本能力仍存局限性

  林達(dá)華認(rèn)為,直接使用上下文面臨兩個(gè)基本問(wèn)題:一是超長(zhǎng)上下文的推理計(jì)算代價(jià)高昂;二是上下文本身對(duì)信息不會(huì)進(jìn)行壓縮,不能直接捕捉其中的深層知識(shí)和規(guī)律。

  上海人工智能實(shí)驗(yàn)室青年科學(xué)家陳愷認(rèn)為,目前業(yè)內(nèi)對(duì)于長(zhǎng)文本的評(píng)測(cè)方式是“大海撈針”,也就是從超長(zhǎng)文本中找出一個(gè)信息,很多模型在這樣的測(cè)試中能做到接近100%的準(zhǔn)確率。

  陳愷說(shuō):“但如果把模型換到更接近真實(shí)的使用場(chǎng)景里,需要模型找一些碎片化信息并把它們聯(lián)系起來(lái),模型的能力和準(zhǔn)確率會(huì)大幅下降。這和其他模型的應(yīng)用能力類似,業(yè)內(nèi)要繼續(xù)關(guān)注模型的泛化性和實(shí)際應(yīng)用能力?!?/p>

  此外,業(yè)內(nèi)也有聲音質(zhì)疑超長(zhǎng)上下文的技術(shù)水平和價(jià)值。月之暗面方面稱,公司為了實(shí)現(xiàn)更好的長(zhǎng)窗口無(wú)損壓縮性能,研發(fā)和技術(shù)團(tuán)隊(duì)從模型預(yù)訓(xùn)練到對(duì)齊、推理環(huán)節(jié)均進(jìn)行了原生的重新設(shè)計(jì)和開(kāi)發(fā),不走“滑動(dòng)窗口”“降采樣”等技術(shù)捷徑,攻克了很多底層技術(shù)難點(diǎn)。

  達(dá)觀數(shù)據(jù)副總裁王文廣接受上海證券報(bào)記者采訪表示:“從創(chuàng)新點(diǎn)來(lái)看,Kimi顯示出了其在無(wú)損閱讀方面的巨大潛力,超長(zhǎng)文本上下文的輸入為內(nèi)容創(chuàng)作和整理提供了技術(shù)基礎(chǔ)。但從技術(shù)本身來(lái)說(shuō),這只是個(gè)噱頭,既沒(méi)有對(duì)模型能力提升帶來(lái)什么幫助,本身也沒(méi)什么難度。”

  達(dá)觀數(shù)據(jù)是專注智能文本處理的國(guó)家級(jí)專精特新“小巨人”企業(yè)。2023年7月,達(dá)觀數(shù)據(jù)對(duì)外發(fā)布“曹植”大語(yǔ)言模型應(yīng)用公測(cè)版,“曹植”具有長(zhǎng)文本、多語(yǔ)言、垂直化三大特點(diǎn)。

  王文廣說(shuō):“從Kimi的走紅來(lái)看,接下來(lái)‘百模大戰(zhàn)’會(huì)更加喧囂,很快會(huì)有大模型廠商推出具有千萬(wàn)字甚至上億字處理能力的模型。未來(lái),大模型領(lǐng)域可能還會(huì)出現(xiàn)有噱頭、技術(shù)難度不高的宣傳點(diǎn)。但真正的產(chǎn)業(yè)應(yīng)用,還是要靜下心來(lái),一步一個(gè)腳印提升模型能力,一點(diǎn)一滴來(lái)解決產(chǎn)業(yè)上的問(wèn)題?!?/p>

  五大模型“主創(chuàng)”共論技術(shù)演進(jìn)方向

  除了上下文長(zhǎng)度,國(guó)產(chǎn)大模型還有哪些能力提升路徑?下一步如何更大限度地發(fā)揮“?!绷??

  阿里通義算法負(fù)責(zé)人周暢認(rèn)為,合成數(shù)據(jù)會(huì)在未來(lái)大模型訓(xùn)練中扮演更重要的角色。合成數(shù)據(jù)是一種模仿真實(shí)世界數(shù)據(jù)的非人工創(chuàng)建的數(shù)據(jù)。

  “通過(guò)使用合成數(shù)據(jù),語(yǔ)言模型和多模態(tài)模型有望僅靠‘自己’便獲得能力提升。升級(jí)數(shù)據(jù)處理能力將是提升模型研發(fā)水平的重要方向之一?!敝軙痴f(shuō)。

  對(duì)于如何讓模型本身深度參與迭代,陳愷表示,參照研究人員研發(fā)中需具備的能力,如果模型具備較強(qiáng)的數(shù)學(xué)能力、編程能力和頭腦風(fēng)暴能力,并很好地將幾種能力結(jié)合起來(lái),就能向“自我提升”的臨界點(diǎn)邁進(jìn)。

  騰訊混元大模型算法負(fù)責(zé)人康戰(zhàn)輝提到,目前,頭部廠商的模型架構(gòu)都在轉(zhuǎn)向混合專家模型(Mixture of Experts,MoE)?;旌蠈<夷P图磳⒋笮湍P筒鸱譃槎鄠€(gè)較小的專家模型,每個(gè)專家模型負(fù)責(zé)處理特定的任務(wù)或數(shù)據(jù)子集。

  在康戰(zhàn)輝看來(lái),未來(lái),參數(shù)量較小的模型可能在應(yīng)用端表現(xiàn)出更高效率和“性價(jià)比”,全模態(tài)輸入輸出的大模型將是下一階段研究目標(biāo)。

  大模型的技術(shù)演進(jìn)一方面旨在進(jìn)一步提升能力,另一個(gè)重要方向是如何在現(xiàn)實(shí)場(chǎng)景中更好用。

  稀宇科技技術(shù)副總裁安德森認(rèn)為,人完成各種各樣的工作時(shí),并不是僅靠自己的大腦,而是靠大腦加上各種外部的工具。所以,大模型在落地應(yīng)用的時(shí)候也要考慮把大模型和其他工具,包括其他模型結(jié)合在一起,使其更加便利。

  商湯科技大裝置執(zhí)行總監(jiān)成功表示,大模型的基礎(chǔ)能力已在很多場(chǎng)景落地,但在實(shí)踐中,模型的推理能力,包括規(guī)劃執(zhí)行能力等仍需重點(diǎn)突破。同時(shí),他強(qiáng)調(diào)關(guān)注效率和成本,模型能以更低成本、更快觸達(dá)應(yīng)用始終是技術(shù)發(fā)展的重要目標(biāo)。

中證網(wǎng)聲明:凡本網(wǎng)注明“來(lái)源:中國(guó)證券報(bào)·中證網(wǎng)”的所有作品,版權(quán)均屬于中國(guó)證券報(bào)、中證網(wǎng)。中國(guó)證券報(bào)·中證網(wǎng)與作品作者聯(lián)合聲明,任何組織未經(jīng)中國(guó)證券報(bào)、中證網(wǎng)以及作者書(shū)面授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。