商湯科技:“商量SenseChat 2.0”多個(gè)評(píng)測(cè)基準(zhǔn)綜合表現(xiàn)超ChatGPT
中證網(wǎng)訊(記者 王可)中國(guó)證券報(bào)記者6月22日從商湯科技獲悉,公司近日公布了自研中文語(yǔ)言大模型“商量SenseChat 2.0”在MMLU、AGIEval、C-Eval三個(gè)權(quán)威大語(yǔ)言模型評(píng)測(cè)基準(zhǔn)的成績(jī)。根據(jù)評(píng)測(cè)結(jié)果,“商量SenseChat 2.0”在三個(gè)測(cè)試集中表現(xiàn)均領(lǐng)先ChatGPT,部分已十分接近GPT4的水平。
MMLU是由美國(guó)加州大學(xué)伯克利分校、哥倫比亞大學(xué)、芝加哥大學(xué)及伊利諾伊大學(xué)厄巴納-香檳分校聯(lián)合打造的大規(guī)模多任務(wù)語(yǔ)言理解的評(píng)測(cè)基準(zhǔn),涵蓋了科學(xué)、技術(shù)、工程、數(shù)據(jù),人文、社會(huì)科學(xué)等領(lǐng)域的57個(gè)科目,難度從初級(jí)水平到高級(jí)專業(yè)水平,考驗(yàn)世界知識(shí)和解決問(wèn)題的能力。在該評(píng)測(cè)中,“商量SenseChat 2.0”綜合得分為68.6,遠(yuǎn)超GLM-130B(45.7分)的得分,同時(shí)還超過(guò)了ChatGPT(67.3分)、LLaMA-65B(63.5分)僅落后GPT-4(86.4分),位居第二。
AGIEval是由微軟研究院發(fā)布的,專門(mén)用于評(píng)估基礎(chǔ)模型在人類認(rèn)知和問(wèn)題解決相關(guān)任務(wù)中表現(xiàn)出的一般能力,從而實(shí)現(xiàn)模型智能和人類智能的對(duì)比。該基準(zhǔn)選取20 種面向普通人類考生的官方、公開(kāi)、高標(biāo)準(zhǔn)往常和資格考試,包括普通大學(xué)入學(xué)考試(中國(guó)高考和美國(guó)SAT 考試)、法學(xué)入學(xué)考試、數(shù)學(xué)競(jìng)賽、律師資格考試、國(guó)家公務(wù)員考試等。在該評(píng)測(cè)中,“商量SenseChat 2.0”測(cè)出49.91的分?jǐn)?shù),遙遙領(lǐng)先GLM-130B(34.2分)、LLaMMA-65B(34.0分),并再次超越ChatGPT(42.9分),僅次于GPT-4的56.4分。在其中的AGIEval(GK)評(píng)測(cè)子集中,“商量SenseChat 2.0”以58.5分全面領(lǐng)先,僅微弱差距落后GPT-4(58.8分)。
C-Eval是由上海交通大學(xué)、清華大學(xué)和愛(ài)丁堡大學(xué)合作構(gòu)建的面向中文語(yǔ)言模型的綜合性考試評(píng)測(cè)集,包含了13948個(gè)多項(xiàng)選擇題,涵蓋了52個(gè)不同的學(xué)科和四個(gè)難度級(jí)別。面對(duì)C-Eval評(píng)測(cè)基準(zhǔn),“商量SenseChat 2.0”拿到了66.1的分?jǐn)?shù),在參評(píng)的18個(gè)大模型中,僅次于GPT-4(68.7分),全面領(lǐng)先ChatGPT、Claude、Bloom、GLM-130B、LLaMA-65B等一眾海內(nèi)外大模型。其中,C-Eval(Hard)子評(píng)測(cè)集,是選擇了8個(gè)具有挑戰(zhàn)性的數(shù)據(jù)、物理和化學(xué)科目,進(jìn)一步考核大語(yǔ)言模型的推理能力,“商量SenseChat 2.0”也表現(xiàn)居于前列。
今年4月,商湯正式發(fā)布“商湯日日新SenseNova”大模型體系,以及自研中文語(yǔ)言大模型“商量SenseChat”。截至6月,全球范圍內(nèi)正式發(fā)布的大語(yǔ)言模型已超過(guò)40款,其中由中國(guó)廠商、高校、科研院所等發(fā)布的大語(yǔ)言模型近20款。目前“商量SenseChat 2.0”實(shí)現(xiàn)了對(duì)GPT-3.5超越,并且隨著商業(yè)化落地的推進(jìn),在眾多行業(yè)、場(chǎng)景中發(fā)揮令人滿意的作用。例如在需要大量文案工作的場(chǎng)景中,“商量SenseChat 2.0”可以協(xié)助處理各類文章、報(bào)告、信函、產(chǎn)品信息、IT信息等,進(jìn)行編輯、重寫(xiě)、總結(jié)、分類、提取信息、制作Q&A等,有效提高企業(yè)員工的生產(chǎn)效率。在客戶服務(wù)場(chǎng)景中,“商量SenseChat 2.0”還可以扮演許多不同的企業(yè)角色,如銀行客服、給孩子講故事的繪本老師等等,并進(jìn)行順暢的交流和互動(dòng),提升客戶體驗(yàn)。
此外,“商量SenseChat 2.0”還擁有廣泛的知識(shí)儲(chǔ)備,能夠結(jié)合企業(yè)自身所在行業(yè)的專有數(shù)據(jù),非常高效地打造滿足企業(yè)需要的高階知識(shí)庫(kù),幫助實(shí)現(xiàn)更智能化的知識(shí)庫(kù)管理!吧塘縎enseChat 2.0”還是高水平的AI代碼助手,能夠極大幫助提高開(kāi)發(fā)效率,實(shí)現(xiàn)新的二八定律,即80%的代碼由AI生成,20%則由人工生成。
商湯科技表示,截至目前,已有近千家企業(yè)客戶通過(guò)申請(qǐng),應(yīng)用和體驗(yàn)“商量SenseChat 2.0”超強(qiáng)的長(zhǎng)文本理解、邏輯推理、多輪對(duì)話、情感分析、內(nèi)容創(chuàng)作、代碼生成等綜合能力,并且“商量SenseChat 2.0”還在服務(wù)客戶過(guò)程中,持續(xù)實(shí)現(xiàn)著快速迭代和提升,以及知識(shí)的實(shí)時(shí)更新。