來源/東方IC
(資料圖)
近日,商湯科技公布了自研中文語言大模型“商量 2.0”在MMLU、AGIEval、C-Eval三個權(quán)威大語言模型評測基準的成績。根據(jù)評測結(jié)果,“商量2.0”在三個測試集中表現(xiàn)均領(lǐng)先ChatGPT,實現(xiàn)了我國語言大模型研究的重要突破。
截至目前,已有近千家企業(yè)客戶通過申請,應(yīng)用和體驗“商量2.0”的長文本理解、邏輯推理、多輪對話、情感分析、內(nèi)容創(chuàng)作、代碼生成等綜合能力,并且“商量2.0”還在服務(wù)客戶過程中,持續(xù)實現(xiàn)著快速迭代和提升,以及知識的實時更新。
圖說:各語言大模型在三個評測基準中的得分情況 采訪對象供圖(下同)
“商量2.0”綜合能力超ChatGPT
商湯科技公布的評測結(jié)果,選取了全球三大權(quán)威語言模型測評基準MMLU、AGIEval、C-Eval,結(jié)果顯示“商量2.0”在三個測試集中表現(xiàn)均領(lǐng)先ChatGPT,部分已十分接近GPT-4的水平。
圖說:圖中粗體表示結(jié)果最佳,下劃線表示結(jié)果第二
MMLU是由美國加州大學(xué)伯克利分校、哥倫比亞大學(xué)、芝加哥大學(xué)及伊利諾伊大學(xué)厄巴納-香檳分校聯(lián)合打造的大規(guī)模多任務(wù)語言理解的評測基準,涵蓋了科學(xué)、技術(shù)、工程、數(shù)據(jù),人文、社會科學(xué)等領(lǐng)域的57個科目,難度從初級水平到高級專業(yè)水平,考驗世界知識和解決問題的能力。在該評測中,“商量2.0”綜合得分為68.6,超過了ChatGPT(67.3分),落后GPT-4(86.4分)。
圖說:圖中粗體表示結(jié)果最佳,下劃線表示結(jié)果第二
AGIEval是由微軟研究院發(fā)布的,專門用于評估基礎(chǔ)模型在人類認知和問題解決相關(guān)任務(wù)中表現(xiàn)出的一般能力,從而實現(xiàn)模型智能和人類智能的對比。該基準選取20種面向普通人類考生的官方、公開、高標準往常和資格考試,包括普通大學(xué)入學(xué)考試(中國高考和美國SAT考試)、法學(xué)入學(xué)考試、數(shù)學(xué)競賽、律師資格考試、國家公務(wù)員考試等。在該評測中,“商量2.0”測出49.91的分數(shù),再次超越ChatGPT(42.9分),僅次于GPT-4的56.4分。在其中一項評測子集中,“商量2.0”以58.5分僅微弱差距落后GPT-4(58.8分)。
C-Eval是由上海交通大學(xué)、清華大學(xué)和愛丁堡大學(xué)合作構(gòu)建的面向中文語言模型的綜合性考試評測集,包含了13948個多項選擇題,涵蓋了52個不同的學(xué)科和四個難度級別。面對C-Eval評測基準,“商量2.0”拿到了66.1的分數(shù),在參評的18個大模型中,僅次于GPT-4(68.7分),全面領(lǐng)先ChatGPT、Claude、Bloom等一眾海內(nèi)外大模型。
技術(shù)創(chuàng)新+應(yīng)用落地 推動能力持續(xù)提升
今年4月,商湯正式發(fā)布“商湯日日新”大模型體系,以及自研中文語言大模型“商量”。截至6月,全球范圍內(nèi)正式發(fā)布的大語言模型已超過40款,其中由中國廠商、高校、科研院所等發(fā)布的大語言模型近20款。
在“百花齊放”的市場格局中,通過對比成績與表現(xiàn),可以了解各大預(yù)言模型的特點與差異,并且直觀地了解每個大語言模型當前的智能水平。目前“商量2.0”實現(xiàn)了對GPT-3.5超越,并且隨著商業(yè)化落地的推進,在眾多行業(yè)、場景中發(fā)揮令人滿意的作用。
例如在需要大量文案工作的場景中,“商量2.0”可以協(xié)助處理各類文章、報告、信函、產(chǎn)品信息、IT信息等,進行編輯、重寫、總結(jié)、分類、提取信息、制作Q&A等,有效提高企業(yè)員工的生產(chǎn)效率。在客戶服務(wù)場景中,“商量 2.0”還可以扮演許多不同的企業(yè)角色,如銀行客服、給孩子講故事的繪本老師等等,并進行順暢的交流和互動,提升客戶體驗。
此外,“商量2.0”還擁有廣泛的知識儲備,能夠結(jié)合企業(yè)自身所在行業(yè)的專有數(shù)據(jù),非常高效地打造滿足企業(yè)需要的高階知識庫,幫助實現(xiàn)更智能化的知識庫管理。“商量2.0”還是高水平的AI代碼助手,能夠極大幫助提高開發(fā)效率,實現(xiàn)新的“二八定律”——80%的代碼由AI生成,20%則由人工生成。
據(jù)悉,商湯大語言模型能力的提升源于更多高質(zhì)量中文數(shù)據(jù)的訓(xùn)練學(xué)習(xí),得益于團隊在底層大模型技術(shù)上的不斷創(chuàng)新。商湯團隊在訓(xùn)練階段采用自研的一系列增強復(fù)雜推理能力的方法,以及更加有效的反饋學(xué)習(xí)機制,讓大模型增強推理能力的同時,減輕了傳統(tǒng)大模型的幻覺問題。
新民晚報記者 郜陽
【延伸閱讀】商湯大模型體系“日日新”帶來什么驚喜?和ChatGPT之類比“會有一點差距,但可以很快追上。”
近日,第七屆中國汽車工程學(xué)會巴哈大賽(簡稱巴哈大賽)在湖北襄陽落下帷幕。該項賽事是繼中國大學(xué)生方程式汽車大賽(FSC)成功舉辦之后,中國
近年來,受國際能源價格大幅上漲影響,發(fā)揮壓艙石作用的新疆煤炭抓住契機,融入到全國統(tǒng)一大市場,有效緩解了國內(nèi)能源供應(yīng)偏緊形勢。隨之而
近日,備受矚目的東風(fēng)天龍GX上市發(fā)布會暨東風(fēng)天龍中國卡車駕駛員大賽(第6季)暨東風(fēng)陽光杯(第2屆)全國商用車維修技能競賽總決賽在車城十堰隆
隨著科技進步,新一輪產(chǎn)業(yè)變革蓬勃興起。數(shù)字化發(fā)展,是互聯(lián)網(wǎng)時代向大數(shù)據(jù)時代、后數(shù)據(jù)時代的必由之路,抓住數(shù)字經(jīng)濟的發(fā)展新機遇,是實現(xiàn)
5月19日,由國家郵政局、中華全國總工會指導(dǎo),中國郵政快遞報社主辦的第五屆中國夢·郵政情 尋找最美快遞員活動揭曉發(fā)布會在北京國際會議
明月出天山,蒼茫云海間。5月21日,耀世登場·擎鈴未來慶鈴五十鈴2023款ELF輕卡家族在克拉瑪依煥新上市。憑借智能、效能、全能的產(chǎn)品優(yōu)勢,
2023年5月15日,國產(chǎn)高端重卡東風(fēng)天龍GX全場景干線接力實測圓滿收官。歷時6天,途徑成都-恩施-潛山-上海-武漢-十堰,全場景驗證盆地、高原
5月10日,東風(fēng)天龍GX成都-上海-十堰全場景干線實測拉開序幕,本次實測的重頭戲,不僅在于東風(fēng)天龍GX的全方位展示,更是圍繞著百公里油耗的
近日,由國家互聯(lián)網(wǎng)信息辦公室、國家發(fā)展和改革委員會、工業(yè)和信息化部、國務(wù)院國有資產(chǎn)監(jiān)督管理委員會、福建省人民政府等共同主辦的第六屆
5月11日,峰捷(湖北)供應(yīng)鏈有限公司、東風(fēng)商用車有限公司與荊門中澤汽車有限公司在湖北十堰共同簽署了采購100臺東風(fēng)天龍牽引車的戰(zhàn)略合作協(xié)

速看:上半年甘肅省金融運行總體平穩(wěn)
記者從中國人民銀行蘭州中心支行獲悉,今年上半年,甘肅省金融運行總體

天天簡訊:仁懷水塘村小院議事搭起民
“今天主要是想了解大家對水塘村的發(fā)展,有些什么想法?特別是鄉(xiāng)村旅游

2023年度西安市社會信用體系建設(shè)典型
近日,“2023年度西安市社會信用體系建設(shè)典型案例”活動結(jié)果出爐。經(jīng)網(wǎng)

陜西在非煤礦山領(lǐng)域落實兩項機制遏制
為防范遏制非煤礦山事故,保障從業(yè)人員生命安全,近日,省應(yīng)急管理廳制

最高1億元生活獎補 貴安新區(qū)真金白
發(fā)布會現(xiàn)場。新華網(wǎng)盧志佳攝新華網(wǎng)貴陽6月20日電(盧志佳)“對具有引