更新時(shí)間:2025-07-17 10:14:34作者:佚名
上個(gè)月2025年研究生考試落幕之后,最新的考研數(shù)學(xué)試題便成為了檢驗(yàn)大語言模型,尤其是推理模型能力的重要平臺(tái),對(duì)它們的深度思維能力提出了挑戰(zhàn)。
業(yè)界普遍認(rèn)為,大型語言模型在處理文字任務(wù)方面表現(xiàn)出色,然而在數(shù)學(xué)領(lǐng)域的表現(xiàn)則不盡如人意。去年那場(chǎng)廣為人知的“9.9與9.11”大小比較之爭(zhēng),眾多知名模型如GPT-4o等均未能給出正確答案,直至深度推理模型問世,才從根本上解決了這一問題。
OpenAI 推出的 o1 模型在處理復(fù)雜及專業(yè)數(shù)理問題時(shí),展現(xiàn)出令人矚目的表現(xiàn)。隨著模型經(jīng)過一段時(shí)間的深思熟慮,其回答問題的能力和準(zhǔn)確性顯著增強(qiáng)。這種現(xiàn)象,即所謂的推理側(cè) Scaling Law,已成為持續(xù)推動(dòng)大模型能力進(jìn)步的核心動(dòng)力。在黃仁勛于CES 2025舉辦的最新演講中,他還將測(cè)試階段(亦即推理階段)的Scaling視為推動(dòng)大型模型進(jìn)步的三大發(fā)展趨勢(shì)之一。
觀察可知,在o1推出之后,我國眾多大型模型制造商亦紛紛推出各自的深度推理模型,且在某些特定任務(wù)中展現(xiàn)出卓越的成效。大致的時(shí)間線順序可能是這樣的:
眾人或許會(huì)感到好奇,這些高階的推理算法(特別是其在數(shù)學(xué)領(lǐng)域的推理能力)究竟達(dá)到了何種高度,究竟又有哪位能夠脫穎而出呢?在這種情況下,舉辦一場(chǎng)公正且規(guī)范的測(cè)試便顯得尤為重要。
測(cè)評(píng)團(tuán)隊(duì),即清華SuperBench大模型測(cè)評(píng)團(tuán)隊(duì),旨在全面衡量這些模型在數(shù)學(xué)推理領(lǐng)域的表現(xiàn),因而精心挑選了2025年考研數(shù)學(xué)(一、二、三)的題目,對(duì)上述深度推理模型進(jìn)行了細(xì)致的評(píng)估。此外,為了保障評(píng)測(cè)的完整性,評(píng)測(cè)范圍還涵蓋了各家的頂級(jí)基礎(chǔ)模型。
此次選擇的 13 個(gè)模型具體如下:
綜合評(píng)估各項(xiàng)數(shù)據(jù),OpenAI 的 GPT-o1模型在所有參賽模型中脫穎而出,以平均分?jǐn)?shù)領(lǐng)先,這一結(jié)果并不令人感到意外。緊隨其后的是智譜的 GLM-Zero-Preview,其三門數(shù)學(xué)的平均得分高達(dá)138.70,僅以不到三分的差距位居第二,榮登國產(chǎn)大型模型之首。而第三名的位置則被通義的 QwQ所占據(jù)。
測(cè)試方法
在本次評(píng)測(cè)活動(dòng)中,測(cè)評(píng)小組注意到并非所有模型都具備API接口,而且有些模型即便提供了API接口,當(dāng)輸出內(nèi)容的長(zhǎng)度超過既定限制時(shí),也會(huì)發(fā)生內(nèi)容被截?cái)嗟默F(xiàn)象。為了確保評(píng)測(cè)結(jié)果的公正性和精確度,測(cè)評(píng)小組決定統(tǒng)一利用各模型廠商提供的網(wǎng)頁版界面來進(jìn)行測(cè)試。
測(cè)試環(huán)節(jié)中2024年考研數(shù)學(xué)一答案,每道題目都單獨(dú)在一個(gè)對(duì)話窗口內(nèi)進(jìn)行,這樣做旨在最大限度地減少上下文信息對(duì)測(cè)試結(jié)果可能帶來的影響。
考慮到某些模型輸出的結(jié)果存在一定的波動(dòng)性,為了減少這種波動(dòng)對(duì)評(píng)分結(jié)果的影響,測(cè)評(píng)小組規(guī)定,只有當(dāng)某個(gè)模型在連續(xù)三次測(cè)試中至少有兩次給出正確答案時(shí),才會(huì)將其判定為正確響應(yīng)。
結(jié)果分析
接下來,我們將對(duì)本次測(cè)評(píng)結(jié)果進(jìn)行深入剖析,具體從測(cè)試總分、單張?jiān)嚲淼梅忠约吧疃人伎寄P团c基礎(chǔ)模型之間的對(duì)比這三個(gè)維度進(jìn)行詳盡闡述。
總分
測(cè)評(píng)團(tuán)隊(duì)對(duì)三張?jiān)嚲淼姆謹(jǐn)?shù)進(jìn)行了匯總,并據(jù)此計(jì)算出了總分平均值,然后依照分?jǐn)?shù)的多少進(jìn)行了排列。具體結(jié)果,請(qǐng)參照下方的圖表。
觀察圖表可知,GPT-o1 繼續(xù)占據(jù)首位,成為唯一得分超過140分的模型,與位列最后一名的GPT-4相比,其得分優(yōu)勢(shì)達(dá)到了70分。
處于第二等級(jí)(得分在130分及以上)的模型包括GLM-zero-preview和QwQ,它們分別取得了138.7分和137.0分的好成績(jī)。
DeepSeek-r1-lite、Kimi-k1、Tiangong-o1-preview、DeepSeek-v3 這些設(shè)備均位于第三等級(jí),其得分均超過120分。
觀察結(jié)果顯示,深度思考模型普遍能實(shí)現(xiàn)120分以上的成績(jī)。這一點(diǎn)充分體現(xiàn)了這類模型在處理數(shù)學(xué)難題上的卓越性能。
值得關(guān)注的是,去年(2023年)一度高居榜首的基礎(chǔ)模型GPT-4,在本輪測(cè)試中僅得到了70.7分,排名最后。這一成績(jī)反映出,在過去的這一年(2024年)里,語言模型在數(shù)學(xué)推理方面的提升十分顯著。
另一方面,即便在缺乏深度思考能力的輔助之下,僅依靠邏輯推理的能力,DeepSeek-v3 這一基礎(chǔ)模型也成功進(jìn)入了第三梯隊(duì)。這一現(xiàn)象表明,基礎(chǔ)模型與深度思考模型之間的能力差異并非絕對(duì)清晰。
單張?jiān)嚲矸治?/p>
為了更直觀地呈現(xiàn)大型模型在解答各類試卷時(shí)的能力水平,評(píng)估小組對(duì)每份試卷中錯(cuò)誤題目的分布狀況進(jìn)行了細(xì)致的剖析。
在數(shù)學(xué)一的評(píng)價(jià)環(huán)節(jié)中,GPT-o1、GLM-zero-preview、QwQ、DeepSeek-r1-lite 這四種模型的表現(xiàn)一致。經(jīng)過對(duì)錯(cuò)誤題目的深入分析,測(cè)評(píng)小組發(fā)現(xiàn)這些模型在第20題(分值為12分,主要考查曲面積分的計(jì)算)和第21題的第二部分(分值為6分,主要涉及特征向量的求解)均出現(xiàn)了失誤。
在數(shù)學(xué)二的測(cè)評(píng)過程中,不同模型的得分分布呈現(xiàn)出較大的差異。通過詳細(xì)的分析,我們注意到第3題、第5題以及第7題是眾多模型普遍出現(xiàn)錯(cuò)誤的部分。具體的錯(cuò)誤題目分布情況,請(qǐng)參考下方的圖表。
數(shù)學(xué)三評(píng)測(cè)數(shù)據(jù)表明,錯(cuò)誤率較高的區(qū)域集中在第14題、第15題、第16題以及第19題。具體錯(cuò)誤分布情況,請(qǐng)參考下方的圖表。
通過對(duì)各試卷中錯(cuò)誤題目的詳細(xì)分析,我們能夠明確地觀察到,在總共的66道題目中,GPT-o1(如陰影列所示)僅犯了3.5道錯(cuò)誤;而且,GPT-o1所犯的錯(cuò)誤,其他模型也普遍存在,這一現(xiàn)象表明GPT-o1在當(dāng)前階段仍然是深度推理領(lǐng)域的頂尖水平。
基礎(chǔ)模型 vs 深度思考模型
最終,測(cè)評(píng)團(tuán)隊(duì)致力于全面而深入地考察各模型制造商在提升深度思考能力方面所達(dá)成的進(jìn)展,他們細(xì)致地對(duì)比分析了相關(guān)的基礎(chǔ)模型以及深度思考模型。
需要指出的是,這種對(duì)比并不代表各個(gè)深度思考模型都是基于相應(yīng)的原始模型進(jìn)行改進(jìn)的,其主要意圖是直觀地展示不同廠商在提升模型整體性能方面所取得的進(jìn)展和成果。
相關(guān)對(duì)比結(jié)果如下圖所示:
經(jīng)過對(duì)比研究,OpenAI開發(fā)的深度學(xué)習(xí)模型GPT-o1在性能上相較于基礎(chǔ)版GPT-4o有了顯著進(jìn)步,增幅高達(dá)57.3分。緊隨其后的是阿里巴巴的Qwen模型和智譜AI的GLM模型,它們的提升幅度分別是47.0分和34.3分。
此外,深度探求與月球背面性能的提升并不顯著,這主要是因?yàn)樗鼈兊幕A(chǔ)模型分?jǐn)?shù)已經(jīng)相當(dāng)高。以深度探求為例,其基礎(chǔ)模型DeepSeek-v3的初始得分竟高達(dá)120.3分,在所有參評(píng)模型中排名第一。
在本次測(cè)試?yán)?strong>2024年考研數(shù)學(xué)一答案,測(cè)評(píng)小組挑選了表現(xiàn)最為出色的基礎(chǔ)模型DeepSeek-v3作為衡量標(biāo)準(zhǔn),隨后對(duì)各個(gè)廠商深度思考模型的性能進(jìn)步進(jìn)行了評(píng)估,具體的數(shù)據(jù)分布情況如下圖所展示:
觀察表明,OpenAI、智譜、阿里等公司對(duì)深度思考模型的性能進(jìn)行了顯著改進(jìn),與此同時(shí),DeepSeek-v3等模型在本次測(cè)試中的表現(xiàn)也大體相當(dāng)。
仔細(xì)審視這些測(cè)試結(jié)果,我們發(fā)現(xiàn):盡管 OpenAI 的 o1 在深度推理領(lǐng)域依舊保持領(lǐng)先地位,然而國產(chǎn)推理大型模型正逐步縮短與它的距離,智譜 GLM-zero-preview 和阿里 QwQ 在此次的成績(jī)中便充分體現(xiàn)了這一趨勢(shì)。