精品国产鲁一鲁一区二区张丽_蜜桃视频一区_国产精品亚洲第五区在线 _亚洲中国最大av网站_57pao成人永久免费_欧美日韩国产中文精品字幕自在自线_日韩制服一区_91小视频在线_成人18在线_日韩福利电影在线

淘寧夏

教育

清華學霸與AI比做高考壓軸題，誰會贏？

發布時間：2025-05-28 17:49:50 文章來源：第一財經

2025文化強國建設高峰論壇構建中國哲學社會科學自主知識體系論壇27日在廣東深圳舉辦。來自有關黨政部門、高等院校、科研單位、智庫機構的負

去年，“9.11和9.9誰大？”這一簡單的數學題曾難倒了多家大模型。到了今年，大模型的理科能力提升如何？

今日網易有道發布了一則視頻，6位清華姚班學生與AI比賽做高考壓軸題。清華姚班為圖靈獎得主姚期智院士創辦，匯聚了數學、物理、信息學競賽金牌得主。

姚班學生和AI競速的兩道題分別為2023年高考數學全國一卷壓軸題和2021年高考物理江蘇卷壓軸題。姚班學生在10分鐘內完成了作答，僅有1位同學做錯了題目，AI答疑筆則在輸入確認后幾秒就開始輸出步驟，并答對了題目。

對于AI的回答，一位姚班學生認為AI做題思路與其一致，步驟更加清晰，相較于傳統的答案更有利于學生理解解題思路。

可以對比的是，去年高考結束后，有機構讓包括GPT-4o、豆包、文心4.0在內的9家大模型嘗試河南的高考卷，并以河南的分數線評判，最終有4家大模型在文科高考中達到河南的一本線，但沒有大模型的理科分數達到河南省一本線。

有道相關負責人對記者表示，今年以來AI進展迅速，尤其是DeepSeek-R1帶來了推理模型大爆發，而大模型推理能力和交互能力在教育場景的適配性非常高，能夠逐步解決個性化教學和答疑的需求，而且提供的指導和答疑質量越來越高，所以選擇與高考頂尖學霸進行同題測試，用一種直接明了的方式向大眾展示AI大模型能力的提升。

在題型選擇上，主要基于難度和認知度的考量，上述負責人表示，“因為大家對高考的難度都是有概念的，尤其是這種高難度的理科壓軸題，容易引起關注，也能直觀展示效果。”

上述人士透露，前段時間還做了北京最新高考二模(題庫數據里沒有的新題)的挑戰。AI答題后由老師進行批改，分數為697分(總分750分)，達到“清北”水平。“畢竟去年AI集體做24年高考題的時候理科幾乎全軍覆滅。”

過去一年時間，不少大模型公司將數學能力作為大模型的能力體現。OpenAI在介紹OpenAI o3-mini時表示，OpenAI o3?mini 的高推理能力在 FrontierMath 上的表現優于其前輩。在 FrontierMath 上，當被要求使用 Python 工具時，具有高推理能力的 o3?mini 首次嘗試即可解決超過 32% 的問題，其中包括超過 28% 的挑戰性 (T3) 問題。FrontierMath是由Epoch AI聯合60余位全世界的數學家共同推出了全新的數學基準，其原創的數學問題對于專業數學家而言仍需數小時甚至數日解決。不過，OpenAI公布的成績后續曾遭到質疑。

此前谷歌宣布推出了基于強化學習的數學推理系統 AlphaProof，以及幾何求解系統的改進版 AlphaGeometry 2。谷歌表示這兩款系統共同解決了2024年國際數學奧林匹克(IMO) 六道題目中的四道，首次達到了與銀牌得主相當的水平。

今年4月29日，阿里巴巴發布新一代通義千問模型Qwen3。據了解，在奧數水平的AIME25測評中，千問3斬獲81.5分，刷新開源紀錄。

艾媒咨詢發布的《2024年人工智能+教育行業發展研究報告》指出，2023至2027年在線教育市場的AI貢獻率預計從7%提升至16%左右。

關鍵詞：