《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 人工智能 > 業(yè)界動(dòng)態(tài) > 谷歌Gemini Deep Think AI獲官方認(rèn)證奧數(shù)金牌

谷歌Gemini Deep Think AI獲官方認(rèn)證奧數(shù)金牌

人類頂級(jí)的智力高地失守!
2025-07-22
來源:網(wǎng)易科技
關(guān)鍵詞: Google DeepMind AI OpenAI

7月22日消息,AI霸權(quán)之爭已達(dá)到新的頂峰,Google DeepMindOpenAI現(xiàn)在都聲稱,其模型可以征服國際數(shù)學(xué)奧林匹克競賽(IMO),這堪稱人類最艱難的智力挑戰(zhàn)之一。

美國時(shí)間周一,谷歌宣布其Gemini Deep Think AI在2025年IMO比賽中獲得了官方認(rèn)證的金牌。而在幾天前,其競爭對(duì)手OpenAI也宣布,其模型在同樣的比賽中獲得了相同的頂級(jí)分?jǐn)?shù),但OpenAI的成績尚未經(jīng)過正式認(rèn)證。

這一突破標(biāo)志著AI推理能力的一次巨大飛躍,證明了通用型AI模型能夠在解決復(fù)雜數(shù)學(xué)問題時(shí)達(dá)到人類頂尖水平。與此同時(shí),這一進(jìn)展也進(jìn)一步加劇了兩大AI巨頭之間的競爭。

AI挑戰(zhàn)人類智力巔峰

國際數(shù)學(xué)奧林匹克(IMO)是全球最具聲望的青少年數(shù)學(xué)競賽,始于1959年,每年舉辦一次。每個(gè)參賽國派出六名頂尖中學(xué)生數(shù)學(xué)選手,他們需解答六個(gè)在代數(shù)、組合學(xué)、幾何學(xué)和數(shù)論等領(lǐng)域極其復(fù)雜的問題。其中,約8%的參賽者將獲得一枚聲望卓著的金牌。

近年來,IMO逐漸成為了AI系統(tǒng)的一個(gè)重要挑戰(zhàn)平臺(tái),用以測(cè)試AI在數(shù)學(xué)問題解決和推理能力上的最新進(jìn)展。去年,Google DeepMind的AlphaProof和AlphaGeometry 2聯(lián)合系統(tǒng)曾達(dá)到銀牌水平,解決了四個(gè)問題并獲得28分。這一突破依賴于專門的形式化語言,展示了AI在接近人類頂級(jí)數(shù)學(xué)推理能力方面的進(jìn)展。

今年,Google DeepMind的Gemini模型提交的結(jié)果首次經(jīng)過IMO協(xié)調(diào)員的官方評(píng)分和認(rèn)證,評(píng)分標(biāo)準(zhǔn)與學(xué)生選手一致。在肯定今年學(xué)生選手所取得的顯著成就之余,谷歌也分享了Gemini在此次比賽中的突破性表現(xiàn)。

從銀牌到金牌:AI推理的飛躍

Gemini Deep Think的高級(jí)版本在2025年IMO中表現(xiàn)出色,完美解決了六個(gè)極難問題中的五個(gè),獲得了總分35分,達(dá)到了金牌水平。這些解決方案已經(jīng)在線公開,任何人都可以在線查看并驗(yàn)證其正確性。

IMO主席格雷戈?duì)枴ざ嗬{爾(Gregor Dolinar)教授表示:“我們可以確認(rèn),Google DeepMind已經(jīng)達(dá)到了人們非常期待的里程碑,在滿分42分中獲得了35分——這是一個(gè)金牌分?jǐn)?shù)。他們的解決方案在許多方面都令人驚嘆。IMO的評(píng)分員發(fā)現(xiàn)它們清晰、精確,且大多數(shù)都易于理解。”

與去年的成績相比,谷歌今年的成就具有里程碑意義。2024年,谷歌的AlphaGeometry和AlphaProof系統(tǒng)雖然達(dá)到了銀牌標(biāo)準(zhǔn),但當(dāng)時(shí)它們依賴于專家首先將問題從自然語言轉(zhuǎn)化為專用的領(lǐng)域語言(如Lean),而證明過程則需要反向操作,整個(gè)過程也需要兩到三天的計(jì)算時(shí)間。

1.png

今年,Gemini模型的一個(gè)關(guān)鍵創(chuàng)新是能夠全程使用自然語言進(jìn)行操作,直接從官方的題目描述中生成嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)證明。這一切都在嚴(yán)格的4.5小時(shí)比賽時(shí)間限制內(nèi)完成。

“批量制造”真正的AI數(shù)學(xué)家?

OpenAI與谷歌都將最近在IMO上取得的成就視為通用AI的重要?jiǎng)倮penAI研究員諾姆·布朗(Noam Brown)在社交媒體上表示:“恭喜Google DeepMind團(tuán)隊(duì)在IMO上取得的成績!我認(rèn)為他們的成功再次突顯了AI進(jìn)步的速度。雖然他們的方法與我們有所不同,但這正顯示了AI研究領(lǐng)域可以探索的多樣化方向。這不僅是一個(gè)針對(duì)IMO的專門模型,而是一個(gè)融合了新型實(shí)驗(yàn)性通用技術(shù)的推理型大語言模型。”

布朗的觀點(diǎn)得到了OpenAI同事們的認(rèn)可。這表明,谷歌和OpenAI的基礎(chǔ)模型不僅僅是針對(duì)數(shù)學(xué)問題的狹義專家,更具備廣泛的能力,能夠應(yīng)對(duì)多種復(fù)雜任務(wù)。

OpenAI選擇自行公布成績,凸顯了在“公司內(nèi)部面臨挑戰(zhàn)的背景下,急于展現(xiàn)領(lǐng)導(dǎo)力”的巨大壓力。OpenAI首席執(zhí)行官山姆·奧特曼(Sam Altman)也提到了這一成就的重要性:“當(dāng)我們剛開始OpenAI時(shí),這(指在IMO奪金)一直是一個(gè)夢(mèng)想,但那個(gè)時(shí)候我們并不覺得它能夠?qū)崿F(xiàn)。”此次成功有力地反擊了關(guān)于OpenAI正失去競爭力的言論。

而谷歌的系統(tǒng)則依賴于其新推出的Gemini Deep Think架構(gòu),這是一種增強(qiáng)型推理模式,專門用于處理復(fù)雜問題。它融合了谷歌最新的研究技術(shù),包括“并行思維”,這種設(shè)置使模型能夠在給出最終答案之前,同時(shí)探索并結(jié)合多種可能的解決方案,而不是追求單一的、線性的思維鏈。

為了最大限度地發(fā)揮Deep Think的推理能力,谷歌還引入了最新的強(qiáng)化學(xué)習(xí)技術(shù),使其能利用更多的多步驟推理、問題解決和定理證明的數(shù)據(jù)來進(jìn)行學(xué)習(xí)。此外,谷歌為Gemini提供了一個(gè)經(jīng)過精心篩選的高質(zhì)量數(shù)學(xué)問題解決方案語料庫,并在其指令中添加了如何高效解決IMO問題的通用提示和技巧。

谷歌計(jì)劃將這一版本的Deep Think模型提供給一批受信任的測(cè)試人員,包括數(shù)學(xué)家,之后再向Google AI Ultra訂閱者推出。

AI與數(shù)學(xué)的未來

盡管取得了突破,但AI推理技術(shù)目前仍處于實(shí)驗(yàn)階段。OpenAI研究員亞歷山大·韋(Alexander Wei)表示:“這一成就攻克了AI領(lǐng)域長期以來的一個(gè)重大挑戰(zhàn),我很高興地分享OpenAI最新的實(shí)驗(yàn)性推理型大語言模型已經(jīng)在全球最具聲望的數(shù)學(xué)競賽中達(dá)到了金牌水平。”

Google DeepMind的高級(jí)研究科學(xué)家Thang Luong對(duì)未來充滿信心:“我們非常有信心,很快就能把模型交到我們所信任的測(cè)試人員手中,尤其是數(shù)學(xué)家,幫助他們解決更復(fù)雜的問題,之后再推出給更廣泛的用戶群體。”

Google DeepMind與數(shù)學(xué)界的合作正在持續(xù)進(jìn)行,但AI為數(shù)學(xué)貢獻(xiàn)的潛力仍處于起步階段。通過讓AI系統(tǒng)能夠進(jìn)行更加靈活和直觀的推理,谷歌正在一步步接近構(gòu)建能解決更復(fù)雜和高級(jí)數(shù)學(xué)問題的AI。

盡管今年的工作完全基于自然語言的Gemini,谷歌仍在持續(xù)推進(jìn)其他AI系統(tǒng),包括AlphaGeometry和AlphaProof。

谷歌相信,那些結(jié)合了自然語言流暢性與嚴(yán)格推理的智能體,包括在形式化語言中經(jīng)過驗(yàn)證的推理,將成為數(shù)學(xué)家、科學(xué)家、工程師和研究人員不可或缺的工具,幫助推動(dòng)人類知識(shí)的進(jìn)步,并為通用人工智能(AGI)奠定基礎(chǔ)。


Magazine.Subscription.jpg

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請(qǐng)及時(shí)通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。
主站蜘蛛池模板: 国产精品无码无片在线观看| 美女脱了内裤打开腿让人桶网站o| 无码人妻精一区二区三区| 人人澡人人透人人爽| 黄色成人在线网站| 国产精品美女久久久| av无码aV天天aV天天爽| 小浪蹄子嗯嗯水挺多啊| 丰满少妇三级全黄| 欧美成人免费观看久久| 四虎国产精品永久地址99| 黄a级网站在线观看| 国产精品一区视频| 37大但人文艺术a级| 成人国产午夜在线视频| 亚洲成a人片在线观看中文| 狠狠色综合网站久久久久久久| 国产喷水女王在线播放| 亚洲香蕉久久一区二区三区四区| 宝宝才三根手指头就湿成这样| 乱人伦精品视频在线观看| 狠狠色综合网站久久久久久久高清| 午夜视频久久久久一区| sss欧美华人整片在线观看| 国产资源中文字幕| 三个黑人上我一个经过| 无敌影视手机在线观看高清| 久久人人爽人人爽大片aw| 欧美激情第1页| 十分钟免费视频高清完整版www| 97碰公开在线观看免费视频| 在线免费观看韩国a视频| 中文字幕三级久久久久久| 最近更新2019中文字幕国语4| 伊人久久精品线影院| 精品中文字幕乱码一区二区| 午夜亚洲国产理论秋霞| 黑白禁区在线观看免费版| 在线A级毛片无码免费真人| a天堂中文在线官网| 天天干天天摸天天操|