亚洲va韩国va欧美va,亚洲精品色播一区二区,久久99国产精品成人

首頁

科技週邊

IT業(yè)界

AI在加利福尼亞州的秘密會議上超過了30位世界頂級數(shù)學家

Jack chen

Jul 17, 2025 am 01:26 AM

AI在加利福尼亞州的秘密會議上超過了30位世界頂級數(shù)學家

在五月中旬的一個週末，舉行了一場獨家聚會。數(shù)學最傑出的思想中有30個前往加利福尼亞的伯克利，其中一些來自英國等遙遠地區(qū)的與會者對以推理為中心的聊天機器人進行了獨特的挑戰(zhàn)，該聊天機器人旨在解決該集團在評估其數(shù)學能力方面製定的問題。連續(xù)兩天與機器人面對面的高級問題之後，參與者驚訝地發(fā)現(xiàn)它可以解決一些最具挑戰(zhàn)性的可解決的數(shù)學問題。弗吉尼亞大學數(shù)學家肯·諾奧（Ken Ono）說：“一些同事將這些模式描述為接近數(shù)學的光彩?！?/p>

聊天機器人使用O4-Mini （稱為推理大語言模型（LLM））運行。該模型是由OpenAI開發(fā)的，可以處理高度複雜的邏輯任務。 Google的對手Gemini 2.5 Flash具有類似的功能。像較早版本的Chatgpt一樣，O4-Mini學會了預測句子中的下一個單詞。但是，與那些前任相比，O4-Mini和類似模型更輕，更敏捷，在專門的數(shù)據(jù)集中接受了增強的人類引導的增強學習的培訓。這會導致聊天機器人能夠比傳統(tǒng)的LLM更深入地探索複雜的數(shù)學挑戰(zhàn)。

為了監(jiān)視O4-Mini的開發(fā)，OpenAI先前委託Apoch AI（一個專注於基準LLM的非營利組織）創(chuàng)造了300個未出版的數(shù)學問題。甚至傳統(tǒng)的LLM也可以正確回答許多困難的數(shù)學問題。然而，當Epoch AI用這些新穎的問題測試了幾個這樣的模型時，他們尚未接受過培訓時，最佳表現(xiàn)者設法解決了不到2％的問題，表明其推理能力有限。但是O4-Mini原來是一個主要例外。

2024年9月，Epoch AI招募了最近的數(shù)學博士Elliot Glazer。畢業(yè)生，為“ Frontiermath”的基準計劃。該項目跨越了多個難度級別的原始數(shù)學問題：本科，研究生和研究層。到2025年4月，Glazer觀察到O4-Mini可以解決大約20％的問題。然後，他介紹了第四層：甚至有經(jīng)驗的學術數(shù)學家甚至會發(fā)現(xiàn)艱難的問題。只有少數(shù)在全球範圍內可以設計並可能解決的問題。參與者被要求籤署機密協(xié)議並僅通過應用信號進行通信，以避免意外數(shù)據(jù)污染，因為LLM可能會掃描電子郵件（例如電子郵件）諸如電子郵件並用於培訓。

每個問題O4-Mini都無法解決為創(chuàng)作者$ 7,500的賺取。該團隊逐漸進步產(chǎn)生了合適的問題。為了加速該過程，Epoch AI在5月17日至18日的周末組織了一個面對面的研討會，參與者最終完成了最後一組測試問題。數(shù)學家分為六人一組，大量工作了兩天，試圖解決人類可以解決的問題，但會陷入AI。

到週六晚上，隨著機器人令人驚訝的數(shù)學技能阻礙了小組的努力，昂諾變得越來越沮喪。他回憶說：“我提出了一個被我領域專家認可的問題作為一個公開數(shù)字理論問題，適用於博士學位論文。”當他要求O4-Mini解決它時，他驚訝地看著它在十分鐘之內提供了解決方案。它首先花了兩分鐘來找到並吸收相關文獻。然後，它宣布將嘗試簡化問題的版本，以更好地理解它。不久之後，它宣布自己準備解決全部問題。五分鐘後，它提出了一個正確的東西，但對諷刺的程度有信心。奧諾說：“它開始變得非常厚臉皮?！?“最後，它補充說，'沒有必要引用，因為我計算了我的神秘編號！'”

相關：領導AI基準平臺的研究主張使公司能夠操縱模型績效指標

在目睹這件事的《現(xiàn)場科學日報》上註冊，Ono立即通過週日清晨通過信號發(fā)出了信號。他承認：“我沒想到會像這樣與LLM對抗。” “我以前從未在任何模型中見過這種推理。這就是科學家的工作方式。這令人不安?！?/p>

儘管該小組最終確定了該機器人無法解決的10個問題，但研究人員對僅僅一年的AI進步感到驚訝。 Ono將與機器人合作與“非常有能力的合作夥伴”合作。倫敦數(shù)學科學研究所的數(shù)學家，數(shù)學研究所的數(shù)學研究所的數(shù)學家楊赫（Yang Hui He）評論說：“這是一個傑出的研究生會做的 - 實際上，甚至比這更重要?！?/p>

此外，該機器人的工作速度比人類專家快得多，在幾分鐘之內解決了可能需要幾週或幾個月的時間。

儘管與O4-Mini互動令人興奮，但它的快速進步引起了人們的關注。 Ono和他表示擔心對機器人的輸出過分信任。他解釋說：“有歸納的證據(jù)，矛盾的證據(jù)，然後是恐嚇證據(jù)。” “如果您足夠自信地斷言一些事情，人們傾向於相信它。我認為O4-Mini通過恐嚇完善了證明，它可以肯定地提出一切?！?/p>

以上是AI在加利福尼亞州的秘密會議上超過了30位世界頂級數(shù)學家的詳細內容。更多資訊請關注PHP中文網(wǎng)其他相關文章！

本網(wǎng)站聲明

本文內容由網(wǎng)友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發(fā)現(xiàn)涉嫌抄襲或侵權的內容，請聯(lián)絡admin@php.cn