亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

首頁 科技週邊 IT業(yè)界 AI在加利福尼亞州的秘密會議上超過了30位世界頂級數(shù)學家

AI在加利福尼亞州的秘密會議上超過了30位世界頂級數(shù)學家

Jul 17, 2025 am 01:26 AM

AI在加利福尼亞州的秘密會議上超過了30位世界頂級數(shù)學家

在五月中旬的一個週末,舉行了一場獨家聚會。數(shù)學最傑出的思想中有30個前往加利福尼亞的伯克利,其中一些來自英國等遙遠地區(qū)的與會者對以推理為中心的聊天機器人進行了獨特的挑戰(zhàn),該聊天機器人旨在解決該集團在評估其數(shù)學能力方面製定的問題。連續(xù)兩天與機器人面對面的高級問題之後,參與者驚訝地發(fā)現(xiàn)它可以解決一些最具挑戰(zhàn)性的可解決的數(shù)學問題。弗吉尼亞大學數(shù)學家肯·諾奧(Ken Ono)說:“一些同事將這些模式描述為接近數(shù)學的光彩?!?/p>

聊天機器人使用O4-Mini (稱為推理大語言模型(LLM))運行。該模型是由OpenAI開發(fā)的,可以處理高度複雜的邏輯任務。 Google的對手Gemini 2.5 Flash具有類似的功能。像較早版本的Chatgpt一樣,O4-Mini學會了預測句子中的下一個單詞。但是,與那些前任相比,O4-Mini和類似模型更輕,更敏捷,在專門的數(shù)據(jù)集中接受了增強的人類引導的增強學習的培訓。這會導致聊天機器人能夠比傳統(tǒng)的LLM更深入地探索複雜的數(shù)學挑戰(zhàn)。

為了監(jiān)視O4-Mini的開發(fā),OpenAI先前委託Apoch AI(一個專注於基準LLM的非營利組織)創(chuàng)造了300個未出版的數(shù)學問題。甚至傳統(tǒng)的LLM也可以正確回答許多困難的數(shù)學問題。然而,當Epoch AI用這些新穎的問題測試了幾個這樣的模型時,他們尚未接受過培訓時,最佳表現(xiàn)者設法解決了不到2%的問題,表明其推理能力有限。但是O4-Mini原來是一個主要例外。

2024年9月,Epoch AI招募了最近的數(shù)學博士Elliot Glazer。畢業(yè)生,為“ Frontiermath”的基準計劃。該項目跨越了多個難度級別的原始數(shù)學問題:本科,研究生和研究層。到2025年4月,Glazer觀察到O4-Mini可以解決大約20%的問題。然後,他介紹了第四層:甚至有經(jīng)驗的學術數(shù)學家甚至會發(fā)現(xiàn)艱難的問題。只有少數(shù)在全球範圍內可以設計並可能解決的問題。參與者被要求籤署機密協(xié)議並僅通過應用信號進行通信,以避免意外數(shù)據(jù)污染,因為LLM可能會掃描電子郵件(例如電子郵件)諸如電子郵件並用於培訓。

每個問題O4-Mini都無法解決為創(chuàng)作者$ 7,500的賺取。該團隊逐漸進步產(chǎn)生了合適的問題。為了加速該過程,Epoch AI在5月17日至18日的周末組織了一個面對面的研討會,參與者最終完成了最後一組測試問題。數(shù)學家分為六人一組,大量工作了兩天,試圖解決人類可以解決的問題,但會陷入AI。

到週六晚上,隨著機器人令人驚訝的數(shù)學技能阻礙了小組的努力,昂諾變得越來越沮喪。他回憶說:“我提出了一個被我領域專家認可的問題作為一個公開數(shù)字理論問題,適用於博士學位論文。”當他要求O4-Mini解決它時,他驚訝地看著它在十分鐘之內提供了解決方案。它首先花了兩分鐘來找到並吸收相關文獻。然後,它宣布將嘗試簡化問題的版本,以更好地理解它。不久之後,它宣布自己準備解決全部問題。五分鐘後,它提出了一個正確的東西,但對諷刺的程度有信心。奧諾說:“它開始變得非常厚臉皮?!?“最後,它補充說,'沒有必要引用,因為我計算了我的神秘編號!'”

相關:領導AI基準平臺的研究主張使公司能夠操縱模型績效指標

在目睹這件事的《現(xiàn)場科學日報》上註冊,Ono立即通過週日清晨通過信號發(fā)出了信號。他承認:“我沒想到會像這樣與LLM對抗。” “我以前從未在任何模型中見過這種推理。這就是科學家的工作方式。這令人不安?!?/p>

儘管該小組最終確定了該機器人無法解決的10個問題,但研究人員對僅僅一年的AI進步感到驚訝。 Ono將與機器人合作與“非常有能力的合作夥伴”合作。倫敦數(shù)學科學研究所的數(shù)學家,數(shù)學研究所的數(shù)學研究所的數(shù)學家楊赫(Yang Hui He)評論說:“這是一個傑出的研究生會做的 - 實際上,甚至比這更重要?!?/p>

此外,該機器人的工作速度比人類專家快得多,在幾分鐘之內解決了可能需要幾週或幾個月的時間。

儘管與O4-Mini互動令人興奮,但它的快速進步引起了人們的關注。 Ono和他表示擔心對機器人的輸出過分信任。他解釋說:“有歸納的證據(jù),矛盾的證據(jù),然後是恐嚇證據(jù)。” “如果您足夠自信地斷言一些事情,人們傾向於相信它。我認為O4-Mini通過恐嚇完善了證明,它可以肯定地提出一切?!?/p>

以上是AI在加利福尼亞州的秘密會議上超過了30位世界頂級數(shù)學家的詳細內容。更多資訊請關注PHP中文網(wǎng)其他相關文章!

本網(wǎng)站聲明
本文內容由網(wǎng)友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發(fā)現(xiàn)涉嫌抄襲或侵權的內容,請聯(lián)絡admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網(wǎng)頁開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

新研究聲稱AI比我們更好地'理解”情緒。特別是在情感上充滿電的情況下 新研究聲稱AI比我們更好地'理解”情緒。特別是在情感上充滿電的情況下 Jul 03, 2025 pm 05:48 PM

在我們認為人類始終超越機器的領域的另一個挫折中,研究人員現(xiàn)在建議AI比我們更好地理解情感。研究人員發(fā)現(xiàn)人工智能證明了一個

您的設備餵養(yǎng)AI助手並收集個人數(shù)據(jù),即使他們睡著了。這是如何知道您分享的內容。 您的設備餵養(yǎng)AI助手並收集個人數(shù)據(jù),即使他們睡著了。這是如何知道您分享的內容。 Jul 05, 2025 am 01:12 AM

不管喜歡與否,人工智能已成為日常生活的一部分。許多設備(包括電動剃須刀和牙刷)已成為AI驅動的“使用機器學習算法來跟蹤一個人的使用方式,Devi的方式

由於新的Microsoft AI型號 由於新的Microsoft AI型號 Jul 05, 2025 am 12:44 AM

一種新的人工智能(AI)模型已經(jīng)證明了比幾個使用最廣泛使用的全球預測系統(tǒng)更快,更精確地預測重大天氣事件的能力。該名為Aurora的模型已接受過培訓。

高級AI型號的CO₂回答相同問題時的排放量比更常見的LLM 高級AI型號的CO₂回答相同問題時的排放量比更常見的LLM Jul 06, 2025 am 12:37 AM

根據(jù)最近的一項研究,我們試圖使AI模型的功能越精確,其碳排放量就越大 - 某些提示產(chǎn)生的二氧化碳比其他提示高達50倍。

威脅AI聊天機器人,它將撒謊,作弊和'讓您死”以阻止您,並警告 威脅AI聊天機器人,它將撒謊,作弊和'讓您死”以阻止您,並警告 Jul 04, 2025 am 12:40 AM

根據(jù)一項新的研究,人工智能(AI)模型在模型的目標和用戶決定之間發(fā)生衝突時可能會威脅和勒索人類。

ai不斷地'幻覺”,但是有一個解決方案 ai不斷地'幻覺”,但是有一個解決方案 Jul 07, 2025 am 01:26 AM

大型技術實驗人工智能(AI)的主要關注點並不是它可能主導人類。真正的問題在於大語言模型(LLMS)的持續(xù)不準確性,例如Open AI的Chatgpt,Google的Gemini和

為什麼AI會更頻繁地進行Hallucin,我們如何停止它? 為什麼AI會更頻繁地進行Hallucin,我們如何停止它? Jul 08, 2025 am 01:44 AM

人工智能(AI)越先進,它越傾向於“幻覺”並提供虛假或不準確的信息。 Openai的研究是其最新和強大的推理模型(O3和O4-Mini)的研究,這對HH進行了研究。

See all articles