欧美性开放bbw,一个人看的www视频免费高清,japanesehdfree高潮

ホームページ

テクノロジー周辺機器

IT業(yè)界

aiは、カリフォルニアでの秘密の會議で世界のトップ數(shù)學者30人を中斷しました

Jack chen

Jul 17, 2025 am 01:26 AM

aiは、カリフォルニアでの秘密の會議で世界のトップ數(shù)學者30人を中斷しました

5月中旬の週末に、數(shù)學者の排他的な集まりが行われました。數(shù)學の最も著名な心のうち30人がカリフォルニア州バークレーに旅行しました。英國のような遠い場所から出席者は、數(shù)學的能力を評価するためにグループによって作成された問題に取り組むように設(shè)計された推論に焦點を當てたチャットボットに対してユニークな挑戦に従事しました。 2日間連続して高度なレベルの質(zhì)問でボットに立ち向かった後、參加者は、最も挑戦的な解決可能な數(shù)學の問題のいくつかを解決できることに驚きました。「一部の同僚は、これらのモデルを數(shù)學的な輝きに近づいていると説明しました」と、このイベントでリーダーと審査員を務めたバージニア大學數(shù)學者ケンオノは言います。

チャットボットは、Reasoning Large言語モデル（LLM）として知られるO4-Miniを使用して動作します。このモデルは、非常に複雑な論理タスクを処理するためにOpenAIによって開発されました。 GoogleのカウンターパートであるGemini 2.5 Flashは、同様の機能を共有しています。 ChatGptの以前のバージョンと同様に、O4-Miniは文の次の単語を予測することを?qū)Wびます。ただし、これらの前任者と比較して、O4-MINIおよび同様のモデルはより軽くてよりアジャイルであり、強化されたヒト誘導補強學習を備えた専門データセットで訓練されています。これにより、従來のLLMよりも複雑な數(shù)學の課題をより深く探索できるチャットボットが生まれます。

O4-Miniの開発を監(jiān)視するために、Openaiは以前にEPOCH AI（ベンチマークLLMに焦點を當てた非営利団體であるEpoch AI）を委託して、300の未発表の數(shù)學の問題を作成しました。従來のLLMでさえ、多くの難しい數(shù)學の質(zhì)問に正しく答えることができます。しかし、エポックAIがこれらの新しい問題（訓練されていなかったもの）でそのようなモデルをいくつかテストしたとき、トップパフォーマーは2パーセント未満を解決し、限られた推論能力を示しています。しかし、O4-Miniは大きな例外であることが判明しました。

2024年9月、エポックAIは、最近の數(shù)學博士號であるエリオットグレーザーに入隊しました。卒業(yè)生、 Frontiermathと呼ばれるベンチマークイニシアチブのため。このプロジェクトは、學部、大學院、研究層の複數(shù)の難易度にわたって元の數(shù)學の問題を収集しました。 2025年4月までに、Glazerは、O4-Miniが問題の約20％を解決できることを観察しました。その後、彼は4番目のレベルを?qū)毪筏蓼筏俊Ｊ澜绲膜松贁?shù)の選択は、問題などの問題を考案し、おそらく解決することができます。參加者は、電子メールなどの他の通信方法をLLMによってスキャンし、トレーニングに使用する可能性があるため、偶発的なデータ汚染を避けるために、機密保持契約に署名し、アプリ信號を介して獨占的に通信する必要がありました。

O4-MINIが解決できなかった各問題は、クリエイターに7,500ドルを獲得しました。チームは、適切な質(zhì)問を生成して徐々に進歩しました。プロセスを加速するために、エポックAIは5月17?18日の週末に対面ワークショップを開催し、參加者は最後のテスト質(zhì)問セットを確定しました。 6人のグループに分かれて、數(shù)學者は2日間集中的に働き、人間が解決できるがAIを斷念できる問題を作成しようとしました。

土曜日の夕方までに、小野は、ボットの驚くべき數(shù)學的スキルがグループの努力を妨げたため、イライラしました。「私は、博士論文に適しているオープンナンバー理論の問題として、私の分野の専門家によって認められた質(zhì)問を提案しました」と彼は回想します。彼がO4-Miniにそれを解決するように頼んだとき、彼は驚いたことに、10分以內(nèi)に段階的な解決策を提供したのを見ました。関連する文獻を見つけて吸収するのは最初に2分間費やしました。その後、問題の単純化されたバージョンを試みて、それをよりよく理解することを発表しました。その後まもなく、完全な問題に取り組む準備ができていると宣言しました。 5分後、それは正しいことを提示しました - しかし、皮肉であるという點に自信を持ってソリューションを提示しました。「本當に生意気になり始めていました」と小野は言いました。「そして最後に、「ミステリー番號が私によって計算されたため、引用は必要ありません！」と付け加えました。」

関連：研究の主要なAIベンチマークプラットフォームは、企業(yè)がモデルのパフォーマンスメトリックを操作できるようにしています

これを目撃して、ライブサイエンスデイリーニュースレターNowterにサインアップして、オノはすぐに日曜日の早朝に信號を介してグループにメッセージを送りました。「私はこのようなLLMに対抗することを期待していませんでした」と彼は認めました。「私は以前にどんなモデルでもそのような推論を見たことがありません。それが科學者の仕組みです。それは不安です。」

グループは最終的にボットが解決できなかった10の問題を特定しましたが、研究者はAIがわずか1年でどれだけ進んだかに驚いていました。オノは、ボットと協(xié)力して「非常に有能なパートナー」と協(xié)力しました。ロンドン數(shù)學科學研究所の數(shù)學者であり、數(shù)學のAIの初期の擁護者であるYang Huiは、「これは、特別な大學院生がすることです。

さらに、ボットは人間の専門家よりもはるかに速く働き、數(shù)分か數(shù)ヶ月か數(shù)か月かかるかもしれない數(shù)分で解決しました。

O4-Miniとの関わりがエキサイティングでしたが、その急速な進歩は懸念を引き起こしました。オノと彼は、ボットの出力にあまりにも多くの信頼を置くことについての心配を表明しました。「誘導による証拠、矛盾による証拠、そして脅迫による証拠があります」と彼は説明しました。「自信を持って何かを主張すれば、人々はそれを信じる傾向があります。O4-miniは脅迫によって完璧な証拠を持っていると思います。それはすべてを確実に提示しています?！?/p>

以上がaiは、カリフォルニアでの秘密の會議で世界のトップ數(shù)學者30人を中斷しましたの詳細內(nèi)容です。詳細については、PHP 中國語 Web サイトの他の関連記事を參照してください。

このウェブサイトの聲明

この記事の內(nèi)容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰屬します。このサイトは、それに相當する法的責任を負いません。盜作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡(luò)ください。