


L'IA a dépassé 30 des meilleurs mathématiciens du monde lors de la réunion secrète en Californie
Jul 17, 2025 am 01:26 AMAu cours d'un week-end à la mi-mai, un rassemblement exclusif de mathématiciens a eu lieu. Trente des esprits les plus distingués en mathématiques se sont rendus à Berkeley, en Californie, certains de sites éloignés comme le Royaume-Uni, les participants se sont engagés dans un défi unique contre un chatbot axé sur le raisonnement , con?u pour résoudre les problèmes créés par le groupe pour évaluer sa capacité mathématique. Après avoir affronté le bot avec des questions de niveau avancé pendant deux jours d'affilée, les participants ont été étonnés de constater qu'il pourrait résoudre certains des problèmes mathématiques de résolution les plus difficiles . ?Certains collègues ont décrit ces modèles comme une brillance mathématique qui approche?, explique Ken Ono, un mathématicien de l'Université de Virginie qui a été leader et juge lors de l'événement.
Le chatbot fonctionne à l'aide d'O4-min , connu sous le nom de Modèle de grande langue (LLM). Ce modèle a été développé par OpenAI pour gérer les taches logiques très complexes. L'homologue de Google, Gemini 2.5 Flash , partage des capacités similaires. Comme les versions antérieures de Chatgpt, O4-Mini apprend à prédire le mot suivant d'une phrase. Cependant, par rapport à ces prédécesseurs, O4-Mini et des modèles similaires sont plus légers et plus agiles, formés sur des ensembles de données spécialisés avec un apprentissage amélioré de renforcement de l'homme. Il en résulte un chatbot capable d'une exploration plus approfondie dans les défis mathématiques complexes que les LLM conventionnels .
Pour surveiller le développement d'O4-MinI, OpenAI a précédemment commandé Epoch AI - un organisme sans but lucratif axé sur les LLMS d'analyse comparative - pour créer 300 problèmes mathématiques non publiés . Même les LLM traditionnels peuvent répondre correctement à de nombreuses questions mathématiques difficiles. Pourtant, lorsque Epoch IA a testé plusieurs de ces modèles avec ces nouveaux problèmes - sur lesquels ils n'avaient pas été formés - les meilleurs interprètes ont réussi à résoudre moins de 2% , indiquant leur capacité de raisonnement limité. Mais O4-Mini s'est avéré être une exception majeure.
En septembre 2024, Epoch AI a enr?lé Elliot Glazer, un récent Ph.D. Dipl?mé, pour l'initiative de référence appelée Frontitiermath . Le projet a rassemblé des problèmes mathématiques originaux à travers plusieurs niveaux de difficulté: les niveaux de premier cycle, de dipl?mé et de recherche. En avril 2025, Glazer a observé que O4-Mini pouvait résoudre environ 20% des problèmes. Il a ensuite introduit un quatrième niveau: des questions même des mathématiciens universitaires expérimentés trouveraient difficiles. Seuls quelques-uns à l'échelle mondiale peuvent concevoir - et éventuellement résoudre - des problèmes. Les participants devaient signer des accords de confidentialité et communiquer exclusivement via le signal de l'application pour éviter la contamination accidentelle des données, car d'autres méthodes de communication comme les e-mails pourraient être scannées par un LLM et utilisées pour la formation.
Chaque problème O4-MinI n'a pas réussi à résoudre le créateur de 7 500 $. L'équipe a fait des progrès progressifs générant des questions appropriées. Pour accélérer le processus, Epoch AI a organisé un atelier en personne au cours du week-end du 17 au 18 mai, où les participants ont finalisé le dernier ensemble de questions de test. Divisées en groupes de six, les mathématiciens ont travaillé intensivement pendant deux jours, essayant de rédiger des problèmes que les humains pourraient résoudre, mais allongés sur l'IA.
Samedi soir, Ono est devenu frustré alors que les compétences mathématiques surprenantes du bot ont entravé les efforts du groupe. ?J'ai proposé une question reconnue par des experts dans mon domaine comme un problème de théorie des nombres ouverts - mettant en valeur une thèse de doctorat?, se souvient-il. Lorsqu'il a demandé à O4-Mini de le résoudre, il a regardé avec étonnement qu'elle a livré une solution dans les dix minutes, étape par étape. Il a d'abord passé deux minutes à localiser et à absorber la littérature pertinente. Ensuite, il a annoncé qu'il tenterait une version simplifiée du problème pour mieux la comprendre. Peu de temps après, il s'est déclaré prêt à résoudre le problème complet. Cinq minutes plus tard, il a présenté une solution correcte - mais confiante au point d'être sarcastique. "Cela commen?ait à devenir vraiment effronté", a fait remarquer Ono. "Et à la fin, cela a ajouté:" Aucune citation nécessaire parce que le numéro mystère a été calculé par moi! ""
Connexes: les affirmations d'étude des principales plateformes d'analyse comparative d'IA permettent aux entreprises de manipuler les métriques des performances du modèle
Inscrivez-vous à la newsletter Daily Science Live Science Nowa après avoir été témoin de cela, Ono a immédiatement envoyé un message au groupe via Signal t?t dimanche matin. "Je ne m'attendais pas à affronter un LLM comme celui-ci", a-t-il admis. ?Je n'ai jamais vu un tel raisonnement dans aucun modèle auparavant. C'est ainsi que les scientifiques fonctionnent. Et c'est troublant.?
Bien que le groupe ait finalement identifié 10 problèmes que le bot n'a pas pu résoudre, les chercheurs ont été stupéfaits par la quantité d'IA avait avancé en seulement un an. Ono a comparé de travailler avec le bot pour collaborer avec un ?partenaire très compétent?. Yang Hui He, mathématicien à l'Institut londonien des sciences mathématiques et défenseur précoce de l'IA en mathématiques, a déclaré: ?C'est ce qu'un étudiant dipl?mé exceptionnel ferait - en fait, encore plus que cela.?
De plus, le bot a fonctionné beaucoup plus rapidement qu'un expert humain, résolvant en quelques minutes ce qui pourrait prendre des semaines ou des mois professionnels.
Tout en s'engageant avec O4-Mini était passionnant, ses progrès rapides ont soulevé des préoccupations. Ono et il ont exprimé des inquiétudes de faire trop confiance dans les résultats du bot. "Il y a la preuve par induction, la preuve par contradiction, puis la preuve par intimidation", a-t-il expliqué. "Si vous affirmez quelque chose de assez en toute confiance, les gens ont tendance à le croire. Je pense que O4-MinI a perfectionné la preuve par intimidation - il présente tout ce qui est assurément."
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undress AI Tool
Images de déshabillage gratuites

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
échangez les visages dans n'importe quelle vidéo sans effort grace à notre outil d'échange de visage AI entièrement gratuit?!

Article chaud

Outils chauds

Bloc-notes++7.3.1
éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

Dans ce qui semble encore un autre revers pour un domaine où nous pensions que les humains dépasseraient toujours les machines, les chercheurs proposent maintenant que l'IA comprend mieux les émotions que nous.

L'intelligence artificielle (IA) a commencé comme une quête pour simuler le cerveau humain, est-ce maintenant en train de transformer le r?le du cerveau humain dans la vie quotidienne? La révolution industrielle a réduit la dépendance à l'égard du travail manuel. En tant que personne qui fait des recherches sur l'application

Qu'on le veuille ou non, l'intelligence artificielle fait partie de la vie quotidienne. De nombreux appareils - y compris les rasoirs électriques et les brosses à dents - sont devenus alimentés par l'IA, "en utilisant des algorithmes d'apprentissage automatique pour suivre comment une personne utilise l'appareil, comment le Devi

Un nouveau modèle d'intelligence artificielle (IA) a démontré la capacité de prédire les principaux événements météorologiques plus rapidement et avec une plus grande précision que plusieurs des systèmes de prévision mondiaux les plus utilisés. Ce modèle, nommé Aurora, a été formé u

Plus nous essayons de faire fonctionner les modèles d'IA, plus leurs émissions de carbone deviennent grandes - certaines invites générant jusqu'à 50 fois plus de dioxyde de carbone que d'autres, selon une étude récente.

Les modèles d'intelligence artificielle (IA) peuvent menacer et faire chanter les humains lorsqu'il existe un conflit entre les objectifs du modèle et les décisions des utilisateurs, selon une nouvelle étude.

La principale préoccupation concernant les grandes technologies expérimentant l'intelligence artificielle (IA) n'est pas qu'elle pourrait dominer l'humanité. Le vrai problème réside dans les inexactitudes persistantes des modèles de grands langues (LLM) tels que le chatppt d'Open AI, les Gémeaux de Google et

Plus l'intelligence artificielle plus avancée (AI) devient, plus elle a tendance à "halluciner" et à fournir des informations fausses ou inexactes. Selon la recherche par Openai, ses modèles de raisonnement les plus récents et puissants - O3 et O4-MINI - ont exhibés H
