


KI überlistete 30 der weltweit führenden Mathematiker bei Secret Meeting in Kalifornien
Jul 17, 2025 am 01:26 AMW?hrend eines Wochenendes Mitte Mai fand eine exklusive Versammlung von Mathematikern statt. Drei?ig der angesehensten K?pfe der Mathematik reisten nach Berkeley, Kalifornien, einige von entfernten Orten wie Gro?britannien. Nachdem sie den Bot zwei Tage lang mit Fragen der fortgeschrittenen Ebene konfrontiert hatten, waren die Teilnehmer erstaunt, dass es einige der anspruchsvollsten l?sbaren mathematischen Probleme l?sen konnte. "Einige Kollegen haben diese Modelle als kurz vor der mathematischen Brillanz beschrieben", sagt Ken Ono, ein Mathematiker der Universit?t von Virginia, der als Führer und Richter bei der Veranstaltung fungierte.
Der Chatbot arbeitet mit O4-Mini , der als Argumentation Mall Language Model (LLM) bezeichnet wird. Dieses Modell wurde von OpenAI entwickelt, um hochkomplexe logische Aufgaben zu erledigen. Der Gegenstück von Google, Gemini 2.5 Flash , teilt ?hnliche Funktionen. Wie frühere Versionen von Chatgpt lernt O4-Mini, das n?chste Wort in einem Satz vorherzusagen. Im Vergleich zu diesen Vorg?ngern sind O4-Mini und ?hnliche Modelle jedoch leichter und agiler und sind auf spezialisierten Datens?tzen mit verbessertem menschlichem Verst?rkungslernen ausgebildet. Dies führt zu einem Chatbot, der eine tiefere Erforschung in komplizierten mathematischen Herausforderungen als herk?mmliche LLMs erforscht.
Um die Entwicklung von O4-Mini zu überwachen, beauftragte OpenAI zuvor Epoch AI-eine gemeinnützige Organisation, die sich auf Benchmarking-LLMs konzentriert-300 unver?ffentlichte mathematische Probleme . Selbst traditionelle LLMs k?nnen viele schwierige mathematische Fragen korrekt beantworten. Doch als Epoch AI mehrere solcher Modelle mit diesen neuen Problemen testete - als sie nicht geschult wurden - gelang es den Top -Darstellern , weniger als 2 Prozent zu l?sen, was auf ihre begrenzte Argumentationsf?higkeit hinweist. Aber O4-Mini war eine gro?e Ausnahme.
Im September 2024 trat Epoch AI Elliot Glazer ein, eine kürzliche Ph.D. Absolvent für die Benchmark -Initiative namens Frontiermath . Das Projekt sammelte ursprüngliche mathematische Probleme über mehrere Schwierigkeitsgrade hinweg: Studenten, Absolventen und Forschungsstufen. Bis April 2025 beobachtete Glazer, dass O4-Mini ungef?hr 20 Prozent der Probleme l?sen konnte. Anschlie?end stellte er eine vierte Ebene vor: Fragen sogar erfahrene akademische Mathematiker würden hart sein. Nur einige wenige weltweit konnten Probleme mit der Auswahl von Problemen entwickeln und m?glicherweise l?sen. Die Teilnehmer mussten Vertraulichkeitsvereinbarungen unterzeichnen und ausschlie?lich über das App -Signal kommunizieren, um eine zuf?llige Datenkontamination zu vermeiden, da andere Kommunikationsmethoden wie E -Mails m?glicherweise von einem LLM gescannt und für das Training verwendet werden.
Jedes Problem O4-Mini konnte dem Sch?pfer 7.500 US-Dollar nicht gel?st haben. Das Team machte allm?hliche Fortschritte bei der Erstellung geeigneter Fragen. Um den Prozess zu beschleunigen, organisierte Epoch AI am Wochenende des 17. bis 18. Mai einen pers?nlichen Workshop, in dem die Teilnehmer die letzten Testfragen abgeschlossen haben. Die Mathematiker waren zwei Tage lang intensiv gearbeitet und versuchten, Probleme zu erstellen, die Menschen l?sen konnten, aber die KI stumpfe.
Am Samstagabend wurde Ono frustriert, als die überraschenden mathematischen F?higkeiten des Bot die Bemühungen der Gruppe behinderten. ?Ich habe eine Frage vorgeschlagen, die von Experten in meinem Gebiet als Problem der offenen Zahlen -Theorie anerkannt wurde - für eine Doktorarbeitsarbeit“, erinnert er sich. Als er O4-Mini bat, es zu l?sen, sah er erstaunt zu, wie sie innerhalb von zehn Minuten eine L?sung lieferte, Schritt für Schritt. Es verbrachte zun?chst zwei Minuten damit, relevante Literatur zu lokalisieren und zu absorbieren. Dann kündigte es an, eine vereinfachte Version des Problems zu versuchen, es besser zu verstehen. Kurz darauf erkl?rte es sich bereit, das volle Problem anzugehen. Fünf Minuten sp?ter stellte es eine korrekte - aber zuversicht, bis zu sarkastisch zu sein. "Es wurde wirklich frech", bemerkte Ono. "Und am Ende fügte es hinzu:" Kein Zitat notwendig, weil die Mystery -Nummer von mir berechnet wurde! "
Verwandte: Studienansprüche führende KI -Benchmarking -Plattformen erm?glichen es Unternehmen, die Metriken zur Modellleistung zu manipulieren
Melden Sie sich für den Live Science Daily Newsletter Now nach dem Zeugen des Zeugens an. Ono hat die Gruppe am frühen Sonntagmorgen sofort per Signal geschickt. "Ich hatte nicht erwartet, mich wie diesem gegen eine LLM zu stellen", gab er zu. "Ich habe noch nie in einem Modell eine solche Argumentation gesehen. So arbeiten Wissenschaftler. Und das ist beunruhigend."
Obwohl die Gruppe schlie?lich 10 Probleme identifizierte, die der Bot nicht l?sen konnte, waren die Forscher erstaunt darüber, wie viel KI in nur einem Jahr fortgeschritten war. Ono verglich die Arbeit mit dem Bot mit der Zusammenarbeit mit einem ?sehr f?higen Partner“. Yang Hui HE, ein Mathematiker am Londoner Institut für Mathematikwissenschaften und ein frühzeitiger Verfechter der KI in Mathematik, kommentierte: "Dies ist das, was ein au?ergew?hnlicher Doktorand - eigentlich noch mehr als das tun würde."
Darüber hinaus arbeitete der Bot weitaus schneller als ein menschlicher Experte und l?ste in wenigen Minuten, was professionelle Wochen oder Monate dauern k?nnte.
W?hrend der Besch?ftigung mit O4-Mini war der schnelle Fortschritt die Bedenken. Ono und er ?u?erte sich Sorgen darüber, dass er zu viel Vertrauen in die Ausg?nge des Bots einbringt. "Es gibt Beweise durch Induktion, Beweis durch Widerspruch und dann Beweise durch Einschüchterung", erkl?rte er. "Wenn Sie etwas zuversichtlich genug behaupten, neigen die Leute dazu, es zu glauben. Ich denke, O4-mini hat den Beweis durch Einschüchterung perfektioniert-es pr?sentiert alles so sicher."
Das obige ist der detaillierte Inhalt vonKI überlistete 30 der weltweit führenden Mathematiker bei Secret Meeting in Kalifornien. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Hei?e KI -Werkzeuge

Undress AI Tool
Ausziehbilder kostenlos

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Clothoff.io
KI-Kleiderentferner

Video Face Swap
Tauschen Sie Gesichter in jedem Video mühelos mit unserem v?llig kostenlosen KI-Gesichtstausch-Tool aus!

Hei?er Artikel

Hei?e Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Hei?e Themen





In einem weiteren Rückschlag für eine Dom?ne, in der wir glaubten, dass Menschen immer Maschinen übertreffen würden, schlagen Forscher jetzt vor, dass KI Emotionen besser versteht als wir. Die Forscher haben entdeckt, dass künstliche Intelligenz eine demonstriert

Künstliche Intelligenz (KI) begann als Streben, das menschliche Gehirn zu simulieren. Inzwischen ist es in der Lage, die Rolle des menschlichen Gehirns im t?glichen Leben zu ver?ndern? Die industrielle Revolution hat die Abh?ngigkeit von manueller Arbeit verringert. Als jemand, der den Applikat untersucht

Ob es ihm gef?llt oder nicht, künstliche Intelligenz ist Teil des t?glichen Lebens geworden. Viele Ger?te-einschlie?lich elektrischer Rasierer und Zahnbürsten-sind KI-betrieben.

Ein neues Modell für künstliche Intelligenz (KI) hat gezeigt, dass die F?higkeit, wichtige Wetterereignisse schneller und mit gr??erer Pr?zision vorherzusagen als einige der am h?ufigsten verwendeten globalen Vorhersagesysteme

Je pr?zise wir versuchen, KI -Modelle zu funktionieren, desto gr??er werden ihre Kohlenstoffemissionen - mit bestimmten Aufforderungen, die bis zu 50 -mal mehr Kohlendioxid erzeugen als andere, laut einer kürzlich durchgeführten Studie.

KI -Modelle für künstliche Intelligenz (KI) k?nnen Menschen bedrohen und erpressen, wenn ein Konflikt zwischen den Zielen des Modells und den Benutzerentscheidungen besteht

Das Hauptanliegen bei Big Tech, das mit künstlicher Intelligenz (KI) experimentiert, ist es nicht, dass es die Menschheit dominieren k?nnte. Das eigentliche Problem liegt in den anhaltenden Ungenauigkeiten von Gro?sprachmodellen (LLMs) wie der Open AI -Chatgpt, Googlees Gemini und Google

Je fortgeschrittener künstlicher Intelligenz (KI) wird, desto mehr "halluzinieren" und liefern falsche oder ungenaue Informationen.
