


Le nombre de questions auxquelles AGI et AI Superintelligence doivent répondre pour la preuve de l'intelligence
Jul 21, 2025 am 11:09 AMC'est plus qu'une simple préoccupation philosophique académique. à un moment donné, nous devons être prêts à convenir si l'avènement de l'ASI et de l'ASI ont été atteints. La fa?on probable de le faire consiste à poser des questions à l'IA, puis à évaluer le sens intellectuel exprimé par les réponses générées par l'AI.
Alors, combien de questions devons-nous poser?
Parlons-en.
Cette analyse d'une percée d'IA innovante fait partie de ma couverture de colonne Forbes en cours sur les dernières personnes en IA, notamment en identifiant et en expliquant diverses complexités d'IA percutantes (voir le lien ici).
Se dirigeant vers AGI et ASI
Premièrement, certains principes fondamentaux sont tenus de préparer le terrain pour cette discussion lourde.
Il y a beaucoup de recherches en cours pour faire progresser l'IA. L'objectif général est d'atteindre l'intelligence générale artificielle (AGI) ou peut-être même la possibilité tendue de réaliser une superintelligence artificielle (ASI).
AGI est AI qui est considéré comme à égalité avec l'intellect humain et qui peut correspondre apparemment à notre intelligence. L'ASI est une IA qui est allée au-delà de l'intellect humain et serait supérieure à beaucoup sinon toutes les manières possibles. L'idée est que l'ASI serait en mesure de faire des cercles autour des humains en nous éteignant à chaque tournant. Pour plus de détails sur la nature de l'IA conventionnelle contre AGI et ASI, consultez mon analyse sur le lien ici.
Nous n'avons pas encore atteint AGI.
En fait, on ne sait pas si nous atteindrons AGI, ou que AGI sera peut-être réalisable dans des décennies ou peut-être dans des siècles. Les dates de réalisation de l'AGI qui flottent sont très variables et extrêmement non étayées par toute preuve crédible ou logique à ferr. L'ASI est encore plus au-delà du pale en ce qui concerne l'endroit où nous sommes actuellement avec une IA conventionnelle.
à propos des tests pour Pinnacle AI
Une partie de la difficulté étant confrontée à l'humanité est que nous n'avons pas de test infaillible pour vérifier si nous avons atteint AGI et ASI.
Certaines personnes proclament plut?t haut que nous le saurons quand nous le verrons. En d'autres termes, c'est l'un de ces aspects flous et dément toute sorte d'évaluation systématique. Un sentiment global ou un sens intuitif de notre part nous amènera à décider que l'IA de Pinnacle a été réalisée.
Période, fin de l'histoire.
Mais cela ne peut pas être la fin de l'histoire, car nous devons avoir une fa?on plus consciente de déterminer si Pinnacle Ai a été atteint. Si le seul moyen consiste en une réaction émotionnelle semblable à une gestalt, il y aura beaucoup de confusion qui surgira. Vous obtiendrez beaucoup de gens à déclarer que Pinnacle IA existe, tandis que beaucoup d'autres personnes insisteront sur le fait que la déclaration est tout à fait prématurée. Un immense désaccord sera en cours.
Voir mon analyse de personnes qui croient déjà à tort qu'ils ont été témoins de Pinnacle AI, comme AGI et ASI, comme discuté au lien ici.
Une certaine forme d'évaluation ou de test de bonne foi qui formalise la question est cruellement nécessaire.
J'ai largement discuté et analysé un test bien connu d'incite AI connu sous le nom de Turing Test, voir le lien ici. Le test de Turing est nommé d'après le célèbre mathématicien et le début de l'informaticien Alan Turing. En bref, l'idée est de poser des questions à l'IA, et si vous ne pouvez pas distinguer les réponses de celles de ce qu'un humain dirait, vous pourriez déclarer que l'IA présente l'intelligence à égalité avec les humains.
Test de Turing Treatment décortiqué
Soyez prudent si vous demandez à un technicien AI ce qu'il pense du test de Turing. Vous obtiendrez une oreille. Ce ne sera pas agréable.
Certains croient que le test de Turing est une perte de temps. Ils diront que cela ne fonctionne pas convenablement et est dépassé. Nous sommes censés passer bien au-delà de son utilité. Vous voyez, c'était un test con?u en 1949 par Alan Turing. C'est il y a plus de 75 ans. Rien d'il y a longtemps ne peut apparemment être applicable à notre époque moderne de l'IA.
D'autres vous diront hautain que le test de Turing a déjà été passé avec succès. En d'autres termes, le test de Turing aurait été prétendument passé par l'IA existant. Beaucoup de titres de bannière le disent. Ainsi, le test de Turing n'est pas beaucoup d'utilité car nous savons que nous n'avons pas encore de picnacle AI, mais le test Turing semble dire que nous le faisons.
J'ai essayé à plusieurs reprises de remettre les pendules à l'heure à ce sujet. La vraie histoire est que le test de Turing a été mal appliqué. Ceux qui prétendent que le test de Turing a été passé joue rapidement et en desserré avec la célèbre méthode de test.
Affichant le test de Turing
Une partie de l'échappatoire dans le test de Turing est que le nombre de questions et le type de questions ne sont pas spécifiés. C'est à la personne ou à l'équipe qui choisit de se pencher dans le test de Turing pour décider de ces facettes cruciales. Cela provoque des problèmes malheureux et des résultats problématiques.
Supposons que je décide d'effectuer un test de Turing sur Chatgpt, le modèle d'IA génératif et de langage (LLM) extrêmement populaire que 400 millions de personnes utilisent chaque semaine. Je chercherai à poser des questions que je peux poser. Je poserai également les mêmes questions à mon ami le plus proche pour voir quelles réponses ils donnent.
Si je ne suis pas en mesure de différencier les réponses de mon ami humain contre Chatgpt, je déclarerai sommairement et fort que Chatgpt a réussi le test de Turing. L'idée est que l'IA générative a imité avec succès l'intellect humain dans la mesure où les réponses fournies par l'homme et les réponses fournies par l'IA étaient essentiellement les mêmes.
Après avoir rencontré cinquante questions, certains qui étaient faciles et certains qui étaient difficiles, j'ai procédé à mon administration du test de Turing. Chatgpt a répondu à chaque question, tout comme mon ami. Les réponses de l'IA et les réponses de mon ami étaient à peu près indiscernables les unes des autres.
Voila, je peux commencer à dire au monde que Chatgpt a réussi le test de Turing. Il ne m'a fallu qu'environ une heure au total pour comprendre cela. J'ai passé la moitié du temps à poser les questions et la moitié du temps à obtenir les réponses respectives.
Très facile.
Le nombre de questions
Voici une pensée pour que vous réfléchissiez.
Pensez-vous que poser cinquante questions est suffisant pour déterminer s'il existe un sens intellectuel?
Cela ne semble pas suffisant. C'est particulièrement le cas si nous définissons AGI comme une forme d'IA qui va être intellectuellement à égalité avec toute la gamme et la profondeur de l'intellect humain. Il s'avère que les questions que j'ai posées pour ma course du test de Turing n'incluaient rien sur la chimie, la biologie et de nombreuses autres disciplines ou domaines.
Pourquoi n'ai-je pas inclus ces royaumes?
Eh bien, j'avais choisi de composer seulement cinquante questions.
Vous ne pouvez poser aucun semblant de profondeur et d'étendue dans toutes les connaissances humaines dans une cinquantaine de questions. Bien s?r, vous pourriez tricher et poser une question qui implore la personne ou l'IA pour secouer tout ce qu'ils savent. Dans ce cas, vraisemblablement, à un moment donné, la ?réponse? inclurait la chimie, la biologie, etc. Ce n'est pas une approche viable, comme je le discute sur le lien ici, alors mettons de c?té les questions générales et visons des questions spécifiques plut?t que des questions smomys.
Combien de questions suffisent
J'espère que vous êtes prêt à concéder que le nombre de questions est important lors de l'exécution d'un test qui essaie de vérifier les capacités intellectuelles. Essayons de trouver un nombre qui a du sens.
Nous pouvons commencer par le nombre zéro. Certains croient que nous ne devrions pas avoir à poser une seule question. L'IA a le but de nous convaincre qu'elle a atteint AGI ou ASI. Par conséquent, nous pouvons simplement nous asseoir et voir ce que l'IA nous dit. Nous sommes finalement convaincus par la conversation douce, ou nous ne le sommes pas.
Un gros problème avec l'approche zéro est que l'IA pourrait bavarder sans fin et pourrait simplement faire un dépotoir de tout ce qu'il a modelé. La beauté de poser des questions est que vous avez l'occasion de sauter et potentiellement de trouver des taches vierges. Si l'IA ne fait que jaillir tout ce qu'il a à dire, la laine pourrait facilement être tirée sur vos yeux.
Je suggère que nous acceptons d'utiliser un nombre non nul. Nous devons poser au moins une question. La difficulté d'être contraint à une question est que nous sommes de retour à l'énigme de manquer le bateau et de ne frapper qu'une pépite particulière, ou nous allons demander tout l'évier de la cuisine d'une manière trop large. Aucun de ceux-ci n'est satisfaisant.
D'accord, nous devons poser au moins deux questions ou plus. J'ose dire que deux ne semblent pas assez élevés. Ten semble-t-il suffisamment de questions? Probablement pas. Qu'en est-il de cent questions? Ne semble toujours pas suffisant. Mille questions? Dix mille questions? Cent mille questions?
Il est difficile de juger où pourrait être le bon numéro. Peut-être que nous pouvons nuire sur le sujet et comprendre une estimation du stade qui a un sens raisonnable.
Faisons ?a.
Tests récents de Top IA
Vous savez peut-être que chaque fois que l'un des meilleurs fabricants d'IA sort avec une nouvelle version de leur IA générative, ils exécutent un tas de divers tests d'évaluation de l'IA pour essayer de montrer joyeusement à quel point leur IA est meilleure que d'autres LLM concurrentes.
Par exemple, Grok 4 de Xai d'Elon Musk a récemment été publié, et Xai et d'autres ont utilisé de nombreux tests spécialisés qui sont devenus relativement populaires pour voir à quel point Grok 4 se compare bien. Les tests comprenaient (a) le dernier examen de l'humanité ou HLE, (b) arc-agi-2, (c) gpqa, (d) usamo 2025, (e) aime 2025, (f) livecodebench, (g) swe-bench et autres tests de ce qui concerne.
Certains de ces tests ont à voir avec la possibilité de générer du code de programme (par exemple, LivecodeBench, SWE-Bench). Certains tests consistent à pouvoir résoudre des problèmes mathématiques (par exemple, USAMO, AIME). Le test GPQA est orienté vers la science.
Savez-vous combien de questions se trouvent dans l'ensemble de tests GPQA?
Il y a un total de 546 questions, composée de 448 questions dans l'ensemble principal et 198 autres questions dans l'ensemble de diamants plus durs.
Si vous êtes intéressé par la nature des questions en GPQA, visitez le site GPQA Github, et vous pourriez trouver l'intérêt du document initial intitulé ?GPQA: A Graduate Level à l'épreuve des questions et réponses sur Google? par David Rein et al, Arxiv , 20 novembre 2023. Pers ce document: ?Nous présentons des experts GPQA, un jeu de données difficile de 448 Chemistry.
Veuillez noter que vous êtes susceptible d'entendre des affirmations de la hausse des sourcils selon lesquelles une IA générative est meilleure que les étudiants dipl?més de niveau doctoral dans tous les domaines en raison de scores particuliers du test GPQA. C'est une déclaration à couper le souffle et dépeint en tromperie les tests réels qui se déroulent normalement.
En bref, une telle proclamation doit être prise avec un grain de sel énorme.
Ballparking Le nombre de questions
Supposons que nous proposons notre propre test pratique qui a des questions au niveau du doctorat. Le test aura 600 questions au total. Nous rédigerons 600 questions concernant 6 domaines, et nous irons avec les six domaines de (1) la physique, (2) la chimie, (3) la biologie, (4) la géologie, (5) l'astronomie et (6) l'océanographie. Cela signifie que nous allons avoir 100 questions dans chaque discipline. Par exemple, il y aura 100 questions sur la physique.
êtes-vous à l'aise qu'en demandant à un être humain un ensemble de 100 questions sur la physique que nous serons en mesure de vérifier toute la gamme et la profondeur de leurs connaissances complètes et de leurs prouesses intellectuelles en physique?
J'en doute. Vous pourrez certainement évaluer un semblant de leur compréhension de leur physique. Les chances sont qu'avec seulement 100 questions, vous n'échantillonnez que leurs connaissances. Est-ce un échantillonnage suffisamment grand, ou devrions-nous poser encore plus de questions?
Une autre considération est que nous ne posons que des questions concernant 6 domaines. Qu'en est-il de tous les autres domaines? Nous n'avons inclus aucune question sur la météorologie, l'anthropologie, l'économie, les sciences politiques, l'archéologie, l'histoire, le droit, la linguistique, etc.
Si nous voulons évaluer une IA comme l'AGI espéré, nous devons probablement couvrir tous les domaines possibles. Nous devons également avoir un nombre suffisamment élevé de questions par domaine afin que nous soyons à l'aise que notre échantillonnage soit en profondeur et large.
Concevoir un nombre d'hommes de paille
Allez avec moi dans un voyage pour trouver un homme de paille. Notre objectif sera une estimation de l'ordre de grandeur, plut?t qu'un nombre exact en soi. Nous voulons avoir un stade, nous saurons donc quelle est la gamme du stade.
Nous allons commencer l'aventure en notant que la Bibliothèque du Congrès américaine a un vaste ensemble de rubriques de sujet, communément appelés LCSH (titres des sujets de la Bibliothèque du Congrès). Le LCSH a été lancé en 1897 et a été mis à jour et entretenu depuis lors. Le LCSH est généralement considéré comme le vocabulaire des sujets le plus utilisé au monde.
En passant, certaines personnes favorisent le LCSH et d'autres non. Il y a des débats animés sur la question de savoir si certains rubriques de sujets sont justifiés. Il y a des débats acrimonieux concernant le libellé de certaines des rubriques du sujet. Depuis et sur le discours. Je ne vais pas m'entrer dans ce bourbier ici.
Le décompte du LCSH en avril 2025 était de 388 594 records. Je vais contourner ce nombre à 400 000, pour le bien de cette discussion. Nous pouvons chicaner à ce sujet, ainsi que de chicaner si tous ces titres de sujet sont distinctifs et utilisables, mais je ne prends pas cette voie pour l'instant.
Supposons que nous ayons posé une question pour chacun des titres du sujet LCSH, de sorte que, quel que soit ce domaine ou cette discipline, nous allons poser une question à ce sujet. Nous aurions alors 400 000 questions prêtes à être posées.
Une question par royaume ne semble pas suffisante.
Considérez ces possibilités:
- (a) 400k Questions: 1 Question x 400k LCSH
- (b) 4m Questions: 10 questions x 400k LCSH
- (c) 40m Questions: 100 questions x 400k LCSH
- (d) 400m Questions: 1 000 questions x 400k LCSH
- (e) 4b Questions: 10 000 questions x 400k LCSH
- (f) 40B Questions: 100 000 questions x 400k LCSH
- (g) 400B Questions: 1M Questions x 400k LCSH
- Etc.
Si nous choisissons la sélection de 10 000 questions par le LCSHS, nous devrons poser 4 milliards de questions. C'est beaucoup de questions. Mais peut-être que poser seulement 10 000 questions ne suffit pas pour chaque domaine. Nous pourrions aller avec 100 000 questions, ce qui porte ensuite le grand total à 40 milliards de questions.
évaluer AGI via des questions
Demander à un AGI potentiel un milliard ou plusieurs milliards de questions, c'est-à-dire 4B à 40b, qui sont également variés dans tous les domaines ?connus?, semblent être une portée et une profondeur de test suffisantes?
Certains critiques diront que c'est du laveur. Vous n'avez pas besoin de poser autant de questions. C'est une grande exagération. Vous pouvez utiliser un nombre beaucoup plus petit. Si oui, quel est ce nombre? Et quelle est la justification de ce décompte proposé? Le nombre serait-il de l'ordre de plusieurs milliers ou des millions, sinon dans les milliards? Et n'essayez pas de gaspiller la question en disant que le décompte est en quelque sorte amorphe ou tout à fait indéterminé.
Dans le cas de paille de milliards, les sceptiques diront que vous ne pouvez pas poser un milliard ou plus de questions. Il est logistiquement irréalisable. Même si vous le pouviez, vous ne pourriez jamais évaluer les réponses données à ces questions. Il faudrait une éternité pour passer par ces milliards de réponses. Et vous avez besoin d'experts dans tous les domaines des connaissances humaines pour juger si les réponses étaient bonnes ou erronées.
Un contre-argument est que nous pourrions potentiellement utiliser l'IA, une IA autre que l'agi testé, pour aider à l'effort. Cela aussi a des avantages et des inconvénients. Je couvrirai cette considération dans un prochain article. Soyez sur la montre.
Il y a certainement beaucoup de problèmes à considérer et à traiter. La matière extraordinairement sérieuse est digne de s'adresser à ces facettes. N'oubliez pas que nous nous concentrons sur la fa?on dont nous saurons que nous avons atteint AGI. C'est une question monumentale. Nous devons être prêts à poser suffisamment de questions pour que nous puissions conclure collectivement et raisonnablement que AGI a été atteint.
Comme l'a dit Albert Einstein: ?Apprenez d'hier, en direct pour aujourd'hui, espoir pour demain. L'important est de ne pas cesser de questionner.?
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undress AI Tool
Images de déshabillage gratuites

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
échangez les visages dans n'importe quelle vidéo sans effort grace à notre outil d'échange de visage AI entièrement gratuit?!

Article chaud

Outils chauds

Bloc-notes++7.3.1
éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

L'investissement est en plein essor, mais le capital seul ne suffit pas. Avec la montée et la décoloration des évaluations, les investisseurs dans les fonds de capital-risque axés sur l'IA doivent prendre une décision clé: acheter, construire ou partenaire pour gagner un avantage? Voici comment évaluer chaque option et PR

Parlons-en. Cette analyse d'une percée innovante de l'IA fait partie de ma couverture de colonne Forbes en cours sur les dernières personnes en IA, notamment en identifiant et en expliquant diverses complexités d'IA percutantes (voir le lien ici). Se dirigeant vers Agi et

Rappelez-vous le flot de modèles chinois open source qui a perturbé l'industrie du Genai plus t?t cette année? Alors que Deepseek a fait la majeure partie des titres, Kimi K1.5 était l'un des noms importants de la liste. Et le modèle était assez cool.

Parlons-en. Cette analyse d'une percée innovante de l'IA fait partie de ma couverture de colonne Forbes en cours sur les dernières personnes en IA, notamment en identifiant et en expliquant diverses complexités d'IA percutantes (voir le lien ici). Pour ces lecteurs qui h

à la mi-2025, l'AI ?Arme Race? se réchauffe, et Xai et Anthropic ont tous deux publié leurs modèles phares, Grok 4 et Claude 4.

Par exemple, si vous posez une question à un modèle comme: "Que fait (x) personne à (x) l'entreprise?" Vous pouvez voir une cha?ne de raisonnement qui ressemble à quelque chose comme ceci, en supposant que le système sait comment récupérer les informations nécessaires: localiser les détails sur le CO

Le Sénat a voté le 99-1 mardi matin pour tuer le moratoire après un tumulte de dernière minute de groupes de défense des groupes de défense, des législateurs et des dizaines de milliers d'Américains qui l'ont vu comme une dangereuse dépassement. Ils ne sont pas restés silencieux. Le Sénat écouté.

Les essais cliniques sont un énorme goulot d'étranglement du développement de médicaments, et Kim et Reddy pensaient que le logiciel compatible AI qu'ils avait construit chez PI Health pourrait les aider à les faire plus rapidement et moins cher en élargissant le bassin de patients potentiellement éligibles. Mais le
