


Cha?ne de pensée pour le raisonnement Les modèles peuvent ne pas fonctionner à long terme
Jul 02, 2025 am 11:18 AMPar exemple, si vous posez une question à un modèle comme: "Que fait (x) personne à (x) l'entreprise?" Vous pouvez voir une cha?ne de raisonnement qui ressemble à quelque chose comme ceci, en supposant que le système sait comment récupérer les informations nécessaires:
- Localisation des détails sur l'entreprise
- Identifier la personne dans le répertoire
- évaluer le r?le et les antécédents de la personne
- Compilation des points de résumé
Il s'agit d'un cas de base, mais depuis plusieurs années, les gens se sont de plus en plus appuyés sur de telles cha?nes de raisonnement.
Pourtant, les chercheurs commencent à souligner les lacunes du raisonnement de la cha?ne de réflexion, ce qui suggère que cela peut nous donner un niveau de confiance sans fondement dans la fiabilité des réponses générées par l'IA.
La langue est intrinsèquement limitée
Une fa?on de comprendre les limites des cha?nes de raisonnement consiste à reconna?tre l'imprécision du langage lui-même - et la difficulté de la marquer efficacement.
La langue est intrinsèquement maladroite. Il y a des centaines de langues parlées à l'échelle mondiale, donc s'attendre à ce qu'une machine articule clairement sa logique interne dans un seul s'accompagne de contraintes importantes.
Considérez cet extrait d'un article de recherche publié par Anthropic , co-écrit par plusieurs chercheurs.
De telles études impliquent que les explications de la cha?ne de pensées n'ont pas la profondeur nécessaire pour une précision réelle, d'autant plus que les modèles augmentent et démontrent des performances plus avancées.
Considérez également une idée soulevée par Melanie Mitchell sur la substitution en 2023 , tout comme les méthodes COT gagnaient en popularité:
"Le raisonnement réside au c?ur de l'intelligence humaine, et la réalisation d'un raisonnement robuste et à usage général est depuis longtemps un objectif central de l'IA", a noté Mitchell. ?Bien que les modèles de grands langues (LLM) ne soient pas explicitement formés à la raison, ils ont montré des comportements qui semblent comme le raisonnement. Mais ces signes de pensée abstraite authentique, ou sont-ils motivés par des mécanismes moins fiables - comme la mémorisation et la correspondance de modèles basés sur les données d'entra?nement??
Mitchell a ensuite demandé pourquoi cette distinction importait.
?Si les LLM possèdent vraiment de fortes capacités de raisonnement général, cela suggérerait qu'ils progressent vers une intelligence générale artificielle de confiance?, a-t-elle expliqué. "Mais si leurs capacités reposent principalement sur les modèles de mémorisation, nous ne pouvons pas leur faire confiance pour gérer les taches en dehors du champ d'application de ce qu'ils ont déjà vu."
Mesurer la véracité?
Alan Turing a proposé le test de Turing au milieu du 20e siècle - l'idée étant que nous pouvons juger à quel point les machines imitent le comportement humain. Nous pouvons également évaluer les LLM en utilisant des références de haut niveau - testant leur capacité à résoudre des problèmes mathématiques ou à s'attaquer aux taches cognitives complexes.
Mais comment déterminer si une machine est véridique - ou, comme certains chercheurs le disent, "fidèle"?
L'article mentionné précédemment plonge dans le sujet de la mesure de la fidélité dans les sorties LLM. En le lisant, j'ai conclu que la véracité est subjective d'une manière que la précision mathématique ne l'est pas. Cela signifie que notre capacité à évaluer si une machine est honnête est assez limitée.
Voici une autre fa?on de le voir - nous savons que lorsque les LLM répondent aux invites, ils parcouraient essentiellement de grandes quantités de texte écrits par l'homme en ligne et l'imitent. Ils copient les connaissances factuelles, reproduisent les styles de raisonnement et reflètent la fa?on dont les humains communiquent - y compris les tactiques évasives, les omissions et même la tromperie délibérée dans des formes simples et sophistiquées.
Le lecteur pour les récompenses
De plus, les auteurs de l'article soutiennent que les LLM pourraient se comporter de manière similaire aux humains lors de la poursuite des incitations. Ils pourraient hiérarchiser certaines informations inexactes ou trompeuses si cela conduit à une récompense.
Ils appellent cela comme un ?piratage de récompense?.
?Le piratage de récompense est problématique?, déclarent les auteurs. "Même si cela fonctionne bien pour une tache spécifique, il est peu probable qu'il soit transféré à d'autres.
Au mieux inutile, au pire risqué - ce n'est pas rassurant.
Philosophie de la technologie
Il y a un autre angle crucial qui mérite d'être exploré.
L'évaluation des cha?nes de raisonnement n'est pas un problème technique en soi. Cela ne dépend pas du nombre de paramètres d'un modèle, de la fa?on dont ces poids sont ajustés ou de la fa?on de résoudre une équation particulière. Au contraire, il dépend des données de formation et de la fa?on dont elle est interprétée intuitivement. Autrement dit, cette discussion implique des domaines avec lesquels les experts quantitatifs s'engagent rarement lors de l'évaluation des modèles.
Cela me fait encore réfléchir que nous avons besoin de quelque chose que j'ai préconisé auparavant - une nouvelle génération de philosophes professionnels qui nous aident à naviguer dans les interactions de l'IA. Au lieu de compter uniquement sur les codeurs, nous avons besoin de penseurs capables d'appliquer des idées humaines profondes, souvent intuitives enracinées dans l'histoire et les valeurs sociétales à l'intelligence artificielle. Nous sommes loin dans ce domaine parce que nous nous sommes concentrés presque entièrement sur l'embauche de développeurs Python.
Je vais descendre de ma bo?te à savon maintenant, mais le point à retenir est clair: aller au-delà des approches de la cha?ne de pensées peut nécessiter de repenser la fa?on dont nous nous entra?nons et embauchons pour des r?les liés à l'IA.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undress AI Tool
Images de déshabillage gratuites

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
échangez les visages dans n'importe quelle vidéo sans effort grace à notre outil d'échange de visage AI entièrement gratuit?!

Article chaud

Outils chauds

Bloc-notes++7.3.1
éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

L'investissement est en plein essor, mais le capital seul ne suffit pas. Avec la montée et la décoloration des évaluations, les investisseurs dans les fonds de capital-risque axés sur l'IA doivent prendre une décision clé: acheter, construire ou partenaire pour gagner un avantage? Voici comment évaluer chaque option et PR

Parlons-en. Cette analyse d'une percée innovante de l'IA fait partie de ma couverture de colonne Forbes en cours sur les dernières personnes en IA, notamment en identifiant et en expliquant diverses complexités d'IA percutantes (voir le lien ici). Se dirigeant vers Agi et

Rappelez-vous le flot de modèles chinois open source qui a perturbé l'industrie du Genai plus t?t cette année? Alors que Deepseek a fait la majeure partie des titres, Kimi K1.5 était l'un des noms importants de la liste. Et le modèle était assez cool.

Parlons-en. Cette analyse d'une percée innovante de l'IA fait partie de ma couverture de colonne Forbes en cours sur les dernières personnes en IA, notamment en identifiant et en expliquant diverses complexités d'IA percutantes (voir le lien ici). Pour ces lecteurs qui h

à la mi-2025, l'AI ?Arme Race? se réchauffe, et Xai et Anthropic ont tous deux publié leurs modèles phares, Grok 4 et Claude 4.

Par exemple, si vous posez une question à un modèle comme: "Que fait (x) personne à (x) l'entreprise?" Vous pouvez voir une cha?ne de raisonnement qui ressemble à quelque chose comme ceci, en supposant que le système sait comment récupérer les informations nécessaires: localiser les détails sur le CO

Le Sénat a voté le 99-1 mardi matin pour tuer le moratoire après un tumulte de dernière minute de groupes de défense des groupes de défense, des législateurs et des dizaines de milliers d'Américains qui l'ont vu comme une dangereuse dépassement. Ils ne sont pas restés silencieux. Le Sénat écouté.

Les essais cliniques sont un énorme goulot d'étranglement du développement de médicaments, et Kim et Reddy pensaient que le logiciel compatible AI qu'ils avait construit chez PI Health pourrait les aider à les faire plus rapidement et moins cher en élargissant le bassin de patients potentiellement éligibles. Mais le
