欧美精品一区二区蜜臀亚洲,国产精品毛片va一区二区三区,欧美疯狂性xxxxxbbbbb

Table des matières

La langue est intrinsèquement limitée

Mesurer la véracité?

Le lecteur pour les récompenses

Philosophie de la technologie

Maison

Périphériques technologiques

Cha?ne de pensée pour le raisonnement Les modèles peuvent ne pas fonctionner à long terme

Barbara Streisand

Jul 02, 2025 am 11:18 AM

Cha?ne de pensée pour le raisonnement Les modèles peuvent ne pas fonctionner à long terme

Par exemple, si vous posez une question à un modèle comme: "Que fait (x) personne à (x) l'entreprise?" Vous pouvez voir une cha?ne de raisonnement qui ressemble à quelque chose comme ceci, en supposant que le système sait comment récupérer les informations nécessaires:

Localisation des détails sur l'entreprise
Identifier la personne dans le répertoire
évaluer le r?le et les antécédents de la personne
Compilation des points de résumé

Il s'agit d'un cas de base, mais depuis plusieurs années, les gens se sont de plus en plus appuyés sur de telles cha?nes de raisonnement.

Pourtant, les chercheurs commencent à souligner les lacunes du raisonnement de la cha?ne de réflexion, ce qui suggère que cela peut nous donner un niveau de confiance sans fondement dans la fiabilité des réponses générées par l'IA.

La langue est intrinsèquement limitée

Une fa?on de comprendre les limites des cha?nes de raisonnement consiste à reconna?tre l'imprécision du langage lui-même - et la difficulté de la marquer efficacement.

La langue est intrinsèquement maladroite. Il y a des centaines de langues parlées à l'échelle mondiale, donc s'attendre à ce qu'une machine articule clairement sa logique interne dans un seul s'accompagne de contraintes importantes.

Considérez cet extrait d'un article de recherche publié par Anthropic , co-écrit par plusieurs chercheurs.

De telles études impliquent que les explications de la cha?ne de pensées n'ont pas la profondeur nécessaire pour une précision réelle, d'autant plus que les modèles augmentent et démontrent des performances plus avancées.

Considérez également une idée soulevée par Melanie Mitchell sur la substitution en 2023 , tout comme les méthodes COT gagnaient en popularité:

"Le raisonnement réside au c?ur de l'intelligence humaine, et la réalisation d'un raisonnement robuste et à usage général est depuis longtemps un objectif central de l'IA", a noté Mitchell. ?Bien que les modèles de grands langues (LLM) ne soient pas explicitement formés à la raison, ils ont montré des comportements qui semblent comme le raisonnement. Mais ces signes de pensée abstraite authentique, ou sont-ils motivés par des mécanismes moins fiables - comme la mémorisation et la correspondance de modèles basés sur les données d'entra?nement??

Mitchell a ensuite demandé pourquoi cette distinction importait.

?Si les LLM possèdent vraiment de fortes capacités de raisonnement général, cela suggérerait qu'ils progressent vers une intelligence générale artificielle de confiance?, a-t-elle expliqué. "Mais si leurs capacités reposent principalement sur les modèles de mémorisation, nous ne pouvons pas leur faire confiance pour gérer les taches en dehors du champ d'application de ce qu'ils ont déjà vu."

Mesurer la véracité?

Alan Turing a proposé le test de Turing au milieu du 20e siècle - l'idée étant que nous pouvons juger à quel point les machines imitent le comportement humain. Nous pouvons également évaluer les LLM en utilisant des références de haut niveau - testant leur capacité à résoudre des problèmes mathématiques ou à s'attaquer aux taches cognitives complexes.

Mais comment déterminer si une machine est véridique - ou, comme certains chercheurs le disent, "fidèle"?

L'article mentionné précédemment plonge dans le sujet de la mesure de la fidélité dans les sorties LLM. En le lisant, j'ai conclu que la véracité est subjective d'une manière que la précision mathématique ne l'est pas. Cela signifie que notre capacité à évaluer si une machine est honnête est assez limitée.

Voici une autre fa?on de le voir - nous savons que lorsque les LLM répondent aux invites, ils parcouraient essentiellement de grandes quantités de texte écrits par l'homme en ligne et l'imitent. Ils copient les connaissances factuelles, reproduisent les styles de raisonnement et reflètent la fa?on dont les humains communiquent - y compris les tactiques évasives, les omissions et même la tromperie délibérée dans des formes simples et sophistiquées.

Le lecteur pour les récompenses

De plus, les auteurs de l'article soutiennent que les LLM pourraient se comporter de manière similaire aux humains lors de la poursuite des incitations. Ils pourraient hiérarchiser certaines informations inexactes ou trompeuses si cela conduit à une récompense.

Ils appellent cela comme un ?piratage de récompense?.

?Le piratage de récompense est problématique?, déclarent les auteurs. "Même si cela fonctionne bien pour une tache spécifique, il est peu probable qu'il soit transféré à d'autres.

Au mieux inutile, au pire risqué - ce n'est pas rassurant.

Philosophie de la technologie

Il y a un autre angle crucial qui mérite d'être exploré.

L'évaluation des cha?nes de raisonnement n'est pas un problème technique en soi. Cela ne dépend pas du nombre de paramètres d'un modèle, de la fa?on dont ces poids sont ajustés ou de la fa?on de résoudre une équation particulière. Au contraire, il dépend des données de formation et de la fa?on dont elle est interprétée intuitivement. Autrement dit, cette discussion implique des domaines avec lesquels les experts quantitatifs s'engagent rarement lors de l'évaluation des modèles.

Cela me fait encore réfléchir que nous avons besoin de quelque chose que j'ai préconisé auparavant - une nouvelle génération de philosophes professionnels qui nous aident à naviguer dans les interactions de l'IA. Au lieu de compter uniquement sur les codeurs, nous avons besoin de penseurs capables d'appliquer des idées humaines profondes, souvent intuitives enracinées dans l'histoire et les valeurs sociétales à l'intelligence artificielle. Nous sommes loin dans ce domaine parce que nous nous sommes concentrés presque entièrement sur l'embauche de développeurs Python.

Je vais descendre de ma bo?te à savon maintenant, mais le point à retenir est clair: aller au-delà des approches de la cha?ne de pensées peut nécessiter de repenser la fa?on dont nous nous entra?nons et embauchons pour des r?les liés à l'IA.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefa?on, veuillez contacter admin@php.cn

Outils d'IA chauds

Undress AI Tool

Images de déshabillage gratuites

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

échangez les visages dans n'importe quelle vidéo sans effort grace à notre outil d'échange de visage AI entièrement gratuit?!

Afficher plus

Article chaud

Guide de construction d'Agnes Tachyon | Un joli Musume Derby

1 Il y a quelques mois By Jack chen

Guide de construction de Grass Wonder | Uma musume joli derby

3 Il y a quelques semaines By Jack chen

<??>: 99 nuits dans la forêt - tous les badges et comment les déverrouiller

3 Il y a quelques semaines By DDD

Uma Musume Pretty Derby Banner Schedule (juillet 2025)

3 Il y a quelques semaines By Jack chen

NYT ?Connexions? Insigne pour le mercredi 2 juillet: Indices et réponses pour le jeu d'aujourd'hui

1 Il y a quelques mois By DDD

Afficher plus

Outils chauds

Bloc-notes++7.3.1

éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Tutoriel Laravel

1597

Tutoriel PHP

1487

NYT MINI RéPONSES DE MOTS CROSS

268

587

NYT Connexions Indices et réponses

129

836

Afficher plus

Related knowledge

L'investisseur de l'IA est resté à l'arrêt? 3 chemins stratégiques pour acheter, construire ou s'associer avec les fournisseurs d'IA Jul 02, 2025 am 11:13 AM

L'investissement est en plein essor, mais le capital seul ne suffit pas. Avec la montée et la décoloration des évaluations, les investisseurs dans les fonds de capital-risque axés sur l'IA doivent prendre une décision clé: acheter, construire ou partenaire pour gagner un avantage? Voici comment évaluer chaque option et PR

AGI et AI Superintelligence vont fortement frapper la barrière d'hypothèse du plafond humain Jul 04, 2025 am 11:10 AM

Parlons-en. Cette analyse d'une percée innovante de l'IA fait partie de ma couverture de colonne Forbes en cours sur les dernières personnes en IA, notamment en identifiant et en expliquant diverses complexités d'IA percutantes (voir le lien ici). Se dirigeant vers Agi et

Kimi K2: le modèle agentique open source le plus puissant Jul 12, 2025 am 09:16 AM

Rappelez-vous le flot de modèles chinois open source qui a perturbé l'industrie du Genai plus t?t cette année? Alors que Deepseek a fait la majeure partie des titres, Kimi K1.5 était l'un des noms importants de la liste. Et le modèle était assez cool.

Prévision future d'une explosion de renseignement massive sur la voie de l'IA à AGI Jul 02, 2025 am 11:19 AM

Grok 4 vs Claude 4: Quel est le meilleur? Jul 12, 2025 am 09:37 AM

à la mi-2025, l'AI ?Arme Race? se réchauffe, et Xai et Anthropic ont tous deux publié leurs modèles phares, Grok 4 et Claude 4.

Cha?ne de pensée pour le raisonnement Les modèles peuvent ne pas fonctionner à long terme Jul 02, 2025 am 11:18 AM

Le Sénat tue l'interdiction de l'IA au niveau de l'état à 10 ans niché dans le projet de loi budgétaire de Trump Jul 02, 2025 am 11:16 AM

Le Sénat a voté le 99-1 mardi matin pour tuer le moratoire après un tumulte de dernière minute de groupes de défense des groupes de défense, des législateurs et des dizaines de milliers d'Américains qui l'ont vu comme une dangereuse dépassement. Ils ne sont pas restés silencieux. Le Sénat écouté.

Cette startup a construit un h?pital en Inde pour tester son logiciel AI Jul 02, 2025 am 11:14 AM

Les essais cliniques sont un énorme goulot d'étranglement du développement de médicaments, et Kim et Reddy pensaient que le logiciel compatible AI qu'ils avait construit chez PI Health pourrait les aider à les faire plus rapidement et moins cher en élargissant le bassin de patients potentiellement éligibles. Mais le

See all articles

亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

Cha?ne de pensée pour le raisonnement Les modèles peuvent ne pas fonctionner à long terme

La langue est intrinsèquement limitée

Mesurer la véracité?

Le lecteur pour les récompenses

Philosophie de la technologie

Outils d'IA chauds

Undress AI Tool

Undresser.AI Undress

AI Clothes Remover

Clothoff.io

Video Face Swap

Article chaud

Outils chauds

Bloc-notes++7.3.1

SublimeText3 version chinoise

Envoyer Studio 13.0.1

Dreamweaver CS6

SublimeText3 version Mac

Sujets chauds