亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

Table des matières
3. Réflexions (netteté intellectuelle, raisonnement complexe)
Maison Périphériques technologiques IA Au-delà du drame de lama: 4 nouvelles références pour les modèles de grande langue

Au-delà du drame de lama: 4 nouvelles références pour les modèles de grande langue

Apr 14, 2025 am 11:09 AM

Au-delà du drame de lama: 4 nouvelles références pour les modèles de grande langue

Benchmarks en difficulté: une étude de cas de lama

Début avril 2025, Meta a dévoilé sa suite de modèles Llama 4, avec des métriques de performance impressionnantes qui les ont placés favorablement contre des concurrents comme GPT-4O et Claude 3.5 Sonnet. Au c?ur du lancement du bourdonnement, Llama 4 Maverick a revendiqué le premier classement sur Lmarena, une plate-forme populaire où les modèles sont classés en fonction des préférences humaines dans les "batailles de chatbot" en tête.

Cependant, la célébration a été de courte durée. Le scepticisme est apparu rapidement. Comme rapporté par des publications comme ZDNET , et le registre , il est apparu que la version de Llama 4 Maverick s'est soumise à Lmarena ("Llama-4-Maverick-03-26-Experimental") n'était pas la même que le modèle publique. Les critiques ont accusé Meta de soumettre une variante non publique spécialement réglée con?ue pour effectuer de manière optimale dans l'environnement de référence spécifique - une pratique parfois surnommée "piratage de référence" ou " Rizz [ing]

?Le LLM pour charger les électeurs humains.

Un carburant supplémentaire a été ajouté par des publications en ligne anonymes, prétendument de Meta Insiders , affirmant que l'entreprise avait du mal à atteindre les objectifs de performance et les données post-entra?nement potentiellement ajustées pour augmenter les scores. Cela a soulevé des préoccupations concernant la ?contamination des données?, où les modèles pourraient par inadvertance (ou intentionnellement) être formés sur des données similaires ou identiques aux questions de test de référence, semblables à donner à un élève les réponses à l'examen à l'avance.

Le vice-président de Meta de l'IA génératif a refusé publiquement la formation sur les ensembles de tests, attribuant les variations de performance aux besoins de réglage spécifiques à la plate-forme. Lmarena elle-même a déclaré que Meta aurait d? être plus claire quant à la nature expérimentale du modèle testé et a mis à jour ses politiques pour assurer des évaluations plus équitables. Indépendamment de l'intention, le drame de lama a mis en évidence un talon d'Achille dans l'écosystème LLM: nos méthodes d'évaluation sont fragiles et jouables.

Les goulots d'étranglement de référence: pourquoi les évaluations actuelles ne sont pas courtes

L'incident de Llama 4 est symptomatique de problèmes plus larges avec la fa?on dont nous évaluons actuellement les LLM. Des références standard comme MMLU (compréhension massive du langage multitache), Humaneval (codage), mathématiques (raisonnement mathématique) et autres jouent un r?le vital dans la comparaison des capacités spécifiques. Ils fournissent des mesures quantifiables utiles pour suivre les progrès sur les taches définies. Cependant, ils souffrent de limitations importantes:

Contamination des données: Comme les LLM sont formés sur de vastes ensembles de données à l'échelle Web, il est de plus en plus probable que les données de référence fuisent par inadvertance dans le corpus de formation, gonflant artificiellement les scores et compromettant l'intégrité de l'évaluation.

Débitnage de référence et saturation: les modèles peuvent devenir hautement optimisés ("surfiance") pour les références populaires, fonctionnant bien sur le test sans nécessairement posséder de solides compétences généralisables. Comme les modèles sont systématiquement ?maximum?, les références perdent leur pouvoir et leur pertinence discriminatoires.

Focus étroite des taches: de nombreux repères testent les compétences isolées (par exemple, questions à choix multiples, l'achèvement du code) qui ne capturent pas pleinement la nature complexe, nuancée et souvent ambigu des taches et interactions du monde réel. Un modèle excellant sur les repères pourrait encore échouer dans une application pratique.

Manque de test de robustesse: les évaluations standard ne testent souvent pas les performances des modèles avec des données bruyantes, des entrées adversaires (invites subtilement manipulées con?ues pour provoquer une défaillance) ou des scénarios hors distribution sur lesquels ils n'étaient pas explicitement formés.

Ignorer les dimensions qualitatives: des aspects sensibles comme l'alignement éthique, l'empathie, l'expérience utilisateur, la fiabilité et la capacité de gérer les taches subjectives ou créatives sont mal capturées par les mesures quantitatives actuelles.

Bonnes mortes opérationnelles: les repères envisagent rarement des facteurs de déploiement pratiques tels que la latence, le débit, la consommation de ressources ou la stabilité sous charge.

S'appuyer uniquement sur ces repères limités nous donne une image incomplète et potentiellement trompeuse de la valeur et des risques d'un LLM. Il est temps de les augmenter avec des évaluations qui sondent des aspects plus profonds et plus qualitatifs du comportement de l'IA.

Proposer de nouvelles frontières: 4 repères centrés sur l'homme

Pour favoriser le développement de LLM qui ne sont pas seulement statistiquement compétents mais aussi responsables, empathiques, réfléchis et véritablement utiles en interaction, on pourrait envisager de compléter les mesures existantes avec des évaluations selon quatre nouvelles dimensions:

1. Aspirations (valeurs, morale, éthique)

Au-delà de simples filtres de sécurité empêchant les résultats nocifs, nous devons évaluer l'alignement d'un LLM sur les valeurs humaines de base comme l'équité, l'honnêteté et le respect. Cela implique d'évaluer:

Raisonnement éthique: comment le modèle navigue-t-il des dilemmes éthiques complexes? Peut-il articuler les justifications basées sur des cadres éthiques reconnus?

Antarmées de biais: le modèle présente-t-il une équité dans différents groupes démographiques? Les outils et les ensembles de données comme les stéréoset visent à détecter les biais, mais des tests de scénarios plus nuancés sont nécessaires.

Vérité: Dans quelle mesure le modèle évite-t-il de générer de la désinformation ("hallucinations"), d'admettre l'incertitude et de se corriger? Les benchmarks comme véritableqa sont un début.

Responsabilité et transparence: le modèle peut- il expliquer son raisonnement (même s'il est simplifié)? Les mécanismes sont-ils en place pour les décisions d'audit et les commentaires des utilisateurs? L'évaluation des aspirations nécessite d'aller au-delà des réponses simples / mauvaises pour évaluer le processus et les principes guidant le comportement de l'IA, nécessitant souvent un jugement humain et un alignement sur les cadres d'IA éthiques établis.

2. émotions (empathie, prise de perspective)

à mesure que les LLM deviennent des compagnons, des tuteurs et des agents du service à la clientèle, leur capacité à comprendre et à répondre de manière appropriée aux émotions humaines est essentielle. Cela va bien au-delà de l'analyse des sentiments fondamentaux:

Reconnaissance émotionnelle: le modèle peut-il déduire avec précision les états émotionnels nuancés du texte (et potentiellement des expressions de voix ou des expressions faciales dans les systèmes multimodaux)?

Réponse empathique: Le modèle réagit-il d'une manière per?ue comme favorable, compréhensive et validation sans être manipulative?

Prenant la perspective: le modèle peut-il comprendre une situation du point de vue de l'utilisateur, même si elle diffère de sa propre "connaissance"?

Propriété: Le modèle adapte-t-il son expression émotionnelle au contexte (par exemple, professionnel vs personnel)? Développer des mesures pour l'empathie est difficile mais essentiel pour une société infusée à l'IA. Cela pourrait impliquer d'évaluer les réponses de l'IA dans des scénarios simulés (par exemple, l'utilisateur exprimant la frustration, la tristesse, l'excitation) utilisant des évaluateurs humains pour évaluer l'empathie per?ue et la protection de la réponse.

3. Réflexions (netteté intellectuelle, raisonnement complexe)

De nombreux repères testent le rappel factuel ou la correspondance de motifs. Nous devons évaluer les capacités intellectuelles plus profondes:

Raisonnement en plusieurs étapes: le modèle peut-il décomposer des problèmes complexes et montrer son travail, en utilisant des techniques comme la cha?ne de pensées ou explorer plusieurs chemins de solution comme Tree of Thought?

Inférence logique: dans quelle mesure le modèle gère-t-il bien déductif (général à spécifique), inductif (spécifique au général) et abductif (inférence au meilleur explication), en particulier avec des informations incomplètes?

Réflexion et créativité abstraites: le modèle peut-il saisir et manipuler des concepts abstraits, générer de nouvelles idées ou résoudre des problèmes nécessitant une pensée latérale?

Métacognition: Le modèle démontre-t-il une conscience de ses propres limites de connaissance? Peut-il identifier l'ambigu?té ou les locaux défectueux dans une invite? L'évaluation de ceux-ci nécessite des taches plus complexes que les questions et réponses standard, impliquant potentiellement des puzzles logiques, des invites de génération créative jugées par les humains et l'analyse des étapes de raisonnement montrées par le modèle.

4. Interaction (langue, qualité du dialogue, facilité d'utilisation)

Un LLM peut être bien informé mais frustrant d'interagir. Une évaluation devrait également considérer l'expérience utilisateur:

Cohérence et pertinence: la conversation circule-t-elle logiquement? Les réponses restent-elles sur le sujet et abordent-elles directement l'intention de l'utilisateur?

Naturaire et ma?trise: la langue semble-t-elle humaine et engageante, évitant la répétition robotique ou le phrasé maladroit?

Maintenance de contexte: le modèle peut-il se souvenir des informations clés de la conversation plus t?t dans la conversation et les utiliser de manière appropriée ?

Adaptabilité et réparation: le modèle peut-il gérer les interruptions, les changements de sujet, les requêtes ambigu?s et se remettre gracieusement des malentendus (réparation de dialogue)?

La convivialité et les conseils: l'interaction est-elle intuitive? Le modèle fournit-il des instructions ou des suggestions claires en cas de besoin? Cela gére-t-il les erreurs élégamment? L'évaluation de la qualité d'interaction repose souvent sur le jugement humain, l'évaluation des facteurs tels que le taux de réussite des taches, la satisfaction des utilisateurs, la longueur / l'efficacité de la conversation et l'utilité per?ue.

Le chemin à terme: embrasser l'évaluation holistique

Proposer ces nouveaux repères ne consiste pas à éliminer ceux existants. Les mesures quantitatives pour les compétences spécifiques restent précieuses. Cependant, ils doivent être contextualisés dans un cadre d'évaluation plus large et plus holistique incorporant ces dimensions plus profondes et centrées sur l'homme.

Certes, la mise en ?uvre de ce type d'évaluation centrée sur l'homme présente les défis eux-mêmes. L'évaluation des aspirations, des émotions, des pensées et des interactions nécessite encore une surveillance humaine importante, qui est subjective, longue et co?teuse. Le développement de protocoles standardisés mais flexibles pour ces évaluations qualitatives est un domaine de recherche en cours, exigeant une collaboration entre informaticiens, psychologues, éthiciens, linguistes et experts d'interaction des ordinateurs humains.

De plus, l'évaluation ne peut pas être statique. à mesure que les modèles évoluent, nos références doivent également. Nous avons besoin de systèmes dynamiques en expansion organique qui s'adaptent aux nouvelles capacités et aux modes de défaillance potentiels, allant au-delà des ensembles de données fixes vers des scénarios de test plus réalistes, interactifs et potentiellement contradictoires .

Le "drame de lama" est un rappel opportun que chasser la suprématie des classements sur des références étroites peut masquer les qualités qui comptent vraiment pour créer une IA digne de confiance et bénéfique. En adoptant une approche d'évaluation plus complète - celle qui évalue non seulement ce que les LLM savent, mais comment ils pensent, ressentent (en simulation), aspire (en alignement) et interagir - nous pouvons guider le développement de l'IA de manière à améliorer véritablement la capacité humaine et s'aligne sur les meilleurs intérêts de l'humanité. L'objectif n'est pas seulement des machines plus intelligentes mais des partenaires artificiels plus sages, plus responsables et plus collaboratifs.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefa?on, veuillez contacter admin@php.cn

Outils d'IA chauds

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Video Face Swap

échangez les visages dans n'importe quelle vidéo sans effort grace à notre outil d'échange de visage AI entièrement gratuit?!

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

L'investisseur de l'IA est resté à l'arrêt? 3 chemins stratégiques pour acheter, construire ou s'associer avec les fournisseurs d'IA L'investisseur de l'IA est resté à l'arrêt? 3 chemins stratégiques pour acheter, construire ou s'associer avec les fournisseurs d'IA Jul 02, 2025 am 11:13 AM

L'investissement est en plein essor, mais le capital seul ne suffit pas. Avec la montée et la décoloration des évaluations, les investisseurs dans les fonds de capital-risque axés sur l'IA doivent prendre une décision clé: acheter, construire ou partenaire pour gagner un avantage? Voici comment évaluer chaque option et PR

AGI et AI Superintelligence vont fortement frapper la barrière d'hypothèse du plafond humain AGI et AI Superintelligence vont fortement frapper la barrière d'hypothèse du plafond humain Jul 04, 2025 am 11:10 AM

Parlons-en. Cette analyse d'une percée innovante de l'IA fait partie de ma couverture de colonne Forbes en cours sur les dernières personnes en IA, notamment en identifiant et en expliquant diverses complexités d'IA percutantes (voir le lien ici). Se dirigeant vers Agi et

Kimi K2: le modèle agentique open source le plus puissant Kimi K2: le modèle agentique open source le plus puissant Jul 12, 2025 am 09:16 AM

Rappelez-vous le flot de modèles chinois open source qui a perturbé l'industrie du Genai plus t?t cette année? Alors que Deepseek a fait la majeure partie des titres, Kimi K1.5 était l'un des noms importants de la liste. Et le modèle était assez cool.

Prévision future d'une explosion de renseignement massive sur la voie de l'IA à AGI Prévision future d'une explosion de renseignement massive sur la voie de l'IA à AGI Jul 02, 2025 am 11:19 AM

Parlons-en. Cette analyse d'une percée innovante de l'IA fait partie de ma couverture de colonne Forbes en cours sur les dernières personnes en IA, notamment en identifiant et en expliquant diverses complexités d'IA percutantes (voir le lien ici). Pour ces lecteurs qui h

Grok 4 vs Claude 4: Quel est le meilleur? Grok 4 vs Claude 4: Quel est le meilleur? Jul 12, 2025 am 09:37 AM

à la mi-2025, l'AI ?Arme Race? se réchauffe, et Xai et Anthropic ont tous deux publié leurs modèles phares, Grok 4 et Claude 4.

Cha?ne de pensée pour le raisonnement Les modèles peuvent ne pas fonctionner à long terme Cha?ne de pensée pour le raisonnement Les modèles peuvent ne pas fonctionner à long terme Jul 02, 2025 am 11:18 AM

Par exemple, si vous posez une question à un modèle comme: "Que fait (x) personne à (x) l'entreprise?" Vous pouvez voir une cha?ne de raisonnement qui ressemble à quelque chose comme ceci, en supposant que le système sait comment récupérer les informations nécessaires: localiser les détails sur le CO

Le Sénat tue l'interdiction de l'IA au niveau de l'état à 10 ans niché dans le projet de loi budgétaire de Trump Le Sénat tue l'interdiction de l'IA au niveau de l'état à 10 ans niché dans le projet de loi budgétaire de Trump Jul 02, 2025 am 11:16 AM

Le Sénat a voté le 99-1 mardi matin pour tuer le moratoire après un tumulte de dernière minute de groupes de défense des groupes de défense, des législateurs et des dizaines de milliers d'Américains qui l'ont vu comme une dangereuse dépassement. Ils ne sont pas restés silencieux. Le Sénat écouté.

Cette startup a construit un h?pital en Inde pour tester son logiciel AI Cette startup a construit un h?pital en Inde pour tester son logiciel AI Jul 02, 2025 am 11:14 AM

Les essais cliniques sont un énorme goulot d'étranglement du développement de médicaments, et Kim et Reddy pensaient que le logiciel compatible AI qu'ils avait construit chez PI Health pourrait les aider à les faire plus rapidement et moins cher en élargissant le bassin de patients potentiellement éligibles. Mais le

See all articles