


O1-MINI: un modèle de changement de jeu pour la tige et le raisonnement
Apr 13, 2025 am 09:55 AMOpenAI présente O1-Mini, un modèle de raisonnement rentable en mettant l'accent sur les sujets STEM. Le modèle démontre des performances impressionnantes en mathématiques et en codage, ressemblant étroitement à son prédécesseur, Openai O1, sur divers repères d'évaluation. OpenAI prévoit que O1-MinI servira de solution rapide et économique pour les applications exigeant des capacités de raisonnement sans connaissances globales approfondies. Le lancement d'O1-MINI est ciblé aux utilisateurs d'API de niveau 5, offrant une réduction des co?ts de 80% par rapport à l'Openai O1-Preview. Examinons plus en profondeur le fonctionnement de l'O1 Mini.
Aper?u
- O1-Mini d'OpenAI est un modèle de raisonnement STEM rentable, surpassant ses pairs.
- Une formation spécialisée fait d'O1-Mini un expert en STEM, excellant en mathématiques et en codage.
- Les évaluations humaines présentent les forces d'O1-Mini dans le raisonnement, la favorisant par rapport à GPT-4O.
- Les mesures de sécurité garantissent l'utilisation responsable d'O1-MinI, avec une robustesse de jailbreak améliorée.
- L'innovation d'Openai avec O1-Mini offre un outil STEM fiable et transparent.
Table des matières
- O1-MINI VS AUTRES LLMS
- GPT 4O VS O1 VS O1-MINI
- Comment utiliser O1-MinI?
- Performance stellaire d'O1-Mini: mathématiques, codage et au-delà
- Mathématiques
- Codage
- TIGE
- évaluation des préférences humaines
- Composant de sécurité dans O1-MINI
- Note finale
O1-MINI VS AUTRES LLMS
Les LLM sont généralement pré-formées sur de grands ensembles de données de texte. Mais voici la prise; Bien qu'ils aient cette vaste connaissance, cela peut parfois être un peu un fardeau. Vous voyez, toutes ces informations les rendent un peu lentes et co?teuses à utiliser dans les scénarios du monde réel.
Ce qui distingue O1-Mini des autres LLMS, c'est le fait que c'est formé pour la tige. Cette formation spécialisée fait d'O1-Mini un expert en taches liées aux STEM. Le modèle est efficace et rentable, parfait pour les applications STEM. Ses performances sont impressionnantes, en particulier en mathématiques et en codage. O1-MINI est optimisé pour la vitesse et la précision du raisonnement STEM. C'est un outil précieux pour les chercheurs et les éducateurs.
O1-MinI excelle dans l'intelligence et le raisonnement de référence, surprenant O1-Preview et O1, mais se débat avec les taches de connaissances factuelles non soumises.
Lire aussi: O1: le nouveau modèle d'Openai qui ?pense? avant de répondre à des problèmes difficiles
GPT 4O VS O1 VS O1-MINI
La comparaison des réponses sur une question de raisonnement de mots met en évidence la disparité des performances. Alors que GPT-4O a eu du mal, O1-Mini et O1-Preview ont excellé, fournissant des réponses précises. Notamment, la vitesse d'O1-Mini était remarquable, répondant environ 3-5 fois plus rapide.
Comment utiliser O1-MinI?
- Chatgpt Plus et Utilisateurs de l'équipe : Accédez à O1-MinI du Picker Model aujourd'hui, avec des limites hebdomadaires 50 messages.
- ChatGPT Enterprise and Education Users : L'accès aux deux modèles commence la semaine prochaine.
- Développeurs : les utilisateurs d'API de niveau 5 peuvent expérimenter ces modèles aujourd'hui, mais des fonctionnalités comme l'appel de fonction et le streaming ne sont pas encore disponibles.
- Utilisateurs gratuits de ChatGPT : O1-MINI sera bient?t disponible pour tous les utilisateurs gratuits.
Performance stellaire d'O1-Mini: mathématiques, codage et au-delà
Le modèle Openai O1-Mini a été mis à l'épreuve dans diverses compétitions et références, et ses performances sont assez impressionnantes. Regardons les différentes composantes une par une:
Mathématiques
Dans le concours de mathématiques AIME du lycée, O1-Mini a obtenu un score de 70,0%, ce qui est à égalité avec le modèle O1 plus cher (74,4%) et nettement meilleur que O1-Preview (44,6%). Ce score place O1-Mini parmi les 500 meilleurs élèves du secondaire américain, une réalisation remarquable.
Codage
Passant au codage, O1-MinI brille sur le site Web de la compétition Codeforces, atteignant un score ELO de 1650. Ce score est compétitif avec O1 (1673) et dépasse O1-Preview (1258). Cela place O1-MinI dans le 86e centile des programmeurs qui rivalisent sur la plate-forme CodeForces. De plus, O1-MINI fonctionne bien sur la référence codante Humaneval et les défis de capture de cybersécurité au niveau du lycée (CTF), solidifiant davantage ses prouesses de codage.
TIGE
O1-MinI a prouvé son courage dans divers repères académiques qui nécessitent de solides compétences de raisonnement. Dans des références comme GPQA (science) et Math-500, O1-Mini a surpassé le GPT-4O, présentant son excellence dans les taches liées aux STEM. Cependant, en ce qui concerne les taches qui nécessitent un éventail plus large de connaissances, telles que MMLU, O1-MINI peut ne pas fonctionner aussi bien que GPT-4O. En effet, O1-MINI est optimisé pour le raisonnement STEM et peut manquer des connaissances mondiales approfondies que GPT-4O possède.
évaluation des préférences humaines
Les évaluateurs humains ont activement comparé les performances d'O1-Mini contre GPT-4O sur des invites difficiles dans divers domaines. Les résultats ont montré une préférence pour O1-MINI dans les domaines du raisonnement, mais GPT-4O a pris les devants dans les zones axées sur le langage, mettant en évidence les forces des modèles dans différents contextes.
Composant de sécurité dans O1-MINI
La sécurité et l'alignement du modèle O1-MINI sont de la plus haute importance pour assurer son utilisation responsable et éthique. Voici une explication des mesures de sécurité mises en ?uvre:
- Techniques de formation: l'approche de formation d'O1-Mini reflète celle de son prédécesseur, O1-Preview, en se concentrant sur l'alignement et la sécurité. Cette stratégie garantit que les résultats du modèle s'alignent sur les valeurs humaines et atténuent les risques potentiels, un aspect crucial de son développement.
- Robustesse jailbreak: L'une des principales caractéristiques de sécurité d'O1-Mini est sa robustesse de jailbreak améliorée. Sur une version interne de l'ensemble de données StrongReject, O1-Mini démontre une robustesse de jailbreak de 59% plus élevée par rapport à GPT-4O. La robustesse jailbreak fait référence à la capacité du modèle à résister aux tentatives de manipulation ou de mauvaise utilisation de ses résultats, garantissant qu'elle reste alignée sur son objectif prévu.
- évaluation de la sécurité: Avant de déployer O1-MinI, une évaluation approfondie de la sécurité a été effectuée. Cette évaluation a suivi la même approche utilisée pour l'O1-Preview, qui comprenait des mesures de préparation, des équipements externes et des évaluations de sécurité complètes. L'équipe rouge externe implique d'engager des experts indépendants pour identifier les vulnérabilités potentielles et les risques de sécurité.
- Résultats détaillés: Les résultats de ces évaluations de sécurité sont publiés dans la carte du système qui l'accompagne. Cette transparence permet aux utilisateurs et aux chercheurs de comprendre les mesures de sécurité du modèle et de prendre des décisions éclairées sur son utilisation. La carte système donne un aper?u des performances, des limites et des risques potentiels du modèle, garantissant un déploiement et une utilisation responsables.
Note finale
O1-Mini d'Openai change la donne pour les applications STEM, offrant une économie et des performances impressionnantes. Sa formation spécialisée améliore les capacités de raisonnement, en particulier en mathématiques et en codage. Avec des mesures de sécurité robustes, O1-MinI excelle dans les repères STEM, fournissant un outil fiable et transparent pour les chercheurs et les éducateurs.
Restez à l'écoute sur Analytics Vidhya Blog pour en savoir plus sur les utilisations d'O1 Mini!
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undress AI Tool
Images de déshabillage gratuites

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
échangez les visages dans n'importe quelle vidéo sans effort grace à notre outil d'échange de visage AI entièrement gratuit?!

Article chaud

Outils chauds

Bloc-notes++7.3.1
éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

L'investissement est en plein essor, mais le capital seul ne suffit pas. Avec la montée et la décoloration des évaluations, les investisseurs dans les fonds de capital-risque axés sur l'IA doivent prendre une décision clé: acheter, construire ou partenaire pour gagner un avantage? Voici comment évaluer chaque option et PR

Parlons-en. Cette analyse d'une percée innovante de l'IA fait partie de ma couverture de colonne Forbes en cours sur les dernières personnes en IA, notamment en identifiant et en expliquant diverses complexités d'IA percutantes (voir le lien ici). Se dirigeant vers Agi et

Rappelez-vous le flot de modèles chinois open source qui a perturbé l'industrie du Genai plus t?t cette année? Alors que Deepseek a fait la majeure partie des titres, Kimi K1.5 était l'un des noms importants de la liste. Et le modèle était assez cool.

Parlons-en. Cette analyse d'une percée innovante de l'IA fait partie de ma couverture de colonne Forbes en cours sur les dernières personnes en IA, notamment en identifiant et en expliquant diverses complexités d'IA percutantes (voir le lien ici). Pour ces lecteurs qui h

à la mi-2025, l'AI ?Arme Race? se réchauffe, et Xai et Anthropic ont tous deux publié leurs modèles phares, Grok 4 et Claude 4.

Par exemple, si vous posez une question à un modèle comme: "Que fait (x) personne à (x) l'entreprise?" Vous pouvez voir une cha?ne de raisonnement qui ressemble à quelque chose comme ceci, en supposant que le système sait comment récupérer les informations nécessaires: localiser les détails sur le CO

Le Sénat a voté le 99-1 mardi matin pour tuer le moratoire après un tumulte de dernière minute de groupes de défense des groupes de défense, des législateurs et des dizaines de milliers d'Américains qui l'ont vu comme une dangereuse dépassement. Ils ne sont pas restés silencieux. Le Sénat écouté.

Les essais cliniques sont un énorme goulot d'étranglement du développement de médicaments, et Kim et Reddy pensaient que le logiciel compatible AI qu'ils avait construit chez PI Health pourrait les aider à les faire plus rapidement et moins cher en élargissant le bassin de patients potentiellement éligibles. Mais le
