亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

Table des matières
Table des matières
Qu'est-ce que Deepcoder-14b?
Caractéristiques clés de Deepcoder-14b
Performance de référence Deepcoder-14B
Derrière le succès de Deepcoder: Environnement de bac à sable et recette de formation
Infrastructure d'exécution de code innovante
1. Approche à double bac à sable
2. Conception de récompense de principe
GRPO: algorithme de formation amélioré
Innovations algorithmiques clés dans GRPO
Formation plus intelligente: le contexte de mise à l'échelle et le raisonnement ensemble
1. Contexte itératif s'allongeant
2. Filtrage trop long (inspiré par Dapo)
Curration des données: du chaos au nettoyage et des problèmes de codage vérifiés
Devenir pratique avec Deepcoder
étape 1: Configuration de votre environnement
étape 2: Préparer les données de formation
étape 3: Options de formation pour différentes échelles
Pour les chercheurs individuels
Pour les équipes de recherche
étape 4: Cadre d'évaluation rigoureux
Performance pratique de Deepcoder-14b
Deepcoder-14b vs O3-Mini & O1: Comparaison des performances
Tache 1: Comparaison des outils de génération de code - Deepcoder vs O3-MinI (PHI-2)
Tache 2: Fixation et raisonnement de bogues - Deepcoder vs O1 (LLAMA-2 7B)
Développements futurs de Deepcoder-14b
Deepcoder-14b: accès et utilisation
Conclusion
Questions fréquemment posées
Maison Périphériques technologiques IA Deepcoder-14b: la compétition open source à O3-MinI et O1

Deepcoder-14b: la compétition open source à O3-MinI et O1

Apr 26, 2025 am 09:07 AM

Dans un développement significatif pour la communauté de l'IA, Agetica et ensemble AI ont publié un modèle de codage d'IA open source nommé Deepcoder-14b. Offrant des capacités de génération de code à égalité avec des concurrents de source fermée comme O3-MINI et O1 d'OpenAI, Deepcoder-14B se positionne comme une formidable alternative open source aux modèles propriétaires. De plus, ce nouveau modèle assure la transparence complète et l'accessibilité des développeurs. Dans cet article, nous explorerons les fonctionnalités, la formation et les scores de référence de Deepcoder-14b et comparer ses performances réelles avec celles de O3-MinI et O1.

Table des matières

  • Qu'est-ce que Deepcoder-14b?
  • Performance de référence Deepcoder-14B
  • Derrière le succès de Deepcoder: Environnement de bac à sable et recette de formation
  • Curration des données: du chaos au nettoyage et des problèmes de codage vérifiés
  • Deepcoder-14b Renforcement Apprentissage à l'échelle: le cadre RLLM
  • Devenir pratique avec Deepcoder
  • Performance pratique de Deepcoder-14b
  • Deepcoder-14b vs O3-Mini & O1: Comparaison des performances
  • Développements futurs de Deepcoder-14b
  • Deepcoder-14b: accès et utilisation
  • Conclusion
  • Questions fréquemment posées

Qu'est-ce que Deepcoder-14b?

Deepcoder-14b est un modèle de génération de code AI open source avec 14 milliards de paramètres. Contrairement aux alternatives propriétaires, il offre une transparence complète tout en correspondant aux capacités et aux performances de O3-Mini et O1 d'OpenAI. Deepcoder-14b démontre ainsi que les modèles de codage d'IA open source peuvent rivaliser avec les leaders de l'industrie sans nécessiter de ressources informatiques massives.

Le modèle utilise des techniques de formation innovantes telles que l'allongement du contexte itératif et le filtrage trop long, ce qui lui permet de raisonner à travers les fenêtres de contexte 64k malgré leur formation uniquement sur des contextes 32k. Au-delà de ses capacités de codage impressionnantes, Deepcoder-14b démontre également de solides compétences de raisonnement mathématique dans les tests de référence standard.

Caractéristiques clés de Deepcoder-14b

Deepcoder-14b avance les modèles de codage d'IA open-source avec des capacités rivalisant avec des alternatives propriétaires.

  • Techniques de formation avancées : utilise un allongement du contexte itératif pour gérer le contexte 64K. Implémentez l'apprentissage du renforcement de Deepcoder-14b avec un filtrage trop long.
  • Ensemble de données de haute qualité : formé sur des problèmes de codage vérifiés 24K. Chaque problème a des contr?les qualité stricts avec 5 cas de test.
  • Entièrement open-source : fournit une transparence complète avec toutes les données de code et de formation. Disponible sur Github et le visage étreint.
  • Efficace des ressources : prend en charge diverses méthodes de quantification pour l'efficacité. Compatible avec les systèmes d'inférence Tensorrt et VllM.

Performance de référence Deepcoder-14B

Ci-dessous, nous présentons une comparaison complète de Deepcoder-14b par rapport aux outils de génération de code open-source et propriétaires. Ces repères évaluent les performances à travers plusieurs dimensions de la capacité de codage et la résolution de problèmes interdomaines.

Modèle LCB (8/1 / 24-2 / ??1/25) CodeForces Note Forces de codes centile Humaneval Pass @ 1 AIME 2024
Deepcoder-14b-preview (le n?tre) 60.6 1936 95.3 92.6 73.8
Deepseek-R1-Distill-Qwen-14b 53.0 1791 92.7 92.0 69.7
O1-2024-12-17 (bas) 59.5 1991 96.1 90.8 74.4
O3-MINI-2025-1-31 (bas) 60.9 1918 94.9 92.6 60.0
O1-Preview 42.7 1658 88.5 89 40.0
Deepseek-R1 62.8 1948 95.4 92.6 79.8
Lama-4-behemoth 49.4 - - - -
Deepcoder-1.5b-preview 25.1 963 28.5 73.0 -
Deepseek-R1-Distill-Qwen-1.5b 16.9 615 1.9 58.3 28.8

Deepcoder-14b montre des performances remarquables sur plusieurs repères. Il marque 60,6% sur LivecodeBench, correspondant presque aux alternatives propriétaires. Le modèle obtient une cote de codes de 1936. Ses résultats humaniques sont impressionnants. Ces réalisations le placent parmi les modèles de haut niveau malgré des ressources limitées.

Le modèle excelle au-delà du codage avec une précision de 73,8% sur les problèmes de mathématiques AIME. Cela démontre des capacités d'apprentissage de transfert exceptionnelles. Nos repères valident notre méthodologie de formation. Ils prouvent que des fonctionnalités de curabilité des données soigneuses. Les techniques de réglage fin spécialisées sont efficaces. Les modèles de codage AI open source peuvent obtenir des résultats de pointe avec une taille modérée.

Derrière le succès de Deepcoder: Environnement de bac à sable et recette de formation

Les performances remarquables de Deepcoder découlent de son approche innovante de l'évaluation du code pendant la formation.

Infrastructure d'exécution de code innovante

Au c?ur des performances impressionnantes de Deepcoder se trouve une infrastructure d'exécution de code sophistiquée qui permet un calcul précis de la récompense pendant l'apprentissage du renforcement. Ce système aborde l'un des aspects les plus difficiles de la formation des outils de génération de code: évaluer de manière fiable des milliers d'échantillons de code contre plusieurs cas de test. Voici comment l'architecture et la formation de Deepcoder aident à résoudre ce problème.

Deepcoder-14b: la compétition open source à O3-MinI et O1

ME EXPLIQUE CECI EN DéTAIL.

1. Approche à double bac à sable

Deepcoder utilise deux environnements de bac à sable complémentaires pour assurer une exécution de code fiable:

  1. Ensemble d'interprète de code : cet environnement prêt pour la production offre une vitesse et une sécurité exceptionnelles à un prix remarquablement économique de seulement 3 ¢ par problème. L'équipe a mis à l'échelle cette solution pour gérer plus de 100 bacs de sable simultanés, traitant plus de 1 000 exécutions par minute. Ce bac à sable capture des flux d'entrée / sortie standard tout en maintenant un isolement strict des systèmes h?tes.
  2. Sandbox de code local : Pour une reproductibilité maximale, l'équipe a développé une implémentation de sous-processus Python raillée de garde qui reflète parfaitement la méthodologie d'évaluation de LivecodeBench. Cela garantit que tous les résultats signalés correspond directement aux repères standard de l'industrie.

Deepcoder-14b: la compétition open source à O3-MinI et O1

2. Conception de récompense de principe

Plut?t que d'utiliser des récompenses partielles qui pourraient conduire à un ?piratage de récompense?, Deepcoder implémente un modèle de récompense de résultats clairsemé avec les résultats binaires:

  • Succès (1) : le code doit passer tous les cas de test échantillonnés
  • échec (0) : le code échoue à tout test ou viole les exigences de mise en forme

Pour les problèmes avec des suites de test approfondies, le système échantillonne stratégiquement les 15 tests les plus difficiles, identifiés par la complexité des entrées.

GRPO: algorithme de formation amélioré

Deepcoder introduit l'algorithme GRPO (Généralisé Politics Policy Optimization Plus) dans sa formation. Le GRPO est une évolution significative de l'algorithme GRPO qui intègre des informations clés de la recherche DAPO (Diffusion Actor-Policy Optimization).

Deepcoder-14b: la compétition open source à O3-MinI et O1

Innovations algorithmiques clés dans GRPO

L'équipe a apporté quatre modifications critiques pour permettre une formation stable à grande échelle:

  1. élimination de la perte d'entropie : En supprimant le terme de perte d'entropie qui a fréquemment provoqué l'effondrement de la formation, GRPO maintient une exploration cohérente tout au long du processus de formation.
  2. Suppression de la perte de KL : La libération du modèle est contrainte à la région de confiance du modèle SFT d'origine améliore à la fois les performances et la vitesse de formation en éliminant les calculs de politique de référence.
  3. Filtrage trop long : cette technique empêche la pénalisation des séquences tronquées, préservant les capacités de raisonnement à long contexte du modèle. Remarquablement, cela a permis à Deepcoder de se généraliser à 64K contextes malgré sa formation uniquement sur des séquences 32k.
  4. Clip High : En ajustant la limite supérieure dans la fonction de perte de substitution, GRPO encourage plus d'exploration tout en conservant des niveaux d'entropie stables tout au long de l'entra?nement.

Ces améliorations algorithmiques fonctionnent ensemble pour créer un modèle d'apprentissage distinctif de Deepcoder: augmentation progressive des longueurs de réponse, courbes de récompense stables et entropie cohérente au niveau du jeton, ce qui contribue à ses capacités de codage exceptionnelles.

Formation plus intelligente: le contexte de mise à l'échelle et le raisonnement ensemble

La formation de grands modèles est déjà un lourdeur, mais les entra?ner à la raison pour la raison de longs contextes est un défi encore plus grand. La plupart des modèles font des compromis sur la profondeur du raisonnement ou ont frappé une paroi lorsque la taille du contexte augmente.

Deepcoder s'adresse à ce sujet de front avec une approche de formation à deux volets:

1. Contexte itératif s'allongeant

Au lieu de sauter immédiatement dans de longs contextes, le modèle est formé aux étapes:

  • Commence à 16k jetons
  • échelle jusqu'à 32k
  • évalué à 64K - même s'il n'a jamais été formé sur cette longueur!

Cette mise à l'échelle progressive permet au modèle d'apprendre comment ?penser dans des documents plus longs? au lieu de simplement mémoriser des portées de jetons. Les résultats parlent d'eux-mêmes:

  • Contexte 16K: 54% sur LivecodeBench
  • Contexte de 32k: 58%
  • 64K Contexte: 60,6% (malgré une formation zéro à cette longueur)

Deepcoder-14b: la compétition open source à O3-MinI et O1

2. Filtrage trop long (inspiré par Dapo)

Pour éviter de nourrir le modèle, des échantillons bruyants et excessivement longs qui diluent l'apprentissage, Deepcoder adopte un filtrage trop long, une technique inspirée de DAPO. Cela filtre les échantillons de formation qui dépassent la longueur optimale et aident à maintenir la clarté de ce que le modèle apprend.

Ensemble, ces stratégies garantissent que le modèle ne se contente pas de cro?tre - il devient plus intelligent.

Curration des données: du chaos au nettoyage et des problèmes de codage vérifiés

Avouons-le - les ensembles de données de codage sur Internet sont un gachis! Qu'ils soient grattés de Github, de juges en ligne ou de forums, ils sont souvent incomplets, buggy ou incohérents. Cela devient un problème pour l'apprentissage du renforcement (RL), qui repose sur des signaux de récompense vérifiables et cohérents.

Pour résoudre ce problème, l'équipe d'agenticai a construit un pipeline de conservation des données personnalisé sur lequel se concentre sur:

  • Y compris uniquement des solutions officielles qui passent tous les cas de test
  • Assurer au moins 5 tests unitaires de haute qualité par problème
  • Déduplication de formation et de tests pour éviter l'inflation des fuites ou de l'évaluation

Le code ci-dessous montre la logique de validation de base utilisée dans leur pipeline de traitement des données. Cette fonction vérifie chaque problème par rapport aux normes de qualité avant de l'autoriser dans l'ensemble de données:

 # Flux de travail de traitement des données simplifié à l'aide du pipeline de conservation des données personnalisé
Def Validate_problem (problème):
    Si problème.test_cases <p> Le résultat est un ensemble de données propre et vérifiable de 24 000 problèmes de codage - parfaitement adapté au réglage de la rameau RL. Ce filtrage minutieux garantit que les récompenses pendant la formation reflètent réellement l'exactitude, pas le hasard ou la sur-ajustement.</p><h2> Deepcoder-14b Renforcement Apprentissage à l'échelle: le cadre RLLM</h2><p> L'évaluation du code est différente de l'évaluation du texte. Vous ne pouvez pas simplement comparer la similitude des jetons - vous devez exécuter le code et tester sa sortie, idéalement des milliers de fois à travers les cas Edge. C'est là que le moteur RL open-source de Deepcoder, Rllm entre en jeu.</p><p> <strong>Voici ce qui fait ressortir Rllm:</strong></p>
  • Construit sur le framework Verl (R éduque les temps de formation End2end jusqu'à 2x) , un moteur de formation efficace con?u pour le code
  • Capable d'effectuer 1 000 tests unitaires par minute
  • Utilise 100 bacs à sable parallèles pour évaluer les soumissions simultanément
  • Soutient les deux:
    • Ensemble interprète de code (bon marché, rapide, 0,03 $ / problème)
    • Box de sable local miroir en livecodebench pour la reproductibilité

Cette infrastructure n'est pas seulement une question de vitesse - elle rend la formation RL à grande échelle et vérifiable. Pas d'agitation, pas d'approximations; Code réel, tests réels, résultats réels.

Vous voulez l'essayer? Dirigez-vous vers le repo: github.com/agentica-project/rllm

Devenir pratique avec Deepcoder

Bien que les mesures de performance de Deepcoder soient impressionnantes, ce qui rend ce projet vraiment précieux pour la communauté de l'IA, c'est son accessibilité et sa reproductibilité. Cette section parcourt les aspects pratiques du travail avec ce modèle innovant, de la configuration initiale aux configurations de formation avancées.

étape 1: Configuration de votre environnement

L'équipe de développement de Deepcoder a optimisé la base de code pour Python 3.10, garantissant la stabilité tout en tirant parti des fonctionnalités linguistiques modernes. Le processus d'installation commence par la création d'un environnement conda dédié:

 conda création -n rllm python = 3,10 -y
conda activer rllm

Après avoir navigué vers le répertoire RLLM, vous devrez installer à la fois le cadre d'apprentissage de renforcement Verl et le package principal:

 CD Rllm
pip install -e ./verl
pip install -e.

Ce modèle d'installation reflète l'architecture modulaire, Verl servant de moteur d'apprentissage en renforcement Deepcoder-14b spécialisé qui alimente ses capacités impressionnantes de génération de code.

étape 2: Préparer les données de formation

L'une des forces de Deepcoder réside dans son ensemble de données méticuleusement organisé. Le référentiel fournit à la fois les données de formation brutes et les scripts de prétraitement pour les transformer en formats optimisés pour la formation.

Pour commencer à travailler avec ces données:

 # Tout d'abord, téléchargez les ensembles de données organisés à partir de GDrive
Python Scripts / Data / Download_datasets.py
# Générez ensuite des fichiers de parquet optimisés pour la formation
scripts python / data / deepcoder_dataset.py # pour Deepcoder
# ou
Scripts Python / Data / DeepScaler_dataset.py # pour DeepScaler

Ces étapes de prétraitement mettent en ?uvre les contr?les de qualité de données rigoureux mentionnés précédemment, garantissant que tous les exemples de code répondent aux exigences strictes pour l'apprentissage du renforcement Deepcoder-14b.

étape 3: Options de formation pour différentes échelles

L'architecture de formation flexible de Deepcoder accueille diverses ressources informatiques, ce qui la rend accessible aux chercheurs individuels et aux grandes équipes ayant une infrastructure importante.

Pour les chercheurs individuels

Ceux qui ont accès à une seule machine haute performance peuvent commencer à s'entra?ner avec:

 Export Model_Path = "Deepseek-AI / Deepseek-R1-Distill-Qwen-1.5b"<br><br> ./scripts/deepcoder/train/file.sh --model $ Model_path

Cette configuration à un n?ud fournit un excellent point d'entrée pour expérimenter le cadre ou le réglage fin pour des domaines spécifiques.

Pour les équipes de recherche

Des expériences plus importantes bénéficient des capacités de formation distribuées de Deepcoder. La configuration utilise Ray pour coordonner la formation sur plusieurs machines:

  1. Le n?ud de tête doit initialiser le cluster de rayons:
  2. Les n?uds de travailleurs se connectent ensuite à ce coordinateur:
  3. Avec le cluster prêt, la formation peut être lancée:
  1. Le n?ud de tête doit initialiser le cluster de rayons:
    exporter vllm_attention_backend = xformers
    rayon de rayon - tête
  2. Les n?uds de travailleurs se connectent ensuite à ce coordinateur:
    exporter vllm_attention_backend = xformers
    ray start --address = [head_node_address]
  3. Avec le cluster prêt, la formation peut être lancée:
    ./scripts/deepcoder/train/file.sh --model [CheckPoint_path]

Cette approche évolutive a joué un r?le déterminant dans la réalisation des performances révolutionnaires de Deepcoder, permettant à l'équipe de s'entra?ner efficacement sur les longueurs de contexte plus longues et les ensembles de données plus importants.

étape 4: Cadre d'évaluation rigoureux

Les revendications de performance de Deepcoder sont soutenues par un cadre d'évaluation complet qui exécute automatiquement plusieurs instances de VLLM pour tester les capacités du modèle:

 ./scripts/eval/eval_model.sh --model [CheckPoint_path] \
                           --Datasets [DataSet1] [DataSet2] \
                           --Output-dir [output_dir] \
                           --n [n_pass] \
                           - tp [Tensor_Parallel_Size] \
                           --max-Length [max_context_length]

Cette approche d'évaluation reflète la méthodologie Livecodebench, garantissant que les mesures rapportées reflètent avec précision les performances du monde réel sur les taches codantes difficiles.

Performance pratique de Deepcoder-14b

Dans cette section, nous explorons la capacité de Deepcoder-14b à expliquer les concepts de programmation fondamentaux d'une manière claire et adaptée aux débutants.

Tache: expliquer un concept de programmation

Utilisons Deepcoder-14b pour expliquer comment fonctionne une table de hachage et voir si elle peut en générer un exemple Python.

Code:

 réponse = llm.create_chat_completion (
    messages = [
        {
            "r?le": "utilisateur",
            "Contenu": "Expliquez comment une table de hachage fonctionne avec un exemple dans Python."
        }
    ]]
)
imprimer (réponse ['choix'] [0] ['message'] ['contenu'])

Revoir:

Deepcoder-14b a fourni une répartition conceptuelle impressionnante et étape par étape de la fonction de tables de hachage. Voici ce qui s'est démarqué:

  • Raisonnement personnalisé: La réponse ressemblait presque à un débutant qui parcourait le concept à haute voix, ce qui ajoute une saveur éducative relatable à l'explication.
  • Théorie détaillée: il couvrait des idées clés comme le hachage, les collisions, le cha?nage, l'adressage ouvert et leur implémentation réelle dans Python via des dictionnaires.
  • Approche structurée: le modèle n'a pas sauté dans le code immédiatement, mais a plut?t présenté la logique et la conception - en passant des étapes comme la création du tableau, la définition d'une fonction de hachage et la gestion des collisions.
  • Bloc de code manquant: Bien qu'il ait promis de démontrer une table de hachage simple dans Python, l'extrait de code n'a pas été inclus dans cette sortie. Pour une réponse entièrement complète, vous pouvez l'inviter à ?continuer avec l'exemple de code Python?.

Performance d'inférence Remarque: Bien que la sortie du modèle soit conceptuellement solide, la latence était très élevée (~ 11 minutes de temps total), indiquant que Deepcoder-14b peut être le mieux adapté aux applications non réel comme la génération de contenu, le tutorat ou la documentation.

Deepcoder-14b vs O3-Mini & O1: Comparaison des performances

Dans cette section, nous comparerons comment Deepcoder-14B fonctionne avec O1 et 03-MINI d'OpenAI sur deux taches de programmation courantes - génération de code et correction de bogues. Nous allons donner les mêmes 2 taches à Deepcoder-14b, O3-MinI (simulées avec PHI-2) et O1 (simulées avec LLAMA-2 7B) et voir comment la taille et la conception de la qualité du code d'impact des modèles, la profondeur d'explication et la capacité de raisonnement. De la génération d'une fonction simple à l'identification des erreurs logiques dans le code récursif, cette comparaison nous donnera une image plus claire du moment où les modèles plus grands brillent vraiment et lorsque les plus petits tiennent les leurs.

Tache 1: Comparaison des outils de génération de code - Deepcoder vs O3-MinI (PHI-2)

Utilisons Deepcoder-14b pour générer une fonction Python qui trouve tous les nombres premiers entre 1 et 100, et comparer sa réponse avec celle de O3-MINI.

Code Deepcoder-14b:

 réponse = llm.create_chat_completion (
    messages = [
        {
            "r?le": "utilisateur",
            "Contenu": "écrivez une fonction Python pour trouver des nombres premiers entre 1 et 100."
        }
    ]]
)
print ("Deepcoder output: \ n", réponse ['choix'] [0] ['message'] ['contenu'])

Code PHI-2 (simulant O3-MinI):

 De Transformers Import Autotokenzizer, AutomodelforCausallm, Pipeline
tokenizer = autotokenizer.from_pretrain ("Microsoft / PHI-2")
modèle = automodelforcusallm.from_pretraind ("Microsoft / phi-2", device_map = "auto")
tuyau = pipeline ("Génération de texte", modèle = modèle, tokenizer = tokenizer
inside = "écrivez une fonction Python pour trouver des nombres premiers entre 1 et 100."
output = tuyau (invite, max_new_tokens = 150) [0] ["généré_text"]
imprimer ("sortie phi-2: \ n", sortie)

Revoir:

Deepcoder-14b fournit une ventilation étape par étape profondément réfléchie de la logique derrière la recherche de nombres premiers, imitant comment un débutant pourrait raisonner à travers le problème. Bien que perspicace, il ne renvoie pas le code réel, ce qui limite son utilité pour l'exécution directe. En revanche, PHI-2 (O3-MINI) offre une fonction Python propre et correcte sans aucune explication - rapide, efficace et prête à s'exécuter. Deepcoder est meilleur pour la profondeur éducative, tandis que PHI-2 excelle à la vitesse et à la clarté du codage pratique.

Tache 2: Fixation et raisonnement de bogues - Deepcoder vs O1 (LLAMA-2 7B)

Maintenant, contestions Deepcoder-14b avec une tache de débogage classique. Nous allons lui donner une fonction factorielle récursive buggy et lui demanderons de corriger le code et d'expliquer ce qui n'a pas fonctionné. Nous donnerons ensuite la même tache au modèle O1 d'OpenIA (simulé par LLAMA-27B) et comparer leurs réponses.

Code buggy:

 buggy_code = "" "
def factoriel (n):
    Si n == 0:
        retour 0
    autre:
        retour n * factoriel (n-1)
"" "

Deepcoder-14b:

 réponse = llm.create_chat_completion (
    messages = [
        {
            "r?le": "utilisateur",
            "Contenu": F "Ce code a un bug. Corrigez-le et expliquez la correction: \ n {buggy_code}"
        }
    ]]
)
print ("Deepcoder output: \ n", réponse ['choix'] [0] ['message'] ['contenu'])

Lama-2 7b (simulation O1):

 De Transformers Import Autotokenzizer, AutomodelforCausallm, Pipeline
tokenizer = autotokenizer.from_pretraind ("meta-lelama / llama-2-7b-chat-hf")
modèle = automodelforcusallm.from_pretraind ("meta-llama / llama-2-7b-chat-hf", device_map = "auto")
tuyau = pipeline ("Génération de texte", modèle = modèle, tokenizer = tokenizer)
prompt = "Ce code a un bug. Corrigez-le et expliquez la correction: \ n" Buggy_code
output = tuyau (invite, max_new_tokens = 200) [0] ["généré_text"]
Print ("LLAMA-2 SORTIE: \ n", sortie)

Revoir:

Dans cette tache, Deepcoder-14b et O1 (LLAMA-2 7B) ont correctement identifié le bug dans la fonction factorielle - reconnaissant que le cas de base devrait retourner 1 au lieu de 0. Deepcoder-14b a démontré un raisonnement fort en marchant à travers la logique et en soulignant comment le cas de base incorrect mène à des résultats mauvais, en particulier pour n = 1.

Cependant, sa production souffrait d'une faille critique: une boucle répétitive de ?attendre, non?, qui a nui à la lisibilité et a rendu la réponse instable. En revanche, O1 a fourni une réponse concise, propre et correcte, incluant généralement à la fois le code fixe et une brève explication. Bien qu'il manque de la profondeur de raisonnement de Deepcoder, la fiabilité et la clarté de l'O1 le rendaient plus adapté à une utilisation pratique, en particulier dans le déploiement ou les contextes éducatifs.

Développements futurs de Deepcoder-14b

Alors que les résultats actuels se concentrent sur le codage, l'équipe prévoit:

  • étendez la fenêtre de contexte à 128k grace à une mise à l'échelle NTK dynamique.
  • Développer des capacités de raisonnement multimodal.
  • Créez des variantes spécialisées pour l'audit de sécurité et la modernisation du code hérité.

Cette version marque une étape importante vers la démocratisation des outils de codage AI avancées, fournissant aux chercheurs et aux développeurs:

  • Une recette complète de la recette de formation correspondant aux performances du modèle propriétaire.
  • Infrastructure pour la RL vérifiable à grande échelle.
  • Référence pour les futures progrès open source dans la synthèse des programmes.

La licence MIT du modèle assure une utilisation commerciale et de la recherche sans restriction, favorisant l'innovation à travers l'écosystème de l'IA. Avec sa combinaison de performances concurrentielles et de transparence complète, Deepcoder-14b établit une nouvelle norme pour le développement de modèles de codage d'IA open source.

Deepcoder-14b: accès et utilisation

Tout sur Deepcoder est construit autour de la transparence et de la communauté:

  • Poids du modèle : accessible au public via un visage étreint
  • Pipeline de formation : partagé via le repo Rllm GitHub
  • Répartition du blog : article de notion officielle

Cela en fait une excellente ressource pour:

  • Des chercheurs explorant RL Fineding
  • Les pirates et les développeurs construisent des agents de codage personnalisés
  • Les éducateurs démontrant comment les systèmes de codage d'IA du monde réel sont construits et testés

Conclusion

Dans une époque dominée par les murs fermés et les modèles de bo?te noire, Deepcoder-14b est une bouffée d'air frais. Il montre que les modèles de codage d'IA open source peuvent évoluer, rivaliser et innover - sans se cacher derrière des API ou des murs de paiement. De la mise à l'échelle du contexte à la généralisation des mathématiques, des ensembles de données vérifiés aux bacs à sable à grande vitesse, tout sur Deepcoder se sent réfléchi, intentionnel et d'abord.

Les développeurs qui cherchent à améliorer leur flux de travail de codage peuvent commencer à utiliser Deepcoder immédiatement. Les performances impressionnantes du modèle sur les taches de codage au niveau de la concurrence le rendent adapté à un large éventail d'applications, de l'achèvement automatisé du code à la résolution de problèmes algorithmiques. Si vous construisez l'avenir du développement assisté par l'IA, Deepcoder-14b ne vaut pas seulement la peine d'essayer - cela pourrait devenir votre nouvelle ligne de base.

Questions fréquemment posées

Q1. Pourquoi Deepcoder-14b est-il significatif pour la communauté open source?

A. Deepcoder-14b remet en question les capacités du modèle O3-MinI en offrant des performances de codage comparables (60,6% PASS @ 1 sur LivecodeBench) tout en étant entièrement open-source. Il offre un accès complet aux poids, ensembles de données et cadres de formation, permettant aux développeurs d'auditer, d'adapter et de déployer le modèle sans licences restrictives.

Q2. Comment Deepcoder-14b réalise-t-il l'efficacité avec moins de paramètres?

A. Le modèle utilise des stratégies de formation innovantes comme l'allongement du contexte itératif, passant de 16K à 32k jetons pendant la formation tout en généralisant à 64k contextes. Combiné avec un filtrage trop long pour éliminer les données bruyantes et le GRPO - un algorithme RL raffiné - il optimise le raisonnement sans ballonnement de paramètres, garantissant l'efficacité des ressources qui peut être observée à travers le graphique d'efficacité O3-Mini vs Deepcoder-14b.

Q3. Quelles repères démontrent ses capacités?

A. Deepcoder-14b scores 1936 sur lesforces de code (5% des concurrents humains) et 73,8% sur les problèmes mathématiques de l'AIME, montrant un raisonnement inter-domaine. Il correspond à la précision Deepcoder-14b vs O3-Mini malgré l'utilisation de la moitié des paramètres, prouvant que des modèles plus petits peuvent rivaliser avec des homologues propriétaires plus importants grace à une formation optimisée.

Q4. Comment son écosystème ouvert profite-t-il aux développeurs?

A. La base de code sous licence MIT du modèle, le déploiement de la face étreint et le cadre de formation RLLM reproductible permettent aux développeurs de le personnaliser pour les taches de niche (par exemple, modernisation du code hérité) ou l'intégrer dans les IDE. Des références transparentes et des environnements de bac à sable assurent des tests fiables, contrairement aux modèles fermés avec une évaluation opaque.

Q5. Peut-il gérer des taches de codage complexe et réel?

A. Oui. Son système à double bac à sable (basé sur le cloud et local) valide le code par rapport aux cas de test rigoureux, et son support de contexte 64k permet une analyse de longues bases de code. Les développeurs rapportent le succès de l'automatisation des corrections de bogues, de la génération de tests et de la résolution de problèmes algorithmiques aux niveaux de la compétition.

Q6. Qu'est-ce qui rend son ensemble de données unique?

A. L'ensemble de données de problèmes de 24K applique ≥5 cas de test vérifié par problème et des divisions de train / test strictes pour éviter les fuites. Cette conservation garantit des récompenses RL propres, réduisant les risques de sur-ajustement communs dans les ensembles de données grattés.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefa?on, veuillez contacter admin@php.cn

Outils d'IA chauds

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Video Face Swap

échangez les visages dans n'importe quelle vidéo sans effort grace à notre outil d'échange de visage AI entièrement gratuit?!

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

L'investisseur de l'IA est resté à l'arrêt? 3 chemins stratégiques pour acheter, construire ou s'associer avec les fournisseurs d'IA L'investisseur de l'IA est resté à l'arrêt? 3 chemins stratégiques pour acheter, construire ou s'associer avec les fournisseurs d'IA Jul 02, 2025 am 11:13 AM

L'investissement est en plein essor, mais le capital seul ne suffit pas. Avec la montée et la décoloration des évaluations, les investisseurs dans les fonds de capital-risque axés sur l'IA doivent prendre une décision clé: acheter, construire ou partenaire pour gagner un avantage? Voici comment évaluer chaque option et PR

AGI et AI Superintelligence vont fortement frapper la barrière d'hypothèse du plafond humain AGI et AI Superintelligence vont fortement frapper la barrière d'hypothèse du plafond humain Jul 04, 2025 am 11:10 AM

Parlons-en. Cette analyse d'une percée innovante de l'IA fait partie de ma couverture de colonne Forbes en cours sur les dernières personnes en IA, notamment en identifiant et en expliquant diverses complexités d'IA percutantes (voir le lien ici). Se dirigeant vers Agi et

Kimi K2: le modèle agentique open source le plus puissant Kimi K2: le modèle agentique open source le plus puissant Jul 12, 2025 am 09:16 AM

Rappelez-vous le flot de modèles chinois open source qui a perturbé l'industrie du Genai plus t?t cette année? Alors que Deepseek a fait la majeure partie des titres, Kimi K1.5 était l'un des noms importants de la liste. Et le modèle était assez cool.

Prévision future d'une explosion de renseignement massive sur la voie de l'IA à AGI Prévision future d'une explosion de renseignement massive sur la voie de l'IA à AGI Jul 02, 2025 am 11:19 AM

Parlons-en. Cette analyse d'une percée innovante de l'IA fait partie de ma couverture de colonne Forbes en cours sur les dernières personnes en IA, notamment en identifiant et en expliquant diverses complexités d'IA percutantes (voir le lien ici). Pour ces lecteurs qui h

Grok 4 vs Claude 4: Quel est le meilleur? Grok 4 vs Claude 4: Quel est le meilleur? Jul 12, 2025 am 09:37 AM

à la mi-2025, l'AI ?Arme Race? se réchauffe, et Xai et Anthropic ont tous deux publié leurs modèles phares, Grok 4 et Claude 4.

Cha?ne de pensée pour le raisonnement Les modèles peuvent ne pas fonctionner à long terme Cha?ne de pensée pour le raisonnement Les modèles peuvent ne pas fonctionner à long terme Jul 02, 2025 am 11:18 AM

Par exemple, si vous posez une question à un modèle comme: "Que fait (x) personne à (x) l'entreprise?" Vous pouvez voir une cha?ne de raisonnement qui ressemble à quelque chose comme ceci, en supposant que le système sait comment récupérer les informations nécessaires: localiser les détails sur le CO

Le Sénat tue l'interdiction de l'IA au niveau de l'état à 10 ans niché dans le projet de loi budgétaire de Trump Le Sénat tue l'interdiction de l'IA au niveau de l'état à 10 ans niché dans le projet de loi budgétaire de Trump Jul 02, 2025 am 11:16 AM

Le Sénat a voté le 99-1 mardi matin pour tuer le moratoire après un tumulte de dernière minute de groupes de défense des groupes de défense, des législateurs et des dizaines de milliers d'Américains qui l'ont vu comme une dangereuse dépassement. Ils ne sont pas restés silencieux. Le Sénat écouté.

Cette startup a construit un h?pital en Inde pour tester son logiciel AI Cette startup a construit un h?pital en Inde pour tester son logiciel AI Jul 02, 2025 am 11:14 AM

Les essais cliniques sont un énorme goulot d'étranglement du développement de médicaments, et Kim et Reddy pensaient que le logiciel compatible AI qu'ils avait construit chez PI Health pourrait les aider à les faire plus rapidement et moins cher en élargissant le bassin de patients potentiellement éligibles. Mais le

See all articles