Le participe de particules est une étape de base dans le traitement des taches de traitement du langage naturel (NLP). Cela implique de diviser le texte en unités plus petites, appelées marqueurs, qui peuvent être des mots, des sous-mots ou des caractères.
La segmentation efficace des mots est essentielle aux performances des modèles de langage, ce qui en fait une étape importante dans une variété de taches PNL telles que la génération de texte, la traduction et l'abstraction.
tiktoken est un thésaurus rapide et efficace développé par Openai. Il fournit une solution puissante pour convertir le texte en balises et vice versa. Sa vitesse et son efficacité en font un excellent choix pour les développeurs et les scientifiques des données qui travaillent avec de grands ensembles de données et des modèles complexes.
Ce guide est con?u pour les développeurs, les scientifiques des données et toute personne qui prévoit d'utiliser TikToken et a besoin d'un guide pratique qui contient des exemples.
Bases d'Openai
Commencez avec API Openai et plus encore!
Démarrez maintenant Vous pouvez afficher le code de la version Python Open Source TikToken dans le référentiel GitHub suivant.
Pour importer la bibliothèque, nous exécutons:
<code>pip install tiktoken</code>
Modèle de codage
Le modèle de codage dans TikToken détermine les règles de divulguer du texte en balises. Ces modèles sont cruciaux car ils définissent comment le texte est segmenté et codé, ce qui affecte l'efficacité et la précision des taches de traitement du langage. Différents modèles OpenAI utilisent différents encodages.
<code>import tiktoken</code>TikToken fournit trois modèles de codage optimisés pour différents cas d'utilisation:
- O200K_BASE: Encodage du dernier modèle GPT-4O-MINI.
- CL100K_BASE: Modèles de codage pour les nouveaux modèles OpenAI tels que GPT-4 et GPT-3.5-Turbo.
- p50k_base: modèles de codex utilisés dans les applications de code.
- R50K_BASE: Encodage plus ancien pour différentes versions de GPT-3.
Tous ces modèles sont disponibles pour l'API d'Openai. Notez que l'API fournit beaucoup plus de modèles que ceux énumérés ici. Heureusement, la bibliothèque Tiktoken offre un moyen facile de vérifier quel codage doit être utilisé avec quel modèle.
Par exemple, si j'ai besoin de savoir quel modèle de codage le modèle de texte-3 utilise, je peux exécuter la commande suivante et obtenir la réponse en sortie:
<code>pip install tiktoken</code>
Nous obtenons
coder le texte en tant que marqueur
Pour coder le texte comme une balise en utilisant TikToken, vous devez d'abord obtenir l'objet codé. Il existe deux fa?ons de l'initialiser. Tout d'abord, vous pouvez le faire en utilisant le nom du tokenzer:
<code>import tiktoken</code>
Alternativement, vous pouvez exécuter la fonction coding_for_model mentionnée plus t?t pour obtenir le codeur d'un modèle spécifique:
<code>print(tiktoken.encoding_for_model('text-embedding-3-small'))</code>
Maintenant, nous pouvons exécuter la méthode d'encoder de l'objet Encode pour coder la cha?ne. Par exemple, nous pouvons coder la cha?ne "j'aime datacamp" comme suit - Ici, j'utilise le codeur CL100K_BASE:
<code>encoding = tiktoken.get_encoding("[標(biāo)記器名稱]")</code>
Nous obtenons [40, 3021, 2956, 34955] comme sortie.
décoder la marque dans le texte
Pour décoder la marque vers le texte, nous pouvons utiliser la méthode .decode () sur l'objet codé.
Décodons la balise suivante [40, 4048, 264, 2763, 505, 2956, 34955]:
<code>encoding = tiktoken.encoding_for_model("[模型名稱]")</code>
Ces marques sont décodées comme "J'ai beaucoup appris de Datacamp".
cas d'utilisation pratiques et conseils
En plus du codage et du décodage, j'ai également pensé à deux autres cas d'utilisation.
Estimation et gestion des co?ts
Comprendre le comptage des balises avant d'envoyer une demande à l'API OpenAI peut vous aider à gérer efficacement les co?ts. Parce que la facturation d'Openai est basée sur le nombre d'étiquettes traitées, le texte pré-marqué vous permet d'estimer le co?t de l'utilisation de l'API. Voici comment calculer les balises dans le texte en utilisant tiktoken:
<code>print(encoding.encode("我愛 DataCamp"))</code>
Nous avons juste besoin de vérifier la longueur du tableau pour voir combien de notes nous obtenons. En connaissant le nombre d'étiquettes à l'avance, vous pouvez décider de raccourcir le texte ou d'ajuster l'utilisation pour rester dans votre budget.
Vous pouvez en savoir plus sur cette méthode dans ce tutoriel sur l'estimation du co?t de GPT en utilisant la bibliothèque Tiktoken à Python.
Vérification de la longueur d'entrée
Lorsque vous utilisez des modèles OpenAI de l'API, vous êtes limité par le nombre maximum de marqueurs d'entrée et de sortie. Le dépassement de ces limites peut entra?ner des erreurs ou une sortie tronquée. Avec TikToken, vous pouvez vérifier la longueur d'entrée et vous assurer qu'elle est conforme à la limite de marquage.
Conclusion
TikToken est un thésaurus open source qui offre une vitesse et une efficacité adaptées au modèle de langue Openai.
Apprendre à utiliser TikToken pour encoder et décoder du texte et ses différents modèles de codage peuvent améliorer considérablement votre travail avec de grands modèles de langue.
Obtenez la certification AI Top
prouver que vous pouvez utiliser l'IA efficace et de manière responsable. Soyez certifié, soyez embauché
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undress AI Tool
Images de déshabillage gratuites

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
échangez les visages dans n'importe quelle vidéo sans effort grace à notre outil d'échange de visage AI entièrement gratuit?!

Article chaud

Outils chauds

Bloc-notes++7.3.1
éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Rappelez-vous le flot de modèles chinois open source qui a perturbé l'industrie du Genai plus t?t cette année? Alors que Deepseek a fait la majeure partie des titres, Kimi K1.5 était l'un des noms importants de la liste. Et le modèle était assez cool.

à la mi-2025, l'AI ?Arme Race? se réchauffe, et Xai et Anthropic ont tous deux publié leurs modèles phares, Grok 4 et Claude 4.

Mais nous n'aurons probablement pas à attendre même 10 ans pour en voir un. En fait, ce qui pourrait être considéré comme la première vague de machines vraiment utiles, de type humain, est déjà là. Les dernières années ont vu un certain nombre de prototypes et de modèles de production sortant de T

Jusqu'à l'année précédente, l'ingénierie rapide était considérée comme une compétence cruciale pour interagir avec les modèles de langage grand (LLM). Récemment, cependant, les LLM ont considérablement progressé dans leurs capacités de raisonnement et de compréhension. Naturellement, nos attentes

De nombreuses personnes ont frappé le gymnase avec passion et croient qu'ils sont sur le bon chemin pour atteindre leurs objectifs de fitness. Mais les résultats ne sont pas là en raison d'une mauvaise planification de la régime alimentaire et d'un manque de direction. Embaucher un entra?neur personnel al

Je suis s?r que vous devez conna?tre l'agent général de l'IA, Manus. Il a été lancé il y a quelques mois, et au cours des mois, ils ont ajouté plusieurs nouvelles fonctionnalités à leur système. Maintenant, vous pouvez générer des vidéos, créer des sites Web et faire beaucoup de MO

Construit sur le moteur de profondeur neuronale propriétaire de Leia, l'application traite des images fixes et ajoute de la profondeur naturelle avec un mouvement simulé - comme les casseroles, les zooms et les effets de parallaxe - pour créer de courts bobines vidéo qui donnent l'impression de pénétrer dans le SCE

Imaginez quelque chose de sophistiqué, comme un moteur d'IA prêt à donner des commentaires détaillés sur une nouvelle collection de vêtements de Milan, ou une analyse de marché automatique pour une entreprise opérant dans le monde entier, ou des systèmes intelligents gérant une grande flotte de véhicules.
