亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

目次
エンコードとデコードに加えて、他の2つのユースケースも考えました。
入力長(zhǎng)検証
結(jié)論
トップAI認(rèn)定を取得
ホームページ テクノロジー周辺機(jī)器 AI Tiktokenチュートリアル:テキストをトークン化するためのOpenai'のPythonライブラリ

Tiktokenチュートリアル:テキストをトークン化するためのOpenai'のPythonライブラリ

Mar 05, 2025 am 10:30 AM

Tiktoken Tutorial: OpenAI's Python Library for Tokenizing Text

粒子分詞は、自然言語(yǔ)処理(NLP)タスクを扱うための基本的なステップです。これには、単語(yǔ)、サブワード、または文字などと呼ばれるマーカーと呼ばれる小さなユニットにテキストを壊すことが含まれます。

効率的な単語(yǔ)セグメンテーションは、言語(yǔ)モデルのパフォーマンスにとって重要であり、テキスト生成、翻訳、抽象化などのさまざまなNLPタスクの重要なステップとなっています。

Tiktokenは、Openaiによって開(kāi)発された高速で効率的なシソーラスです。テキストをタグに変換するための強(qiáng)力なソリューションとその逆を提供します。その速度と効率性により、大規(guī)模なデータセットと複雑なモデルを扱う開(kāi)発者とデータサイエンティストに最適です。

このガイドは、開(kāi)発者、データサイエンティスト、およびTiktokenの使用を計(jì)畫(huà)している人を?qū)澫螭趣筏皮?、例を含む実用的なガイドを必要とする人向けに設(shè)計(jì)されています。

Openaiの基本

Openai APIなどを始めましょう!

今すぐ開(kāi)始

get tiktokenを始めましょう Tiktokenを開(kāi)始するには、Python環(huán)境にインストールする必要があります(Tiktokenは他のプログラミング言語(yǔ)にも適しています)。これは、次のコマンドを使用して実行できます 次のGithubリポジトリで、Tiktoken Open Source Pythonバージョンのコードを表示できます。

ライブラリをインポートするには、実行されます

コーディングモデル
<code>pip install tiktoken</code>

Tiktokenのエンコーディングモデルは、テキストをタグに分割するルールを決定します。これらのモデルは、テキストのセグメント化とエンコードの方法を定義し、言語(yǔ)処理タスクの効率と精度に影響するため、重要です。異なるOpenAIモデルは、異なるエンコーディングを使用しています。

Tiktokenは、異なるユースケースに最適化された3つのコーディングモデルを提供します:

  • O200K_Base:最新のGPT-4O-MINIモデルのエンコード。
  • CL100K_BASE:GPT-4やGPT-3.5-ターボなどの新しいOpenAIモデルのコーディングモデル。
  • p50k_base:コードアプリケーションで使用されるコーデックスモデル。
  • R50K_Base:GPT-3の異なるバージョンの古いエンコード。

これらのモデルはすべて、OpenAIのAPIで使用できます。 APIは、ここにリストされているモデルよりもはるかに多くのモデルを提供することに注意してください。幸いなことに、Tiktokenライブラリは、どのエンコードをどのモデルで使用するかを簡(jiǎn)単に確認(rèn)する方法を提供します。

たとえば、

テキスト埋め込みモデルが使用するエンコーディングモデルを知る必要がある場(chǎng)合、次のコマンドを?qū)g行して出力として答えを取得できます。

<code>pip install tiktoken</code>
出力として

を取得します。 Tiktokenを直接使用する前に、Openaiにはさまざまな文字列がどのようにトークン化されているかを確認(rèn)できるトークン化Webアプリケーションがあることに言及したいと思います。ここでアクセスできます。また、非オペナイモデルをサポートするサードパーティのオンラインタガー、Tiktokenizerもあります。

テキストをマーカー

としてエンコードします

tiktokenを使用してタグとしてテキストをエンコードするには、最初にエンコードされたオブジェクトを取得する必要があります。初期化するには2つの方法があります。まず、トークネイザーの名前を使用してこれを行うことができます:

<code>import tiktoken</code>

あるいは、特定のモデルのエンコーダーを取得するために、前述のencoding_for_model関數(shù)を?qū)g行することができます:

<code>print(tiktoken.encoding_for_model('text-embedding-3-small'))</code>
ここで、エンコードオブジェクトのエンコードメソッドを?qū)g行して、文字列をエンコードできます。たとえば、「I Love Datacamp」文字列を次のようにエンコードできます。ここでは、CL100K_BASEエンコーダーを使用します:

<code>encoding = tiktoken.get_encoding("[標(biāo)記器名稱]")</code>
[40、3021、2956、34955]を出力として取得します。

マークをテキストにデコードします

マークをテキストにデコードするには、エンコードされたオブジェクトで.decode()メソッドを使用できます。

次のタグ[40、4048、264、2763、505、2956、34955]をデコードしましょう。

これらのマークは、「Datacampから多くのことを?qū)Wんだ」と解読されます。
<code>encoding = tiktoken.encoding_for_model("[模型名稱]")</code>

実用的なユースケースとヒント

エンコードとデコードに加えて、他の2つのユースケースも考えました。

コストの見(jiàn)積もりと管理

Openai APIにリクエストを送信する前にタグカウントを理解することで、コストを効率的に管理するのに役立ちます。 Openaiの請(qǐng)求は、処理されたタグの數(shù)に基づいているため、事前にタグ付きテキストを使用すると、API使用量のコストを見(jiàn)積もることができます。 Tiktokenを使用してテキストのタグを計(jì)算する方法は次のとおりです。

アレイの長(zhǎng)さをチェックして、マークの數(shù)を確認(rèn)する必要があります。事前にタグの數(shù)を知ることにより、テキストを短縮するか、予算內(nèi)にとどまるために使用法を調(diào)整するかを決定できます。

<code>print(encoding.encode("我愛(ài) DataCamp"))</code>
この方法の詳細(xì)については、PythonのTiktokenライブラリを使用してGPTのコストを推定するこのチュートリアルで読むことができます。

入力長(zhǎng)検証

APIからOpenAIモデルを使用する場(chǎng)合、マーカーの入力と出力の最大數(shù)によって制限されます。これらの制限を超えると、エラーや出力が切り捨てられる可能性があります。 Tiktokenを使用すると、入力の長(zhǎng)さを確認(rèn)し、マーキングの制限に準(zhǔn)拠していることを確認(rèn)できます。

結(jié)論

Tiktokenは、Openai言語(yǔ)モデルに合わせて調(diào)整された速度と効率を提供するオープンソースのシソーラスです。

Tiktokenを使用してテキストとそのさまざまなコーディングモデルをエンコードおよびデコードする方法を?qū)Wぶことで、大規(guī)模な言語(yǔ)モデルで作業(yè)を大幅に強(qiáng)化できます。

トップAI認(rèn)定を取得

AIを効果的かつ責(zé)任を持って使用できることを証明します。認(rèn)定され、雇われます

以上がTiktokenチュートリアル:テキストをトークン化するためのOpenai&#x27;のPythonライブラリの詳細(xì)內(nèi)容です。詳細(xì)については、PHP 中國(guó)語(yǔ) Web サイトの他の関連記事を參照してください。

このウェブサイトの聲明
この記事の內(nèi)容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰屬します。このサイトは、それに相當(dāng)する法的責(zé)任を負(fù)いません。盜作または侵害の疑いのあるコンテンツを見(jiàn)つけた場(chǎng)合は、admin@php.cn までご連絡(luò)ください。

ホットAIツール

Undress AI Tool

Undress AI Tool

脫衣畫(huà)像を無(wú)料で

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード寫(xiě)真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

寫(xiě)真から衣服を削除するオンライン AI ツール。

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無(wú)料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡(jiǎn)単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無(wú)料のコードエディター

SublimeText3 中國(guó)語(yǔ)版

SublimeText3 中國(guó)語(yǔ)版

中國(guó)語(yǔ)版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強(qiáng)力な PHP 統(tǒng)合開(kāi)発環(huán)境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開(kāi)発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Kimi K2:最も強(qiáng)力なオープンソースエージェントモデル Kimi K2:最も強(qiáng)力なオープンソースエージェントモデル Jul 12, 2025 am 09:16 AM

今年初めにゲナイ産業(yè)を混亂させたオープンソースの中國(guó)モデルの洪水を覚えていますか? Deepseekはほとんどの見(jiàn)出しを取りましたが、Kimi K1.5はリストの著名な名前の1つでした。そして、モデルはとてもクールでした。

AGIとAIのスーパーインテリジェンスは、人間の天井の仮定の障壁に急激に衝突するでしょう AGIとAIのスーパーインテリジェンスは、人間の天井の仮定の障壁に急激に衝突するでしょう Jul 04, 2025 am 11:10 AM

それについて話しましょう。 革新的なAIブレークスルーのこの分析は、さまざまなインパクトのあるAIの複雑さの特定と説明など、最新のAIで進(jìn)行中のForbes列のカバレッジの一部です(こちらのリンクを參照)。 アギに向かっています

Grok 4 vs Claude 4:どちらが良いですか? Grok 4 vs Claude 4:どちらが良いですか? Jul 12, 2025 am 09:37 AM

2025年半ばまでに、AIの「武器競(jìng)爭(zhēng)」は熱くなり、Xaiと人類は両方ともフラッグシップモデルであるGrok 4とClaude 4をリリースしました。これら2つのモデルは、設(shè)計(jì)哲學(xué)と展開(kāi)プラットフォームの反対側(cè)にありますが、

人工知能がすべての人生の歩みをどのように助け、害することができるかについての詳細(xì)な議論 人工知能がすべての人生の歩みをどのように助け、害することができるかについての詳細(xì)な議論 Jul 04, 2025 am 11:11 AM

私たちは議論します:企業(yè)はAIの職務(wù)機(jī)能の委任、AIが産業(yè)と雇用をどのように形成するか、およびビジネスと労働者の働き方を委任します。

今日、今日私たちの間を歩いている10の驚くべきヒューマノイドロボット 今日、今日私たちの間を歩いている10の驚くべきヒューマノイドロボット Jul 16, 2025 am 11:12 AM

しかし、おそらく1つを見(jiàn)るのに10年も待つ必要はありません。実際、本當(dāng)に有用で人間のような機(jī)械の最初の波と考えられるものは、すでにここにあります。 近年、多くのプロトタイプと生産モデルがTから抜け出しています

コンテキストエンジニアリングは&#039; new&#039;迅速なエンジニアリング コンテキストエンジニアリングは&#039; new&#039;迅速なエンジニアリング Jul 12, 2025 am 09:33 AM

前年まで、迅速なエンジニアリングは、大規(guī)模な言語(yǔ)モデル(LLMS)と対話するための重要なスキルと見(jiàn)なされていました。しかし、最近、LLMは推論と理解能力を大幅に進(jìn)めています。當(dāng)然、私たちの期待

Langchain Fitness Coachを作成します:AIパーソナルトレーナー Langchain Fitness Coachを作成します:AIパーソナルトレーナー Jul 05, 2025 am 09:06 AM

多くの個(gè)人が情熱を持ってジムを訪れ、フィットネスの目標(biāo)を達(dá)成するための正しい道にいると信じています。しかし、結(jié)果は、食事の計(jì)畫(huà)が不十分であり、方向性の欠如のためにありません。パーソナルトレーナーALを雇う

6タスクManus AIは數(shù)分で行うことができます 6タスクManus AIは數(shù)分で行うことができます Jul 06, 2025 am 09:29 AM

一般的なAIエージェントであるManusについて知っている必要があると確信しています。數(shù)ヶ月前に発売され、數(shù)か月にわたって、彼らはシステムにいくつかの新機(jī)能を追加しました。これで、ビデオを生成したり、Webサイトを作成したり、MOを行うことができます

See all articles