亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

目錄
OpenAI 基礎知識
開始使用 Tiktoken" >立即開始開始使用 Tiktoken
編碼模型
將文本編碼為標記
將標記解碼為文本
實際用例和技巧
成本估算和管理
輸入長度驗證
結(jié)論
獲得頂級 AI 認證
首頁 科技周邊 人工智能 tiktoken教程:Openai&#x27的Python圖書館用于令牌文本

tiktoken教程:Openai&#x27的Python圖書館用于令牌文本

Mar 05, 2025 am 10:30 AM

Tiktoken Tutorial: OpenAI's Python Library for Tokenizing Text

分詞是處理自然語言處理 (NLP) 任務時的基本步驟。它涉及將文本分解成更小的單元,稱為標記,這些單元可以是單詞、子詞或字符。

高效的分詞對于語言模型的性能至關(guān)重要,使其成為各種 NLP 任務(如文本生成、翻譯和摘要)中的一個重要步驟。

Tiktoken 是 OpenAI 開發(fā)的一個快速高效的分詞庫。它提供了一個強大的解決方案,用于將文本轉(zhuǎn)換為標記,反之亦然。其速度和效率使其成為處理大型數(shù)據(jù)集和復雜模型的開發(fā)人員和數(shù)據(jù)科學家的絕佳選擇。

本指南專為開發(fā)人員、數(shù)據(jù)科學家以及任何計劃使用 Tiktoken 并需要包含示例的實用指南的人員而設計。

OpenAI 基礎知識

開始使用 OpenAI API 及更多功能!

立即開始開始使用 Tiktoken

要開始使用 Tiktoken,我們需要在 Python 環(huán)境中安裝它(Tiktoken 也適用于其他編程語言)??梢允褂靡韵旅钔瓿纱瞬僮鳎?/p>

<code>pip install tiktoken</code>

您可以在以下 GitHub 存儲庫中查看 Tiktoken 開源 Python 版本的代碼。

要導入庫,我們運行:

<code>import tiktoken</code>

編碼模型

Tiktoken 中的編碼模型決定了將文本分解成標記的規(guī)則。這些模型至關(guān)重要,因為它們定義了文本的分割和編碼方式,從而影響語言處理任務的效率和準確性。不同的 OpenAI 模型使用不同的編碼。

Tiktoken 提供了三種針對不同用例優(yōu)化的編碼模型:

  • o200k_base:最新 GPT-4o-Mini 模型的編碼。
  • cl100k_base:較新 OpenAI 模型(如 GPT-4 和 GPT-3.5-Turbo)的編碼模型。
  • p50k_base:Codex 模型的編碼,這些模型用于代碼應用程序。
  • r50k_base:不同版本的 GPT-3 的較舊編碼。

所有這些模型都可用于 OpenAI 的 API。請注意,API 提供的模型比這里列出的要多得多。幸運的是,Tiktoken 庫提供了一種簡單的方法來檢查應將哪個編碼與哪個模型一起使用。

例如,如果我需要知道 text-embedding-3-small 模型使用什么編碼模型,我可以運行以下命令并獲得答案作為輸出:

<code>pip install tiktoken</code>

我們得到作為輸出。在我們直接使用 Tiktoken 之前,我想提到 OpenAI 有一個標記化 Web 應用程序,您可以在其中查看不同的字符串是如何標記化的——您可以在這里訪問它。還有一個第三方在線標記器 Tiktokenizer,它支持非 OpenAI 模型。

將文本編碼為標記

要使用 Tiktoken 將文本編碼為標記,您首先需要獲取編碼對象。初始化它有兩種方法。首先,您可以使用標記器的名稱來執(zhí)行此操作:

<code>import tiktoken</code>

或者,您可以運行前面提到的 encoding_for_model 函數(shù)以獲取特定模型的編碼器:

<code>print(tiktoken.encoding_for_model('text-embedding-3-small'))</code>

現(xiàn)在,我們可以運行編碼對象的 encode 方法來編碼字符串。例如,我們可以按照以下方式編碼“我愛 DataCamp”字符串——這里我使用 cl100k_base 編碼器:

<code>encoding = tiktoken.get_encoding("[標記器名稱]")</code>

我們得到[40, 3021, 2956, 34955]作為輸出。

將標記解碼為文本

要將標記解碼回文本,我們可以在編碼對象上使用 .decode() 方法。

讓我們解碼以下標記[40, 4048, 264, 2763, 505, 2956, 34955]:

<code>encoding = tiktoken.encoding_for_model("[模型名稱]")</code>

這些標記解碼為“我從 DataCamp 學到了很多東西”。

實際用例和技巧

除了編碼和解碼之外,我還想到了另外兩個用例。

成本估算和管理

在向 OpenAI API 發(fā)送請求之前了解標記計數(shù)可以幫助您有效地管理成本。由于 OpenAI 的計費基于處理的標記數(shù)量,因此預標記文本允許您估算 API 使用成本。以下是如何使用 Tiktoken 計算文本中的標記:

<code>print(encoding.encode("我愛 DataCamp"))</code>

我們只需通過檢查數(shù)組的長度來查看我們獲得了多少個標記。通過提前了解標記數(shù)量,您可以決定是否縮短文本或調(diào)整使用情況以保持預算內(nèi)。

您可以在本關(guān)于使用 Python 中的 tiktoken 庫估算 GPT 成本的教程中閱讀更多關(guān)于此方法的信息。

輸入長度驗證

當使用來自 API 的 OpenAI 模型時,您受到輸入和輸出最大標記數(shù)的限制。超過這些限制會導致錯誤或輸出被截斷。使用 Tiktoken,您可以驗證輸入長度并確保它符合標記限制。

結(jié)論

Tiktoken 是一個開源分詞庫,它提供針對 OpenAI 語言模型量身定制的速度和效率。

了解如何使用 Tiktoken 編碼和解碼文本及其各種編碼模型,可以極大地增強您使用大型語言模型的工作。

獲得頂級 AI 認證

證明您可以有效且負責任地使用 AI。獲得認證,獲得聘用

以上是tiktoken教程:Openai&#x27的Python圖書館用于令牌文本的詳細內(nèi)容。更多信息請關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本站聲明
本文內(nèi)容由網(wǎng)友自發(fā)貢獻,版權(quán)歸原作者所有,本站不承擔相應法律責任。如您發(fā)現(xiàn)有涉嫌抄襲侵權(quán)的內(nèi)容,請聯(lián)系admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費脫衣服圖片

Undresser.AI Undress

Undresser.AI Undress

人工智能驅(qū)動的應用程序,用于創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用于從照片中去除衣服的在線人工智能工具。

Clothoff.io

Clothoff.io

AI脫衣機

Video Face Swap

Video Face Swap

使用我們完全免費的人工智能換臉工具輕松在任何視頻中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的代碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

功能強大的PHP集成開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網(wǎng)頁開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級代碼編輯軟件(SublimeText3)

Kimi K2:最強大的開源代理模型 Kimi K2:最強大的開源代理模型 Jul 12, 2025 am 09:16 AM

還記得今年早些時候破壞了Genai行業(yè)的大量開源中國模型嗎?盡管DeepSeek占據(jù)了大多數(shù)頭條新聞,但Kimi K1.5是列表中的重要名字之一。模型很酷。

AGI和AI超級智能將嚴重擊中人類天花板的假設障礙 AGI和AI超級智能將嚴重擊中人類天花板的假設障礙 Jul 04, 2025 am 11:10 AM

讓我們來談談。 對創(chuàng)新AI突破的分析是我正在進行的AI中正在進行的福布斯列覆蓋的一部分,包括識別和解釋各種有影響力的AI復雜性(請參閱此處的鏈接)。 前往Agi和

Grok 4 vs Claude 4:哪個更好? Grok 4 vs Claude 4:哪個更好? Jul 12, 2025 am 09:37 AM

到2025年中期,AI“軍備競賽”正在加熱,XAI和Anthropic都發(fā)布了他們的旗艦車型Grok 4和Claude 4。這兩種模型處于設計理念和部署平臺的相反端,但他們卻在

深入探討人工智能如何幫助和危害各行各業(yè) 深入探討人工智能如何幫助和危害各行各業(yè) Jul 04, 2025 am 11:11 AM

我們將討論:公司開始委派AI的工作職能,以及那些最不可能用人工智能替代的角色AI如何重塑行業(yè)和就業(yè),以及企業(yè)和工人的工作方式。

今天已經(jīng)在我們中間走了10個驚人的人形機器人 今天已經(jīng)在我們中間走了10個驚人的人形機器人 Jul 16, 2025 am 11:12 AM

但是我們可能甚至不必等10年就可以看到一個。實際上,可以被認為是真正有用的,類人類機器的第一波。 近年來,有許多原型和生產(chǎn)模型從T中走出來

上下文工程是&#039; new&#039;及時的工程 上下文工程是&#039; new&#039;及時的工程 Jul 12, 2025 am 09:33 AM

直到上一年,迅速的工程被認為是與大語言模型(LLM)互動的關(guān)鍵技能。然而,最近,LLM在推理和理解能力方面已經(jīng)顯著提高。自然,我們的期望

建立Langchain健身教練:您的AI私人教練 建立Langchain健身教練:您的AI私人教練 Jul 05, 2025 am 09:06 AM

許多人充滿熱情地打入健身房,并相信自己正在正確實現(xiàn)自己的健身目標。但是由于飲食計劃差和缺乏方向,結(jié)果不存在。雇用私人教練AL

6個任務Manus AI可以在幾分鐘內(nèi)完成 6個任務Manus AI可以在幾分鐘內(nèi)完成 Jul 06, 2025 am 09:29 AM

我相信您必須了解通用的AI代理Manus。它是幾個月前推出的,在過去的幾個月中,他們?yōu)橄到y(tǒng)添加了幾個新功能?,F(xiàn)在,您可以生成視頻,創(chuàng)建網(wǎng)站并做很多MO

See all articles