亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

目錄
OpenAI 基礎(chǔ)知識
開始使用 Tiktoken" >立即開始開始使用 Tiktoken
編碼模型
將文本編碼為標(biāo)記
將標(biāo)記解碼為文本
實(shí)際用例和技巧
成本估算和管理
輸入長度驗(yàn)證
結(jié)論
獲得頂級 AI 認(rèn)證
首頁 科技週邊 人工智慧 tiktoken教程:Openai&#x27的Python圖書館用於令牌文本

tiktoken教程:Openai&#x27的Python圖書館用於令牌文本

Mar 05, 2025 am 10:30 AM

Tiktoken Tutorial: OpenAI's Python Library for Tokenizing Text

分詞是處理自然語言處理 (NLP) 任務(wù)時(shí)的基本步驟。它涉及將文本分解成更小的單元,稱為標(biāo)記,這些單元可以是單詞、子詞或字符。

高效的分詞對於語言模型的性能至關(guān)重要,使其成為各種 NLP 任務(wù)(如文本生成、翻譯和摘要)中的一個(gè)重要步驟。

Tiktoken 是 OpenAI 開發(fā)的一個(gè)快速高效的分詞庫。它提供了一個(gè)強(qiáng)大的解決方案,用於將文本轉(zhuǎn)換為標(biāo)記,反之亦然。其速度和效率使其成為處理大型數(shù)據(jù)集和復(fù)雜模型的開發(fā)人員和數(shù)據(jù)科學(xué)家的絕佳選擇。

本指南專為開發(fā)人員、數(shù)據(jù)科學(xué)家以及任何計(jì)劃使用 Tiktoken 並需要包含示例的實(shí)用指南的人員而設(shè)計(jì)。

OpenAI 基礎(chǔ)知識

開始使用 OpenAI API 及更多功能!

立即開始開始使用 Tiktoken

要開始使用 Tiktoken,我們需要在 Python 環(huán)境中安裝它(Tiktoken 也適用於其他編程語言)??梢允褂靡韵旅钔瓿纱瞬僮鳎?/p>

<code>pip install tiktoken</code>

您可以在以下 GitHub 存儲庫中查看 Tiktoken 開源 Python 版本的代碼。

要導(dǎo)入庫,我們運(yùn)行:

<code>import tiktoken</code>

編碼模型

Tiktoken 中的編碼模型決定了將文本分解成標(biāo)記的規(guī)則。這些模型至關(guān)重要,因?yàn)樗鼈兌x了文本的分割和編碼方式,從而影響語言處理任務(wù)的效率和準(zhǔn)確性。不同的 OpenAI 模型使用不同的編碼。

Tiktoken 提供了三種針對不同用例優(yōu)化的編碼模型:

  • o200k_base:最新 GPT-4o-Mini 模型的編碼。
  • cl100k_base:較新 OpenAI 模型(如 GPT-4 和 GPT-3.5-Turbo)的編碼模型。
  • p50k_base:Codex 模型的編碼,這些模型用於代碼應(yīng)用程序。
  • r50k_base:不同版本的 GPT-3 的較舊編碼。

所有這些模型都可用於 OpenAI 的 API。請注意,API 提供的模型比這裡列出的要多得多。幸運(yùn)的是,Tiktoken 庫提供了一種簡單的方法來檢查應(yīng)將哪個(gè)編碼與哪個(gè)模型一起使用。

例如,如果我需要知道 text-embedding-3-small 模型使用什麼編碼模型,我可以運(yùn)行以下命令並獲得答案作為輸出:

<code>pip install tiktoken</code>

我們得到作為輸出。在我們直接使用 Tiktoken 之前,我想提到 OpenAI 有一個(gè)標(biāo)記化 Web 應(yīng)用程序,您可以在其中查看不同的字符串是如何標(biāo)記化的——您可以在這裡訪問它。還有一個(gè)第三方在線標(biāo)記器 Tiktokenizer,它支持非 OpenAI 模型。

將文本編碼為標(biāo)記

要使用 Tiktoken 將文本編碼為標(biāo)記,您首先需要獲取編碼對象。初始化它有兩種方法。首先,您可以使用標(biāo)記器的名稱來執(zhí)行此操作:

<code>import tiktoken</code>

或者,您可以運(yùn)行前面提到的 encoding_for_model 函數(shù)以獲取特定模型的編碼器:

<code>print(tiktoken.encoding_for_model('text-embedding-3-small'))</code>

現(xiàn)在,我們可以運(yùn)行編碼對象的 encode 方法來編碼字符串。例如,我們可以按照以下方式編碼“我愛 DataCamp”字符串——這裡我使用 cl100k_base 編碼器:

<code>encoding = tiktoken.get_encoding("[標(biāo)記器名稱]")</code>

我們得到[40, 3021, 2956, 34955]作為輸出。

將標(biāo)記解碼為文本

要將標(biāo)記解碼回文本,我們可以在編碼對像上使用 .decode() 方法。

讓我們解碼以下標(biāo)記[40, 4048, 264, 2763, 505, 2956, 34955]:

<code>encoding = tiktoken.encoding_for_model("[模型名稱]")</code>

這些標(biāo)記解碼為“我從 DataCamp 學(xué)到了很多東西”。

實(shí)際用例和技巧

除了編碼和解碼之外,我還想到了另外兩個(gè)用例。

成本估算和管理

在向 OpenAI API 發(fā)送請求之前了解標(biāo)記計(jì)數(shù)可以幫助您有效地管理成本。由於 OpenAI 的計(jì)費(fèi)基於處理的標(biāo)記數(shù)量,因此預(yù)標(biāo)記文本允許您估算 API 使用成本。以下是如何使用 Tiktoken 計(jì)算文本中的標(biāo)記:

<code>print(encoding.encode("我愛 DataCamp"))</code>

我們只需通過檢查數(shù)組的長度來查看我們獲得了多少個(gè)標(biāo)記。通過提前了解標(biāo)記數(shù)量,您可以決定是否縮短文本或調(diào)整使用情況以保持預(yù)算內(nèi)。

您可以在本關(guān)於使用 Python 中的 tiktoken 庫估算 GPT 成本的教程中閱讀更多關(guān)於此方法的信息。

輸入長度驗(yàn)證

當(dāng)使用來自 API 的 OpenAI 模型時(shí),您受到輸入和輸出最大標(biāo)記數(shù)的限制。超過這些限制會導(dǎo)致錯(cuò)誤或輸出被截?cái)?。使?Tiktoken,您可以驗(yàn)證輸入長度並確保它符合標(biāo)記限制。

結(jié)論

Tiktoken 是一個(gè)開源分詞庫,它提供針對 OpenAI 語言模型量身定制的速度和效率。

了解如何使用 Tiktoken 編碼和解碼文本及其各種編碼模型,可以極大地增強(qiáng)您使用大型語言模型的工作。

獲得頂級 AI 認(rèn)證

證明您可以有效且負(fù)責(zé)任地使用 AI。獲得認(rèn)證,獲得聘用

以上是tiktoken教程:Openai&#x27的Python圖書館用於令牌文本的詳細(xì)內(nèi)容。更多資訊請關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本網(wǎng)站聲明
本文內(nèi)容由網(wǎng)友自願(yuàn)投稿,版權(quán)歸原作者所有。本站不承擔(dān)相應(yīng)的法律責(zé)任。如發(fā)現(xiàn)涉嫌抄襲或侵權(quán)的內(nèi)容,請聯(lián)絡(luò)admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費(fèi)脫衣圖片

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅(qū)動(dòng)的應(yīng)用程序,用於創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費(fèi)的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費(fèi)的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強(qiáng)大的PHP整合開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網(wǎng)頁開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

Kimi K2:最強(qiáng)大的開源代理模型 Kimi K2:最強(qiáng)大的開源代理模型 Jul 12, 2025 am 09:16 AM

還記得今年早些時(shí)候破壞了Genai行業(yè)的大量開源中國模型嗎?儘管DeepSeek佔(zhàn)據(jù)了大多數(shù)頭條新聞,但Kimi K1.5是列表中的重要名字之一。模型很酷。

AGI和AI超級智能將嚴(yán)重?fù)糁腥祟愄旎ò宓募僭O(shè)障礙 AGI和AI超級智能將嚴(yán)重?fù)糁腥祟愄旎ò宓募僭O(shè)障礙 Jul 04, 2025 am 11:10 AM

讓我們來談?wù)劇? 對創(chuàng)新AI突破的分析是我正在進(jìn)行的AI中正在進(jìn)行的福布斯列覆蓋的一部分,包括識別和解釋各種有影響力的AI複雜性(請參閱此處的鏈接)。 前往Agi和

Grok 4 vs Claude 4:哪個(gè)更好? Grok 4 vs Claude 4:哪個(gè)更好? Jul 12, 2025 am 09:37 AM

到2025年中期,AI“軍備競賽”正在加熱,XAI和Anthropic都發(fā)布了他們的旗艦車型Grok 4和Claude 4。這兩種模型處於設(shè)計(jì)理念和部署平臺的相反端,但他們卻在

深入探討人工智能如何幫助和危害各行各業(yè) 深入探討人工智能如何幫助和危害各行各業(yè) Jul 04, 2025 am 11:11 AM

我們將討論:公司開始委派AI的工作職能,以及那些最不可能用人工智能替代的角色AI如何重塑行業(yè)和就業(yè),以及企業(yè)和工人的工作方式。

今天已經(jīng)在我們中間走了10個(gè)驚人的人形機(jī)器人 今天已經(jīng)在我們中間走了10個(gè)驚人的人形機(jī)器人 Jul 16, 2025 am 11:12 AM

但是我們可能甚至不必等10年就可以看到一個(gè)。實(shí)際上,可以被認(rèn)為是真正有用的,類人類機(jī)器的第一波。 近年來,有許多原型和生產(chǎn)模型從T中走出來

上下文工程是&#039; new&#039;及時(shí)的工程 上下文工程是&#039; new&#039;及時(shí)的工程 Jul 12, 2025 am 09:33 AM

直到上一年,迅速的工程被認(rèn)為是與大語言模型(LLM)互動(dòng)的關(guān)鍵技能。然而,最近,LLM在推理和理解能力方面已經(jīng)顯著提高。自然,我們的期望

6個(gè)任務(wù)Manus AI可以在幾分鐘內(nèi)完成 6個(gè)任務(wù)Manus AI可以在幾分鐘內(nèi)完成 Jul 06, 2025 am 09:29 AM

我相信您必須了解通用的AI代理Manus。它是幾個(gè)月前推出的,在過去的幾個(gè)月中,他們?yōu)橄到y(tǒng)添加了幾個(gè)新功能?,F(xiàn)在,您可以生成視頻,創(chuàng)建網(wǎng)站並做很多MO

建立Langchain健身教練:您的AI私人教練 建立Langchain健身教練:您的AI私人教練 Jul 05, 2025 am 09:06 AM

許多人充滿熱情地打入健身房,並相信自己正在正確實(shí)現(xiàn)自己的健身目標(biāo)。但是由於飲食計(jì)劃差和缺乏方向,結(jié)果不存在。僱用私人教練AL

See all articles