亚洲第一区欧美国产综合,色偷偷888欧美精品久久久,一个人看的www在线观看免费

首頁

后端開發(fā)

Python教程

優(yōu)化 OpenAI 的 GPT-mini 以使用 DSPy 檢測 AI 生成的文本

Linda Hamilton

Nov 24, 2024 am 06:46 AM

檢測人工智能生成的文本已成為一個熱門話題，研究人員和從業(yè)者對其可行性和倫理影響進(jìn)行了爭論。隨著模型變得越來越復(fù)雜，區(qū)分人類編寫的文本和人工智能生成的文本既成為一項(xiàng)令人興奮的挑戰(zhàn)，也成為一項(xiàng)迫切的需求。

在這篇文章中，我們將探索如何利用 DSPy 的優(yōu)化功能，使用包含 139 萬個文本樣本的迷人數(shù)據(jù)集來微調(diào) OpenAI 的 GPT-4o-mini 以完成此任務(wù)。最后，您將了解如何使用 DSPy 實(shí)現(xiàn)、評估和優(yōu)化基本的 AI 文本檢測器，無需手動提示工程。

數(shù)據(jù)集加載

首先，讓我們加載數(shù)據(jù)集，其中包含標(biāo)記為人類編寫或人工智能從各種人類和法學(xué)碩士來源生成的文本樣本。首先，請確保您已安裝 Python 3，以及 DSPy 和擁抱面部數(shù)據(jù)集庫：

pip install dspy datasets

數(shù)據(jù)集大小約為 2GB，因此根據(jù)您的互聯(lián)網(wǎng)速度，此步驟可能需要幾分鐘。

以下是均勻加載和分割數(shù)據(jù)集以進(jìn)行訓(xùn)練和測試的代碼：

from datasets import load_dataset

# Load the dataset
ds = load_dataset("artem9k/ai-text-detection-pile", split="train")

# For simplicity, we’ll do an even split of data for testing and training
NUM_EXAMPLES = 80  # Adjust this to experiment with dataset size
ds = ds.train_test_split(test_size=NUM_EXAMPLES, train_size=NUM_EXAMPLES)

提示：您可以調(diào)整 NUM_EXAMPLES 來試驗(yàn)更大的數(shù)據(jù)集或降低運(yùn)行優(yōu)化時的成本。

模型設(shè)置

接下來，我們將使用 OpenAI 的 GPT-4o-mini 創(chuàng)建一個基本的 DSPy 預(yù)測器。 GPT-4o-mini 是 OpenAI GPT-4o 模型的輕量級版本，使其實(shí)驗(yàn)成本高效。 DSPy 通過使用簽名（定義結(jié)構(gòu)化輸入輸出映射）來簡化此過程。

在運(yùn)行代碼之前將“YOUR_API_KEY”替換為您的 OpenAI API 密鑰：

import dspy
from typing import Literal

# Initialize the OpenAI GPT-4o-mini model
lm = dspy.LM('openai/gpt-4o-mini', api_key="YOUR_API_KEY")
dspy.configure(lm=lm, experimental=True)

# Define the AI text detector signature
class DetectAiText(dspy.Signature):
    """Classify text as written by human or by AI."""
    text: str = dspy.InputField()
    source: Literal['ai', 'human'] = dspy.OutputField()

# Create a basic predictor
detector = dspy.Predict(DetectAiText)

請注意，我們在這里沒有進(jìn)行任何提示工程。相反，我們依靠 DSPy 來處理這個問題，以及自動的輸入輸出關(guān)系。

您可以使用一些示例輸入來測試“檢測器”：

print(detector(text="Hello world (this definitely wasn't written by AI)"))

預(yù)測將出現(xiàn)在輸出的“源”字段中。

評估探測器

現(xiàn)在我們有了一個基本的檢測器，讓我們使用 DSPy 的評估工具評估其性能。為此，我們將定義一個簡單的指標(biāo)來檢查模型是否正確預(yù)測文本的來源（人類或人工智能）。

這是設(shè)置和運(yùn)行評估的代碼：

from dspy.evaluate import Evaluate

# Define a simple evaluation metric
def validate_text_source(example: dspy.Example, pred, trace=None) -> int:
    return 1 if example.source.lower() == pred.source.lower() else 0

# Transform the dataset into DSPy-compatible "Example" objects
dspy_trainset = [
    dspy.Example(source=x['source'], text=x['text']).with_inputs('text') for x in ds['train']
]
dspy_devset = [
    dspy.Example(source=x['source'], text=x['text']).with_inputs('text') for x in ds['test']
]

# Evaluate the detector
evaluator = Evaluate(devset=dspy_devset, num_threads=12)  # Adjust threads based on your system
evaluator(detector, metric=validate_text_source)

在最初的測試中，我的準(zhǔn)確率達(dá)到了 76%–81%。請注意，由于數(shù)據(jù)集的隨機(jī)采樣，結(jié)果可能會有所不同。

Optimizing OpenAI’s GPT-mini to Detect AI-Generated Text Using DSPy

使用 DSPy 進(jìn)行優(yōu)化

DSPy 的真正強(qiáng)大之處在于它的優(yōu)化能力。通過使用 MIPROv2 優(yōu)化器，我們可以提高檢測器的性能，而無需手動調(diào)整提示。優(yōu)化器使用少量示例、動態(tài)模板和自我監(jiān)督技術(shù)自動執(zhí)行此過程。

以下是設(shè)置和運(yùn)行優(yōu)化器的方法：

pip install dspy datasets

注意：對于 80 個示例的數(shù)據(jù)集，使用“l(fā)ight”預(yù)設(shè)運(yùn)行單次優(yōu)化的成本通常低于 0.50 美元。

結(jié)果和迭代

運(yùn)行優(yōu)化后，我觀察到性能顯著提升。與基線的 76%–81% 相比，我的第一次運(yùn)行的準(zhǔn)確率達(dá)到了 91.25%。隨后的運(yùn)行范圍在 81.2% 和 91.25% 之間，證明了以最小的努力實(shí)現(xiàn)了一致的改進(jìn)。

Optimizing OpenAI’s GPT-mini to Detect AI-Generated Text Using DSPy

加載優(yōu)化模型以供進(jìn)一步使用：

from datasets import load_dataset

# Load the dataset
ds = load_dataset("artem9k/ai-text-detection-pile", split="train")

# For simplicity, we’ll do an even split of data for testing and training
NUM_EXAMPLES = 80  # Adjust this to experiment with dataset size
ds = ds.train_test_split(test_size=NUM_EXAMPLES, train_size=NUM_EXAMPLES)

您可以通過以下方式進(jìn)一步迭代：

調(diào)整優(yōu)化器的自動參數(shù)（輕、中、重），或自行設(shè)置超參數(shù)。
增加訓(xùn)練和評估的數(shù)據(jù)集大小。
使用更高級或更新的法學(xué)碩士進(jìn)行測試。

結(jié)論

只需幾個步驟，我們就演示了 DSPy 如何簡化現(xiàn)實(shí)用例的 LLM 優(yōu)化。在沒有任何手動提示工程的情況下，我們在檢測人工智能生成的文本方面取得了顯著的進(jìn)步。雖然該模型并不完美，但 DSPy 的靈活性允許持續(xù)迭代，使其成為可擴(kuò)展 AI 開發(fā)的寶貴工具。

我強(qiáng)烈建議通讀 DSPy 的文檔并嘗試其他優(yōu)化器和 LLM 模式。

完整代碼可在 GitHub 上獲取。

有問題嗎？評論？讓我知道，我期待看到您使用 DSPy 構(gòu)建的內(nèi)容！

你可以在 LinkedIn 上找到我 |首席技術(shù)官兼合伙人@EES。

以上是優(yōu)化 OpenAI 的 GPT-mini 以使用 DSPy 檢測 AI 生成的文本的詳細(xì)內(nèi)容。更多信息請關(guān)注PHP中文網(wǎng)其他相關(guān)文章！

本站聲明

本文內(nèi)容由網(wǎng)友自發(fā)貢獻(xiàn)，版權(quán)歸原作者所有，本站不承擔(dān)相應(yīng)法律責(zé)任。如您發(fā)現(xiàn)有涉嫌抄襲侵權(quán)的內(nèi)容，請聯(lián)系admin@php.cn

熱AI工具

Undresser.AI Undress

人工智能驅(qū)動的應(yīng)用程序，用于創(chuàng)建逼真的裸體照片

熱工具

熱門話題

Laravel 教程

1597

PHP教程

1488

Related knowledge

Python類中的多態(tài)性 Jul 05, 2025 am 02:58 AM

多態(tài)是Python面向?qū)ο缶幊讨械暮诵母拍?，指“一種接口，多種實(shí)現(xiàn)”，允許統(tǒng)一處理不同類型的對象。1.多態(tài)通過方法重寫實(shí)現(xiàn)，子類可重新定義父類方法，如Animal類的speak()方法在Dog和Cat子類中有不同實(shí)現(xiàn)。2.多態(tài)的實(shí)際用途包括簡化代碼結(jié)構(gòu)、增強(qiáng)可擴(kuò)展性，例如圖形繪制程序中統(tǒng)一調(diào)用draw()方法，或游戲開發(fā)中處理不同角色的共同行為。3.Python實(shí)現(xiàn)多態(tài)需滿足：父類定義方法，子類重寫該方法，但不要求繼承同一父類，只要對象實(shí)現(xiàn)相同方法即可，這稱為“鴨子類型”。4.注意事項(xiàng)包括保持方

Python函數(shù)參數(shù)和參數(shù) Jul 04, 2025 am 03:26 AM

參數(shù)（parameters）是定義函數(shù)時的占位符，而傳參（arguments）是調(diào)用時傳入的具體值。1.位置參數(shù)需按順序傳遞，順序錯誤會導(dǎo)致結(jié)果錯誤；2.關(guān)鍵字參數(shù)通過參數(shù)名指定，可改變順序且提高可讀性；3.默認(rèn)參數(shù)值在定義時賦值，避免重復(fù)代碼，但應(yīng)避免使用可變對象作為默認(rèn)值；4.args和*kwargs可處理不定數(shù)量的參數(shù)，適用于通用接口或裝飾器，但應(yīng)謹(jǐn)慎使用以保持可讀性。

解釋Python發(fā)電機(jī)和迭代器。 Jul 05, 2025 am 02:55 AM

迭代器是實(shí)現(xiàn)__iter__()和__next__()方法的對象，生成器是簡化版的迭代器，通過yield關(guān)鍵字自動實(shí)現(xiàn)這些方法。1.迭代器每次調(diào)用next()返回一個元素，無更多元素時拋出StopIteration異常。2.生成器通過函數(shù)定義，使用yield按需生成數(shù)據(jù)，節(jié)省內(nèi)存且支持無限序列。3.處理已有集合時用迭代器，動態(tài)生成大數(shù)據(jù)或需惰性求值時用生成器，如讀取大文件時逐行加載。注意：列表等可迭代對象不是迭代器，迭代器到盡頭后需重新創(chuàng)建，生成器只能遍歷一次。

python`@classmethod'裝飾師解釋了 Jul 04, 2025 am 03:26 AM

類方法是Python中通過@classmethod裝飾器定義的方法，其第一個參數(shù)為類本身(cls)，用于訪問或修改類狀態(tài)。它可通過類或?qū)嵗{(diào)用，影響的是整個類而非特定實(shí)例；例如在Person類中，show_count()方法統(tǒng)計創(chuàng)建的對象數(shù)量；定義類方法時需使用@classmethod裝飾器并將首參命名為cls，如change_var(new_value)方法可修改類變量；類方法與實(shí)例方法(self參數(shù))、靜態(tài)方法(無自動參數(shù))不同，適用于工廠方法、替代構(gòu)造函數(shù)及管理類變量等場景；常見用途包括從

如何處理Python中的API身份驗(yàn)證 Jul 13, 2025 am 02:22 AM

處理API認(rèn)證的關(guān)鍵在于理解并正確使用認(rèn)證方式。1.APIKey是最簡單的認(rèn)證方式，通常放在請求頭或URL參數(shù)中；2.BasicAuth使用用戶名和密碼進(jìn)行Base64編碼傳輸，適合內(nèi)部系統(tǒng)；3.OAuth2需先通過client_id和client_secret獲取Token，再在請求頭中帶上BearerToken；4.為應(yīng)對Token過期，可封裝Token管理類自動刷新Token；總之，根據(jù)文檔選擇合適方式，并安全存儲密鑰信息是關(guān)鍵。

什么是python魔法方法或dunder方法？ Jul 04, 2025 am 03:20 AM

Python的magicmethods（或稱dunder方法）是用于定義對象行為的特殊方法，它們以雙下劃線開頭和結(jié)尾。1.它們使對象能夠響應(yīng)內(nèi)置操作，如加法、比較、字符串表示等；2.常見用例包括對象初始化與表示（__init__、__repr__、__str__）、算術(shù)運(yùn)算（__add__、__sub__、__mul__）及比較運(yùn)算（__eq__、__lt__）；3.使用時應(yīng)確保其行為符合預(yù)期，例如__repr__應(yīng)返回可重構(gòu)對象的表達(dá)式，算術(shù)方法應(yīng)返回新實(shí)例；4.應(yīng)避免過度使用或以令人困惑的方

Python內(nèi)存管理如何工作？ Jul 04, 2025 am 03:26 AM

Pythonmanagesmemoryautomaticallyusingreferencecountingandagarbagecollector.Referencecountingtrackshowmanyvariablesrefertoanobject,andwhenthecountreacheszero,thememoryisfreed.However,itcannothandlecircularreferences,wheretwoobjectsrefertoeachotherbuta

python`@property`裝飾師 Jul 04, 2025 am 03:28 AM

@property是Python中用于將方法偽裝成屬性的裝飾器，允許在訪問屬性時執(zhí)行邏輯判斷或動態(tài)計算值。1.它通過@property裝飾器定義getter方法，使外部像訪問屬性一樣調(diào)用方法；2.搭配.setter可控制賦值行為，如校驗(yàn)值合法性，不定義.setter則為只讀屬性；3.適用于屬性賦值校驗(yàn)、動態(tài)生成屬性值、隱藏內(nèi)部實(shí)現(xiàn)細(xì)節(jié)等場景；4.使用時注意屬性名與私有變量名不同名，避免死循環(huán)，適合輕量級操作；5.示例中Circle類限制radius非負(fù)，Person類動態(tài)生成full_name屬

See all articles

亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

優(yōu)化 OpenAI 的 GPT-mini 以使用 DSPy 檢測 AI 生成的文本

數(shù)據(jù)集加載

模型設(shè)置

評估探測器

使用 DSPy 進(jìn)行優(yōu)化

結(jié)果和迭代

結(jié)論

熱AI工具

Undress AI Tool

Undresser.AI Undress

AI Clothes Remover

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題