亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

首頁(yè) 科技週邊 人工智慧 HumaneVal:評(píng)估LLM代碼生成功能的基準(zhǔn)

HumaneVal:評(píng)估LLM代碼生成功能的基準(zhǔn)

Mar 02, 2025 am 09:47 AM

HumaneVal:通過(guò)PASS@k

評(píng)估代碼生成

>本教程探索了HumaneVal,這是評(píng)估大語(yǔ)模型(LLM)代碼生成功能的OpenAI基準(zhǔn),重點(diǎn)介紹了pass@k指標(biāo)。我們將使用擁抱的面部生態(tài)系統(tǒng)來(lái)評(píng)估164個(gè)Python問(wèn)題的codeparrot-small模型。 這提供了一種實(shí)用的功能正確性評(píng)估,與傳統(tǒng)的文本相似度指標(biāo)形成鮮明對(duì)比。

HumanEval: A Benchmark for Evaluating LLM Code Generation Capabilities

>由作者 圖像

理解通過(guò)@k

k

生成的代碼樣本中的一個(gè)概率正確解決了問(wèn)題。 這比簡(jiǎn)單的文本匹配更相關(guān),反映了現(xiàn)實(shí)世界開發(fā)人員測(cè)試。 >

公式為:1 -c(n -c,k)/c(n,k) pass@k其中:

    :總生成的樣品。
  • n
  • :正確樣本的數(shù)量。
  • c
  • :考慮的頂級(jí)樣本數(shù)量。
  • > k
  • 公式計(jì)算出
所有

k 樣品的概率不正確,然後從1中減去它以獲取至少一個(gè)正確的樣本的概率。 更高的分?jǐn)?shù)表示更好的代碼生成性能。 排行榜經(jīng)常使用pass@k。 pass@10> pass@100人性化的評(píng)估,擁抱臉

本節(jié)使用擁抱面的

庫(kù)詳細(xì)介紹了評(píng)估過(guò)程。我們將使用較小的

模型進(jìn)行更快的評(píng)估。 evaluate codeparrot-small

1。設(shè)置:

安裝必要的庫(kù):

設(shè)置環(huán)境變量:
pip install evaluate

import os
os.environ["HF_ALLOW_CODE_EVAL"] = "1"
os.environ["TOKENIZERS_PARALLELISM"] = "false"
2。加載數(shù)據(jù)集和公制:

>加載

>數(shù)據(jù)集和

公制: openai_humaneval code_eval

3。加載模型和令牌器:
from datasets import load_dataset
from evaluate import load
human_eval = load_dataset("openai_humaneval")['test']
code_eval_metric = load("code_eval")

> 加載模型和令牌:

codeparrot/codeparrot-small

4。 Tokenizer調(diào)整:
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
model_name = "codeparrot/codeparrot-small"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)
model.eval()

確保令牌具有>和

,請(qǐng)?jiān)诒匾獣r(shí)調(diào)整型號(hào)嵌入:

pad_token_ideos_token_id5。代碼生成:

if tokenizer.pad_token_id is None: tokenizer.pad_token_id = 0
if tokenizer.eos_token_id is None: tokenizer.eos_token_id = 2
if tokenizer.pad_token is None: tokenizer.add_special_tokens({'pad_token': '<pad>'})
if tokenizer.eos_token is None: tokenizer.add_special_tokens({'eos_token': ''})
if len(tokenizer) > model.config.vocab_size: model.resize_token_embeddings(len(tokenizer))</pad>

每個(gè)問(wèn)題生成5個(gè)代碼示例(總共164個(gè)問(wèn)題):> 6。計(jì)算通過(guò)@k:

compute

num_samples_per_problem = 5
test_cases = []
candidates = []
for problem in tqdm(human_eval, desc="Problems", unit="problem"):
    prompt = problem['prompt']
    test_code = problem['test']
    test_cases.append(test_code)
    problem_candidates = []
    for _ in range(num_samples_per_problem):
        inputs = tokenizer(prompt, return_tensors="pt").to("cuda" if torch.cuda.is_available() else "cpu")
        with torch.no_grad():
            outputs = model.generate(input_ids=inputs['input_ids'], attention_mask=inputs['attention_mask'], max_length=512, do_sample=True, temperature=0.7, top_p=0.95, num_return_sequences=1, pad_token_id=tokenizer.pad_token_id, eos_token_id=tokenizer.eos_token_id)
        generated_code = tokenizer.decode(outputs[0], skip_special_tokens=True)
        generated_code = generated_code[len(prompt):]
        problem_candidates.append(generated_code)
    candidates.append(problem_candidates)

>

pip install evaluate

>輸出將顯示pass@1pass@5分?jǐn)?shù),以表明模型的性能。 請(qǐng)記住,由於代碼生成的隨機(jī)性,結(jié)果可能會(huì)有所不同。 將這些結(jié)果與更強(qiáng)大的模型(例如GPT-4)的結(jié)果進(jìn)行比較,為codeparrot-small>模型的功能提供了上下文。 進(jìn)一步的分析可能涉及探索不同的超參數(shù)或使用更複雜的代碼生成技術(shù)。

以上是HumaneVal:評(píng)估LLM代碼生成功能的基準(zhǔn)的詳細(xì)內(nèi)容。更多資訊請(qǐng)關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本網(wǎng)站聲明
本文內(nèi)容由網(wǎng)友自願(yuàn)投稿,版權(quán)歸原作者所有。本站不承擔(dān)相應(yīng)的法律責(zé)任。如發(fā)現(xiàn)涉嫌抄襲或侵權(quán)的內(nèi)容,請(qǐng)聯(lián)絡(luò)admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費(fèi)脫衣圖片

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅(qū)動(dòng)的應(yīng)用程序,用於創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費(fèi)的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費(fèi)的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強(qiáng)大的PHP整合開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網(wǎng)頁(yè)開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級(jí)程式碼編輯軟體(SublimeText3)

熱門話題

Laravel 教程
1597
29
PHP教程
1488
72
Kimi K2:最強(qiáng)大的開源代理模型 Kimi K2:最強(qiáng)大的開源代理模型 Jul 12, 2025 am 09:16 AM

還記得今年早些時(shí)候破壞了Genai行業(yè)的大量開源中國(guó)模型嗎??jī)嵐蹹eepSeek佔(zhàn)據(jù)了大多數(shù)頭條新聞,但Kimi K1.5是列表中的重要名字之一。模型很酷。

Grok 4 vs Claude 4:哪個(gè)更好? Grok 4 vs Claude 4:哪個(gè)更好? Jul 12, 2025 am 09:37 AM

到2025年中期,AI“軍備競(jìng)賽”正在加熱,XAI和Anthropic都發(fā)布了他們的旗艦車型Grok 4和Claude 4。這兩種模型處?kù)对O(shè)計(jì)理念和部署平臺(tái)的相反端,但他們卻在

今天已經(jīng)在我們中間走了10個(gè)驚人的人形機(jī)器人 今天已經(jīng)在我們中間走了10個(gè)驚人的人形機(jī)器人 Jul 16, 2025 am 11:12 AM

但是我們可能甚至不必等10年就可以看到一個(gè)。實(shí)際上,可以被認(rèn)為是真正有用的,類人類機(jī)器的第一波。 近年來(lái),有許多原型和生產(chǎn)模型從T中走出來(lái)

上下文工程是&#039; new&#039;及時(shí)的工程 上下文工程是&#039; new&#039;及時(shí)的工程 Jul 12, 2025 am 09:33 AM

直到上一年,迅速的工程被認(rèn)為是與大語(yǔ)言模型(LLM)互動(dòng)的關(guān)鍵技能。然而,最近,LLM在推理和理解能力方面已經(jīng)顯著提高。自然,我們的期望

6個(gè)任務(wù)Manus AI可以在幾分鐘內(nèi)完成 6個(gè)任務(wù)Manus AI可以在幾分鐘內(nèi)完成 Jul 06, 2025 am 09:29 AM

我相信您必須了解通用的AI代理Manus。它是幾個(gè)月前推出的,在過(guò)去的幾個(gè)月中,他們?yōu)橄到y(tǒng)添加了幾個(gè)新功能?,F(xiàn)在,您可以生成視頻,創(chuàng)建網(wǎng)站並做很多MO

建立Langchain健身教練:您的AI私人教練 建立Langchain健身教練:您的AI私人教練 Jul 05, 2025 am 09:06 AM

許多人充滿熱情地打入健身房,並相信自己正在正確實(shí)現(xiàn)自己的健身目標(biāo)。但是由於飲食計(jì)劃差和缺乏方向,結(jié)果不存在。僱用私人教練AL

Leia的浸入式移動(dòng)應(yīng)用將3D深度帶入日常照片 Leia的浸入式移動(dòng)應(yīng)用將3D深度帶入日常照片 Jul 09, 2025 am 11:17 AM

基於Leia專有的神經(jīng)深度引擎,應(yīng)用程序流程靜止圖像,並添加了自然深度以及模擬運(yùn)動(dòng)(例如Pans,Zooms和Alallax Effects),以創(chuàng)建簡(jiǎn)短的視頻捲軸,從而給人以踏入SCE的印象

這些AI模型沒有學(xué)習(xí)語(yǔ)言,他們學(xué)習(xí)了策略 這些AI模型沒有學(xué)習(xí)語(yǔ)言,他們學(xué)習(xí)了策略 Jul 09, 2025 am 11:16 AM

倫敦國(guó)王學(xué)院和牛津大學(xué)的研究人員的一項(xiàng)新研究分享了Openai,Google和Anthropic在基於迭代囚犯的困境基於的cutthroat競(jìng)爭(zhēng)中一起投擲的結(jié)果。這是沒有的

See all articles