亚洲精品亚洲人成人网,一个人看的www视频免费

首頁(yè)

科技週邊

人工智慧

HumaneVal：評(píng)估LLM代碼生成功能的基準(zhǔn)

Joseph Gordon-Levitt

Mar 02, 2025 am 09:47 AM

HumaneVal：通過(guò)PASS@k

評(píng)估代碼生成

>本教程探索了HumaneVal，這是評(píng)估大語(yǔ)模型（LLM）代碼生成功能的OpenAI基準(zhǔn)，重點(diǎn)介紹了pass@k指標(biāo)。我們將使用擁抱的面部生態(tài)系統(tǒng)來(lái)評(píng)估164個(gè)Python問(wèn)題的codeparrot-small模型。這提供了一種實(shí)用的功能正確性評(píng)估，與傳統(tǒng)的文本相似度指標(biāo)形成鮮明對(duì)比。

HumanEval: A Benchmark for Evaluating LLM Code Generation Capabilities

>由作者圖像

理解通過(guò)@k

生成的代碼樣本中的一個(gè)概率正確解決了問(wèn)題。這比簡(jiǎn)單的文本匹配更相關(guān)，反映了現(xiàn)實(shí)世界開發(fā)人員測(cè)試。 >

公式為：1 -c（n -c，k）/c（n，k） pass@k其中：

n
c
> k

所有

k 樣品的概率不正確，然後從1中減去它以獲取至少一個(gè)正確的樣本的概率。更高的分?jǐn)?shù)表示更好的代碼生成性能。排行榜經(jīng)常使用和pass@k。 pass@10> pass@100人性化的評(píng)估，擁抱臉

本節(jié)使用擁抱面的

庫(kù)詳細(xì)介紹了評(píng)估過(guò)程。我們將使用較小的

模型進(jìn)行更快的評(píng)估。 evaluate codeparrot-small

1。設(shè)置：

安裝必要的庫(kù)：

設(shè)置環(huán)境變量：

pip install evaluate

import os
os.environ["HF_ALLOW_CODE_EVAL"] = "1"
os.environ["TOKENIZERS_PARALLELISM"] = "false"

2。加載數(shù)據(jù)集和公制：

>加載

>數(shù)據(jù)集和

公制： openai_humaneval code_eval

3。加載模型和令牌器：

from datasets import load_dataset
from evaluate import load
human_eval = load_dataset("openai_humaneval")['test']
code_eval_metric = load("code_eval")

> 加載模型和令牌：

codeparrot/codeparrot-small

4。 Tokenizer調(diào)整：

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
model_name = "codeparrot/codeparrot-small"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)
model.eval()

確保令牌具有>和

，請(qǐng)?jiān)诒匾獣r(shí)調(diào)整型號(hào)嵌入：：

pad_token_ideos_token_id5。代碼生成：

if tokenizer.pad_token_id is None: tokenizer.pad_token_id = 0
if tokenizer.eos_token_id is None: tokenizer.eos_token_id = 2
if tokenizer.pad_token is None: tokenizer.add_special_tokens({'pad_token': '<pad>'})
if tokenizer.eos_token is None: tokenizer.add_special_tokens({'eos_token': ''})
if len(tokenizer) > model.config.vocab_size: model.resize_token_embeddings(len(tokenizer))</pad>

每個(gè)問(wèn)題生成5個(gè)代碼示例（總共164個(gè)問(wèn)題）：> 6。計(jì)算通過(guò)@k：

compute

和

num_samples_per_problem = 5
test_cases = []
candidates = []
for problem in tqdm(human_eval, desc="Problems", unit="problem"):
    prompt = problem['prompt']
    test_code = problem['test']
    test_cases.append(test_code)
    problem_candidates = []
    for _ in range(num_samples_per_problem):
        inputs = tokenizer(prompt, return_tensors="pt").to("cuda" if torch.cuda.is_available() else "cpu")
        with torch.no_grad():
            outputs = model.generate(input_ids=inputs['input_ids'], attention_mask=inputs['attention_mask'], max_length=512, do_sample=True, temperature=0.7, top_p=0.95, num_return_sequences=1, pad_token_id=tokenizer.pad_token_id, eos_token_id=tokenizer.eos_token_id)
        generated_code = tokenizer.decode(outputs[0], skip_special_tokens=True)
        generated_code = generated_code[len(prompt):]
        problem_candidates.append(generated_code)
    candidates.append(problem_candidates)

：

pip install evaluate

>輸出將顯示pass@1和pass@5分?jǐn)?shù)，以表明模型的性能。請(qǐng)記住，由於代碼生成的隨機(jī)性，結(jié)果可能會(huì)有所不同。將這些結(jié)果與更強(qiáng)大的模型（例如GPT-4）的結(jié)果進(jìn)行比較，為codeparrot-small>模型的功能提供了上下文。進(jìn)一步的分析可能涉及探索不同的超參數(shù)或使用更複雜的代碼生成技術(shù)。

以上是HumaneVal：評(píng)估LLM代碼生成功能的基準(zhǔn)的詳細(xì)內(nèi)容。更多資訊請(qǐng)關(guān)注PHP中文網(wǎng)其他相關(guān)文章！

本網(wǎng)站聲明

本文內(nèi)容由網(wǎng)友自願(yuàn)投稿，版權(quán)歸原作者所有。本站不承擔(dān)相應(yīng)的法律責(zé)任。如發(fā)現(xiàn)涉嫌抄襲或侵權(quán)的內(nèi)容，請(qǐng)聯(lián)絡(luò)admin@php.cn