亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

首頁 科技週邊 人工智慧 從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」

從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」

Jun 24, 2024 pm 03:04 PM
工程 對齊演算法 TDPO

從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」
AIxiv專欄是本站發(fā)布學術、技術內容的欄位。過去數(shù)年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業(yè)的頂尖實驗室,有效促進了學術交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或聯(lián)絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

在人工智慧領域的發(fā)展過程中,對大語言模型(LLM)的控制與指導始終是核心挑戰(zhàn)之一,旨在確保這些模型既強大又安全地服務人類社會。早期的努力集中在透過人類回饋的強化學習方法(RLHF)來管理這些模型,成效顯著,標誌著向更人性化 AI 邁出的關鍵一步。

儘管 RLHF 取得了巨大成功,但在訓練過程中 RLHF 非常消耗資源。因此,近段時間學者們在 RLHF 奠定的堅實基礎上,繼續(xù)探索更為簡單且高效的策略優(yōu)化路徑,催生了直接偏好優(yōu)化(DPO)的誕生。 DPO 透過數(shù)學推理得到獎勵函數(shù)與最優(yōu)策略之間的直接映射,消除了獎勵模型的訓練過程,直接在偏好資料上優(yōu)化策略模型,實現(xiàn)了從「回饋到策略」的直觀飛躍。這不僅減少了複雜度,也增強了演算法的穩(wěn)健性,迅速成為業(yè)界的新寵。

然而,DPO 主要關注在逆 KL 散度約束下的策略最佳化。由於逆 KL 散度的 mode-seeking 特性,DPO 在提升對齊性能方面表現(xiàn)出色,但這一特性也傾向於在生成過程中減少多樣性,可能限制模型的能力。另一方面,儘管 DPO 從句子級的角度控制 KL 散度,模型的生成過程本質上是逐個 token 進行的。從句子層級控制 KL 散度直觀上顯示 DPO 在細粒度控制上有限制,對 KL 散度的調節(jié)能力較弱,可能是 DPO 訓練過程中 LLM 的生成多樣性迅速下降的關鍵因素之一。

為此,來自中科院和倫敦大學學院的汪軍與張海峰團隊提出了一種從 token-level 角度建模的大模型對齊演算法:TDPO。

從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」

  • 論文標題:Token-level Direct Preference Optimization

  • 論文地址:https://arxiv.org/abs/2404.1199999303000707070703030g? /Token-level-Direct-Preference-Optimization

  • 為了應對模型產生多樣性顯著下降的問題,TDPO 從token-level 的角度重新定義了整個對齊流程的目標函數(shù),並透過將Bradley-Terry 模型轉換為優(yōu)勢函數(shù)的形式,使得整個對齊流程能最終從Token-level 層級進行分析與最佳化。相較於DPO 而言,TDPO 的主要貢獻如下:

Token-level 的建模方式:TDPO 從Token-level 的角度對問題進行了建模,對RLHF 進行了更精細的分析;

  • 細粒度KL 散度約束:在每個token 處從理論上引入了前向KL 散度約束,使方法能夠更好地約束模型優(yōu)化;

  • 性能優(yōu)勢明顯:相比於DPO 而言,TDPO 能夠實現(xiàn)更好的對齊性能和生成多樣性的帕累托前沿。

  • DPO 與 TDPO 的主要差異如下圖所示:

從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」? ? ?? ??DPO 從 sentence-level 的角度進行建模

從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」圖 2:TDPO 的對齊最佳化方式。 TDPO 從token-level 的角度進行建模,並在每個token 處引入了額外的前向KL 散度約束,如圖中紅色部分所示,控制模型偏移程度的同時,充當了模型對齊的baseline

下面介紹兩者方法的具體推導過程。

背景:直接偏好優(yōu)化(DPO)

DPO 透過數(shù)學推導,得到了獎勵函數(shù)與最優(yōu)策略之間的直接映射,消除了RLHF 過程中的獎勵建模階段:

將公式(1) 代入Bradley-Terry (BT) 偏好模型中,得到直接策略最佳化(DPO)損失函數(shù):

從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」

其中從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」是由來自偏好資料集 D 的 prompt、獲勝回應和失敗回應所構成的偏好對。

TDPO

符號標註

為了建模語言模型順序的、自回歸的產生過程,TDPO 將產生回應表示成?T?5 (詞彙表)。 從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」當將文本生成建模為馬可夫決策過程時??,狀態(tài)state 定義為prompt 和到當前step 為止已生成的token 的組合,表示為從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」,而動作action 則對應於下一個生成的token,表示為

,token 級獎勵定義為

。 從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」基於上述提供的定義,TDPO 為策略從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」建立了狀態(tài) - 動作函數(shù)

、狀態(tài)值函數(shù)

和優(yōu)勢函數(shù)從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」

其中,從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」表示折扣因子。

從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」Token-level 角度的人類回饋強化學習

TDPO 理論上修改了 RLHF 的獎勵建模階段和 RL 微調階段,將它們擴展為了從 token-level 角度考慮的最佳化目標。

對於獎勵建模階段, TDPO 建立了Bradley-Terry 模型和優(yōu)勢函數(shù)之間的相關性:

對於RL 微調階段,TDPO 定義了以下目標函數(shù):從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」

推導

從目標(4) 出發(fā),TDPO 在每個token 上推導了最優(yōu)策略

和狀態(tài)- 動作函數(shù)從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」之間的映射關係:

其中,從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」表示配分函數(shù)。

將方程式(5) 代入方程式(3),我們得到:

從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」

其中,從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」表示策略模型從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」和參考模型從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」表示的隱式獎勵函數(shù)差異,表示為

從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」

表示從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」的序列級前向KL 散度差異,按從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」加權,表示為從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」

從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」

基於方程式(8),TDPO 最大似然損失函數(shù)可以建模為:

從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」

實際中,從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」損失傾向於增加從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」,放大從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」之間的差異,TDPO 提出修改方程式(9) 為:

從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」

其中從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」是一個超參數(shù),而

從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」

其中

是一個超參數(shù),而從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」

其中

是一個超參數(shù),而從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」

其中

是一個超參數(shù),而

其中

是一個超參數(shù),而

其中??是一個超參數(shù),而????????其中??是一個超參數(shù),而??停止梯度傳播運算子。 ????我們將TDPO 和DPO 的損失函數(shù)總結如下:??????????由此可見,TDPO 在每個token 處引入了這種前向KL 散度控制,使得在優(yōu)化過程中能夠更好地控制KL的變化,而不影響對齊性能,從而實現(xiàn)了更優(yōu)的帕累托前緣。 ??????實驗設定??????TDPO 在 IMDb,Anthropic/hh-rlhf、MT-Bench 上個資料集上進行了實驗。 ??????IMDb????

在 IMDb 資料集上,該團隊採用了 GPT-2 作為基底模型,然後以 siebert/sentiment-roberta-large-english 作為獎勵模型評估策略模型輸出,實驗結果如圖 3 所示。

從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」

從圖3 (a) 可以看出,TDPO (TDPO1,TDPO2) 能夠達到比DPO 更好的reward-KL 的帕累托前沿,而從圖3 (b)-(d) 則可以看出,TDPO 在KL 散度控制方面表現(xiàn)極為出色,遠優(yōu)於DPO 演算法的KL 散度控制能力。

Anthropic HH

而在Anthropic/hh-rlhf 資料集上,該團隊採用了Pythia 2.8B 作為基底模型,採用兩種方式評估模型產生的好壞:1)使用現(xiàn)有的指標;2222222 )使用GPT-4 評測。

對於第一種評估方式,該團隊評估了不同演算法訓練的模型在對齊性能 (Accuracy) 和生成多樣性 (Entropy) 上的權衡,如表 1 所示。

從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」

可以看到TDPO 演算法不僅在對齊效能(Accuracy) 上優(yōu)於DPO 和f-DPO,在產生多樣性(Entropy) 上也佔據優(yōu)勢,在這兩個大模型產生回應的關鍵指標上達到了更好的權衡。

而對於第二種評估方式,該團隊評測了不同演算法訓練的模型和人類偏好的吻合度,與資料集中的獲勝響應作對比,如圖 4 所示。

從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」

DPO、TDPO1 和 TDPO2 演算法在溫度係數(shù)為 0.75 的情況下均能夠達到對獲勝響應的勝率高於 50%,較好地符合人類偏好。

MT-Bench

在論文中的最後一個實驗上,該團隊採用了在Anthropic HH 資料集上訓練好的Pythia 2.8B 模型直接用於MT-Bench 資料集評測,結果如圖5 所測試示。

從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」

在 MT-Bench 上,TDPO 能夠達到比其他演算法更高的獲勝機率,這充分說明了 TDPO 演算法訓練的模型產生的反應的品質更高。

此外,有相關研究對DPO、TDPO、SimPO 演算法進行了對比,可參考連結:https://www.zhihu.com/question/651021172/answer/3513696851

基於eurus 提供的eval 腳本,測了基底模型qwen-4b、mistral-0.1、deepseek-math-base 是基於不同的對齊演算法DPO、TDPO、SimPO 微調訓練所得到的效能,以下是實驗的實驗結果:

從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」 2:DPO, TDPO,SimPO 演算法效能比較

了解更多結果,請參考原論文。

以上是從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發(fā)現(xiàn)涉嫌抄襲或侵權的內容,請聯(lián)絡admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Laravel 教程
1597
29
PHP教程
1488
72
arXiv論文可以發(fā)「彈幕」了,史丹佛alphaXiv討論平臺上線,LeCun按讚 arXiv論文可以發(fā)「彈幕」了,史丹佛alphaXiv討論平臺上線,LeCun按讚 Aug 01, 2024 pm 05:18 PM

乾杯!當論文討論細緻到詞句,是什麼體驗?最近,史丹佛大學的學生針對arXiv論文創(chuàng)建了一個開放討論論壇——alphaXiv,可以直接在任何arXiv論文之上發(fā)布問題和評論。網站連結:https://alphaxiv.org/其實不需要專門訪問這個網站,只需將任何URL中的arXiv更改為alphaXiv就可以直接在alphaXiv論壇上打開相應論文:可以精準定位到論文中的段落、句子:右側討論區(qū),使用者可以發(fā)表問題詢問作者論文想法、細節(jié),例如:也可以針對論文內容發(fā)表評論,例如:「給出至

ControlNet作者又出爆款!一張圖生成繪畫全過程,兩天狂攬1.4k Star ControlNet作者又出爆款!一張圖生成繪畫全過程,兩天狂攬1.4k Star Jul 17, 2024 am 01:56 AM

同樣是圖生視頻,PaintsUndo走出了不一樣的路線。 ControlNet作者LvminZhang又開始整活了!這次瞄準繪畫領域。新項目PaintsUndo剛上線不久,就收穫1.4kstar(還在瘋狂漲)。項目地址:https://github.com/lllyasviel/Paints-UNDO透過這個項目,用戶輸入一張靜態(tài)圖像,PaintsUndo就能自動幫你生成整個繪畫的全過程視頻,從線稿到成品都有跡可循。繪製過程,線條變化多端甚是神奇,最終視頻結果和原始圖像非常相似:我們再來看一個完整的繪

黎曼猜想顯著突破!陶哲軒強推MIT、牛津新論文,37歲菲爾茲獎得主參與 黎曼猜想顯著突破!陶哲軒強推MIT、牛津新論文,37歲菲爾茲獎得主參與 Aug 05, 2024 pm 03:32 PM

最近,被稱為千禧年七大難題之一的黎曼猜想迎來了新突破。黎曼猜想是數(shù)學中一個非常重要的未解決問題,與素數(shù)分佈的精確性質有關(素數(shù)是那些只能被1和自身整除的數(shù)字,它們在數(shù)論中扮演著基礎性的角色)。在當今的數(shù)學文獻中,已有超過一千個數(shù)學命題以黎曼猜想(或其推廣形式)的成立為前提。也就是說,黎曼猜想及其推廣形式一旦被證明,這一千多個命題將被確立為定理,對數(shù)學領域產生深遠的影響;而如果黎曼猜想被證明是錯誤的,那麼這些命題中的一部分也將隨之失去其有效性。新的突破來自MIT數(shù)學教授LarryGuth和牛津大學

OpenAI超級對齊團隊遺作:兩個大模型博弈一番,輸出更好懂了 OpenAI超級對齊團隊遺作:兩個大模型博弈一番,輸出更好懂了 Jul 19, 2024 am 01:29 AM

如果AI模型給的答案一點也看不懂,你敢用嗎?隨著機器學習系統(tǒng)在更重要的領域中得到應用,證明為什麼我們可以信任它們的輸出,並明確何時不應信任它們,變得越來越重要。獲得對複雜系統(tǒng)輸出結果信任的一個可行方法是,要求系統(tǒng)對其輸出產生一種解釋,這種解釋對人類或另一個受信任的系統(tǒng)來說是可讀的,即可以完全理解以至於任何可能的錯誤都可以被發(fā)現(xiàn)。例如,為了建立對司法系統(tǒng)的信任,我們要求法院提供清晰易讀的書面意見,解釋並支持其決策。對於大型語言模型來說,我們也可以採用類似的方法。不過,在採用這種方法時,確保語言模型生

LLM用於時序預測真的不行,連推理能力都沒用到 LLM用於時序預測真的不行,連推理能力都沒用到 Jul 15, 2024 pm 03:59 PM

語言模型真的能用於時序預測嗎?根據貝特里奇頭條定律(任何以問號結尾的新聞標題,都能夠用「不」來回答),答案應該是否定的。事實似乎也果然如此:強大如斯的LLM並不能很好地處理時序資料。時序,即時間序列,顧名思義,是指一組依照時間發(fā)生先後順序排列的資料點序列。在許多領域,時序分析都很關鍵,包括疾病傳播預測、零售分析、醫(yī)療和金融。在時序分析領域,近期不少研究者都在研究如何使用大型語言模型(LLM)來分類、預測和偵測時間序列中的異常。這些論文假設擅長處理文本中順序依賴關係的語言模型也能泛化用於時間序

從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」 從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」 Jun 24, 2024 pm 03:04 PM

AIxiv專欄是本站發(fā)布學術、技術內容的欄位。過去數(shù)年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業(yè)的頂尖實驗室,有效促進了學術交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或聯(lián)絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com在人工智慧領域的發(fā)展過程中,對大語言模型(LLM)的控制與指導始終是核心挑戰(zhàn)之一,旨在確保這些模型既強大又安全地服務人類社會。早期的努力集中在透過人類回饋的強化學習方法(RL

登頂開源AI軟體工程師榜首,UIUC無Agent方案輕鬆解決SWE-bench真實程式設計問題 登頂開源AI軟體工程師榜首,UIUC無Agent方案輕鬆解決SWE-bench真實程式設計問題 Jul 17, 2024 pm 10:02 PM

AIxiv專欄是本站發(fā)布學術、技術內容的欄位。過去數(shù)年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業(yè)的頂尖實驗室,有效促進了學術交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或聯(lián)絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com這篇論文的作者皆來自伊利諾大學香檳分校(UIUC)張令明老師團隊,包括:StevenXia,四年級博士生,研究方向是基於AI大模型的自動代碼修復;鄧茵琳,四年級博士生,研究方

首個基於Mamba的MLLM來了!模型權重、訓練程式碼等已全部開源 首個基於Mamba的MLLM來了!模型權重、訓練程式碼等已全部開源 Jul 17, 2024 am 02:46 AM

AIxiv專欄是本站發(fā)布學術、技術內容的欄目。過去數(shù)年,本站AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業(yè)的頂級實驗室,有效促進了學術交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。引言近年來,多模態(tài)大型語言模型(MLLM)在各個領域的應用取得了顯著的成功。然而,作為許多下游任務的基礎模型,當前的MLLM由眾所周知的Transformer網絡構成,這種網

See all articles