一个人看的www免费高清视频,999国产精品999久久久久久

首頁(yè)

科技周邊

人工智能

從RLHF到DPO再到TDPO，大模型對(duì)齊算法已經(jīng)是「token-level」

王林

Jun 24, 2024 pm 03:04 PM

工程對(duì)齊算法 TDPO

從RLHF到DPO再到TDPO，大模型對(duì)齊算法已經(jīng)是「token-level」

AIxiv專(zhuān)欄是本站發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過(guò)去數(shù)年，本站AIxiv專(zhuān)欄接收?qǐng)?bào)道了2000多篇內(nèi)容，覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室，有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享，歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

在人工智能領(lǐng)域的發(fā)展過(guò)程中，對(duì)大語(yǔ)言模型（LLM）的控制與指導(dǎo)始終是核心挑戰(zhàn)之一，旨在確保這些模型既強(qiáng)大又安全地服務(wù)于人類(lèi)社會(huì)。早期的努力集中于通過(guò)人類(lèi)反饋的強(qiáng)化學(xué)習(xí)方法（RLHF）來(lái)管理這些模型，成效顯著，標(biāo)志著向更加人性化 AI 邁出的關(guān)鍵一步。

盡管 RLHF 取得了巨大成功，但是在訓(xùn)練過(guò)程中 RLHF 非常消耗資源。因此，近段時(shí)間學(xué)者們?cè)?RLHF 奠定的堅(jiān)實(shí)基礎(chǔ)上，繼續(xù)探索更為簡(jiǎn)單且高效的策略?xún)?yōu)化路徑，催生了直接偏好優(yōu)化（DPO）的誕生。 DPO 通過(guò)數(shù)學(xué)推理得到獎(jiǎng)勵(lì)函數(shù)與最優(yōu)策略之間的直接映射，消除了獎(jiǎng)勵(lì)模型的訓(xùn)練過(guò)程，直接在偏好數(shù)據(jù)上優(yōu)化策略模型，實(shí)現(xiàn)了從「反饋到策略」的直觀飛躍。這不僅減少了復(fù)雜度，還增強(qiáng)了算法的穩(wěn)健性，迅速成為業(yè)界的新寵。

然而，DPO 主要關(guān)注在逆 KL 散度約束下的策略?xún)?yōu)化。由于逆 KL 散度的 mode-seeking 特性，DPO 在提升對(duì)齊性能方面表現(xiàn)出色，但是這一特性也傾向于在生成過(guò)程中減少多樣性，可能限制模型的能力。另一方面，盡管 DPO 從句子級(jí)的角度控制 KL 散度，模型的生成過(guò)程本質(zhì)上是逐個(gè) token 進(jìn)行的。從句子級(jí)控制 KL 散度直觀上表明 DPO 在細(xì)粒度控制上存在限制，對(duì) KL 散度的調(diào)節(jié)能力較弱，可能是 DPO 訓(xùn)練過(guò)程中 LLM 的生成多樣性迅速下降的關(guān)鍵因素之一。

為此，來(lái)自中科院和倫敦大學(xué)學(xué)院的汪軍與張海峰團(tuán)隊(duì)提出了一種從 token-level 角度建模的大模型對(duì)齊算法：TDPO。

從RLHF到DPO再到TDPO，大模型對(duì)齊算法已經(jīng)是「token-level」

論文標(biāo)題：Token-level Direct Preference Optimization
論文地址：https://arxiv.org/abs/2404.11999
代碼地址：https://github.com/Vance0124 /Token-level-Direct-Preference-Optimization

為了應(yīng)對(duì)模型生成多樣性顯著下降的問(wèn)題，TDPO 從token-level 的角度重新定義了整個(gè)對(duì)齊流程的目標(biāo)函數(shù)，并通過(guò)將Bradley-Terry 模型轉(zhuǎn)換為優(yōu)勢(shì)函數(shù)的形式，使得整個(gè)對(duì)齊流程能最終從Token-level 層面進(jìn)行分析和優(yōu)化。相比于DPO 而言，TDPO 的主要貢獻(xiàn)如下：

Token-level 的建模方式：TDPO 從Token-level 的角度對(duì)問(wèn)題進(jìn)行了建模，對(duì)RLHF 進(jìn)行了更精細(xì)的分析；
細(xì)粒度KL 散度約束：在每個(gè)token 處從理論上引入了前向KL 散度約束，使方法能夠更好地約束模型優(yōu)化；
性能優(yōu)勢(shì)明顯：相比于DPO 而言，TDPO 能夠?qū)崿F(xiàn)更好的對(duì)齊性能和生成多樣性的帕累托前沿。

DPO 與 TDPO 的主要區(qū)別如下圖所示：

從RLHF到DPO再到TDPO，大模型對(duì)齊算法已經(jīng)是「token-level」

^{? ? ? ? ? ? ? ? ? ? ? ? ? ? 圖 1：DPO 的對(duì)齊優(yōu)化方式。 DPO 從 sentence-level 的角度進(jìn)行建模}

從RLHF到DPO再到TDPO，大模型對(duì)齊算法已經(jīng)是「token-level」

^{圖 2：TDPO 的對(duì)齊優(yōu)化方式。 TDPO 從token-level 的角度進(jìn)行建模，并在每個(gè)token 處引入了額外的前向KL 散度約束，如圖中紅色部分所示，控制模型偏移程度的同時(shí)，充當(dāng)了模型對(duì)齊的baseline}

下面介紹兩者方法的具體推導(dǎo)過(guò)程。

背景：直接偏好優(yōu)化（DPO）

DPO 通過(guò)數(shù)學(xué)推導(dǎo)，得到了獎(jiǎng)勵(lì)函數(shù)與最優(yōu)策略之間的直接映射，消除了RLHF 過(guò)程中的獎(jiǎng)勵(lì)建模階段：

從RLHF到DPO再到TDPO，大模型對(duì)齊算法已經(jīng)是「token-level」

將公式(1) 代入Bradley-Terry (BT) 偏好模型中，得到直接策略?xún)?yōu)化（DPO）損失函數(shù):

從RLHF到DPO再到TDPO，大模型對(duì)齊算法已經(jīng)是「token-level」

其中從RLHF到DPO再到TDPO，大模型對(duì)齊算法已經(jīng)是「token-level」是由來(lái)自偏好數(shù)據(jù)集 D 的 prompt、獲勝響應(yīng)和失敗響應(yīng)構(gòu)成的偏好對(duì)。

TDPO

符號(hào)標(biāo)注

為了建模語(yǔ)言模型順序的、自回歸的生成過(guò)程，TDPO 將生成回復(fù)表示成?T?個(gè) token 組成的形式從RLHF到DPO再到TDPO，大模型對(duì)齊算法已經(jīng)是「token-level」，其中，表示字母表（詞匯表）。

當(dāng)將文本生成建模為馬爾可夫決策過(guò)程時(shí)，狀態(tài) state 定義為 prompt 和到當(dāng)前 step 為止已生成的 token 的組合，表示為從RLHF到DPO再到TDPO，大模型對(duì)齊算法已經(jīng)是「token-level」，而動(dòng)作 action 則對(duì)應(yīng)于下一個(gè)生成的 token，表示為，token 級(jí)獎(jiǎng)勵(lì)定義為。

基于以上提供的定義，TDPO 為策略從RLHF到DPO再到TDPO，大模型對(duì)齊算法已經(jīng)是「token-level」建立了狀態(tài) - 動(dòng)作函數(shù)、狀態(tài)值函數(shù)和優(yōu)勢(shì)函數(shù)：

從RLHF到DPO再到TDPO，大模型對(duì)齊算法已經(jīng)是「token-level」

其中，從RLHF到DPO再到TDPO，大模型對(duì)齊算法已經(jīng)是「token-level」表示折扣因子。

Token-level 角度的人類(lèi)反饋強(qiáng)化學(xué)習(xí)

TDPO 理論上修改了 RLHF 的獎(jiǎng)勵(lì)建模階段和 RL 微調(diào)階段，將它們擴(kuò)展為了從 token-level 角度考慮的優(yōu)化目標(biāo)。

對(duì)于獎(jiǎng)勵(lì)建模階段， TDPO 建立了 Bradley-Terry 模型和優(yōu)勢(shì)函數(shù)之間的相關(guān)性：

從RLHF到DPO再到TDPO，大模型對(duì)齊算法已經(jīng)是「token-level」

對(duì)于 RL 微調(diào)階段，TDPO 定義了以下目標(biāo)函數(shù)：

從RLHF到DPO再到TDPO，大模型對(duì)齊算法已經(jīng)是「token-level」

推導(dǎo)

從目標(biāo) (4) 出發(fā)，TDPO 在每個(gè) token 上推導(dǎo)了最優(yōu)策略從RLHF到DPO再到TDPO，大模型對(duì)齊算法已經(jīng)是「token-level」和狀態(tài) - 動(dòng)作函數(shù)之間的映射關(guān)系：

從RLHF到DPO再到TDPO，大模型對(duì)齊算法已經(jīng)是「token-level」

其中，從RLHF到DPO再到TDPO，大模型對(duì)齊算法已經(jīng)是「token-level」表示配分函數(shù)。

將方程 (5) 代入方程 (3)，我們得到：

從RLHF到DPO再到TDPO，大模型對(duì)齊算法已經(jīng)是「token-level」

其中，從RLHF到DPO再到TDPO，大模型對(duì)齊算法已經(jīng)是「token-level」表示策略模型和參考模型表示的隱式獎(jiǎng)勵(lì)函數(shù)差異，表示為

從RLHF到DPO再到TDPO，大模型對(duì)齊算法已經(jīng)是「token-level」

而從RLHF到DPO再到TDPO，大模型對(duì)齊算法已經(jīng)是「token-level」則表示和的序列級(jí)前向 KL 散度差異，按加權(quán)，表示為

從RLHF到DPO再到TDPO，大模型對(duì)齊算法已經(jīng)是「token-level」

基于方程 (8)，TDPO 最大似然損失函數(shù)可以建模為：

從RLHF到DPO再到TDPO，大模型對(duì)齊算法已經(jīng)是「token-level」

考慮到在實(shí)際中，從RLHF到DPO再到TDPO，大模型對(duì)齊算法已經(jīng)是「token-level」損失傾向于增加，放大和之間的差異，TDPO 提出修改方程 (9) 為：

從RLHF到DPO再到TDPO，大模型對(duì)齊算法已經(jīng)是「token-level」

其中從RLHF到DPO再到TDPO，大模型對(duì)齊算法已經(jīng)是「token-level」是一個(gè)超參數(shù)，而

從RLHF到DPO再到TDPO，大模型對(duì)齊算法已經(jīng)是「token-level」

這里，從RLHF到DPO再到TDPO，大模型對(duì)齊算法已經(jīng)是「token-level」表示停止梯度傳播運(yùn)算符。

我們將 TDPO 和 DPO 的損失函數(shù)總結(jié)如下：

從RLHF到DPO再到TDPO，大模型對(duì)齊算法已經(jīng)是「token-level」

由此可見(jiàn)，TDPO 在每個(gè) token 處引入了這種前向 KL 散度控制，使得在優(yōu)化過(guò)程中能夠更好地控制 KL 的變化，而不影響對(duì)齊性能，從而實(shí)現(xiàn)了更優(yōu)的帕累托前沿。

實(shí)驗(yàn)設(shè)置

TDPO 在 IMDb，Anthropic/hh-rlhf、MT-Bench 上個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。

IMDb

在 IMDb 數(shù)據(jù)集上，該團(tuán)隊(duì)采用了 GPT-2 作為基模型，然后用 siebert/sentiment-roberta-large-english 作為獎(jiǎng)勵(lì)模型評(píng)估策略模型輸出，實(shí)驗(yàn)結(jié)果如圖 3 所示。

從RLHF到DPO再到TDPO，大模型對(duì)齊算法已經(jīng)是「token-level」

從圖 3 (a) 中可以看出，TDPO (TDPO1,TDPO2) 能夠達(dá)到比 DPO 更好的 reward-KL 的帕累托前沿，而從圖 3 (b)-(d) 則可以看出，TDPO 在 KL 散度控制方面表現(xiàn)極為出色，遠(yuǎn)遠(yuǎn)優(yōu)于 DPO 算法的 KL 散度控制能力。

Anthropic HH

而在 Anthropic/hh-rlhf 數(shù)據(jù)集上，該團(tuán)隊(duì)采用了 Pythia 2.8B 作為基模型，采用兩種方式評(píng)估模型生成的好壞：1）使用已有的指標(biāo)；2）使用 GPT-4 評(píng)測(cè)。

對(duì)于第一種評(píng)估方式，該團(tuán)隊(duì)評(píng)測(cè)了不同算法訓(xùn)練的模型在對(duì)齊性能 (Accuracy) 和生成多樣性 (Entropy) 上的權(quán)衡，如表 1 所示。

從RLHF到DPO再到TDPO，大模型對(duì)齊算法已經(jīng)是「token-level」

可以看到 TDPO 算法不僅在對(duì)齊性能 (Accuracy) 上優(yōu)于 DPO 和 f-DPO，在生成多樣性 (Entropy) 上也占據(jù)優(yōu)勢(shì)，在這兩個(gè)大模型生成回復(fù)的關(guān)鍵指標(biāo)上達(dá)到了更好的權(quán)衡。

而對(duì)于第二種評(píng)估方式，該團(tuán)隊(duì)評(píng)測(cè)了不同算法訓(xùn)練的模型和人類(lèi)偏好的吻合度，與數(shù)據(jù)集中的獲勝響應(yīng)作對(duì)比，如圖 4 所示。

從RLHF到DPO再到TDPO，大模型對(duì)齊算法已經(jīng)是「token-level」

DPO、TDPO1 和 TDPO2 算法在溫度系數(shù)為 0.75 的情況下均能夠達(dá)到對(duì)獲勝響應(yīng)的勝率高于 50%，較好地符合人類(lèi)偏好。

MT-Bench

在論文中的最后一個(gè)實(shí)驗(yàn)上，該團(tuán)隊(duì)采用了在 Anthropic HH 數(shù)據(jù)集上訓(xùn)練好的 Pythia 2.8B 模型直接用于 MT-Bench 數(shù)據(jù)集評(píng)測(cè)，結(jié)果如圖 5 所示。

從RLHF到DPO再到TDPO，大模型對(duì)齊算法已經(jīng)是「token-level」

在 MT-Bench 上，TDPO 能夠達(dá)到比其他算法更高的獲勝概率，這充分說(shuō)明了 TDPO 算法訓(xùn)練的模型生成的響應(yīng)的質(zhì)量更高。

此外，有相關(guān)研究對(duì) DPO、TDPO、SimPO 算法進(jìn)行了對(duì)比，可參考鏈接：https://www.zhihu.com/question/651021172/answer/3513696851

基于 eurus 提供的 eval 腳本，評(píng)測(cè)了基模型 qwen-4b、mistral-0.1、deepseek-math-base 基于不同的對(duì)齊算法 DPO、TDPO、SimPO 微調(diào)訓(xùn)練得到的性能，以下是實(shí)驗(yàn)的實(shí)驗(yàn)結(jié)果：

從RLHF到DPO再到TDPO，大模型對(duì)齊算法已經(jīng)是「token-level」

^{? ? ? ? ? ? ? ? ? ? ? ? ? 表格 2：DPO,TDPO,SimPO 算法性能對(duì)比}

了解更多結(jié)果，請(qǐng)參考原論文。

以上是從RLHF到DPO再到TDPO，大模型對(duì)齊算法已經(jīng)是「token-level」的詳細(xì)內(nèi)容。更多信息請(qǐng)關(guān)注PHP中文網(wǎng)其他相關(guān)文章！

本站聲明

本文內(nèi)容由網(wǎng)友自發(fā)貢獻(xiàn)，版權(quán)歸原作者所有，本站不承擔(dān)相應(yīng)法律責(zé)任。如您發(fā)現(xiàn)有涉嫌抄襲侵權(quán)的內(nèi)容，請(qǐng)聯(lián)系admin@php.cn

熱AI工具

Undress AI Tool

免費(fèi)脫衣服圖片

Undresser.AI Undress

人工智能驅(qū)動(dòng)的應(yīng)用程序，用于創(chuàng)建逼真的裸體照片

AI Clothes Remover

用于從照片中去除衣服的在線(xiàn)人工智能工具。

Clothoff.io

AI脫衣機(jī)

Video Face Swap

使用我們完全免費(fèi)的人工智能換臉工具輕松在任何視頻中換臉！

熱工具

記事本++7.3.1

好用且免費(fèi)的代碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

功能強(qiáng)大的PHP集成開(kāi)發(fā)環(huán)境

Dreamweaver CS6

視覺(jué)化網(wǎng)頁(yè)開(kāi)發(fā)工具

SublimeText3 Mac版

神級(jí)代碼編輯軟件(SublimeText3)

熱門(mén)話(huà)題

Laravel 教程

1597

PHP教程

1488

Related knowledge

arXiv論文可以發(fā)「彈幕」了，斯坦福alphaXiv討論平臺(tái)上線(xiàn)，LeCun點(diǎn)贊 Aug 01, 2024 pm 05:18 PM

干杯！當(dāng)論文討論細(xì)致到詞句，是什么體驗(yàn)？最近，斯坦福大學(xué)的學(xué)生針對(duì)arXiv論文創(chuàng)建了一個(gè)開(kāi)放討論論壇——alphaXiv，可以直接在任何arXiv論文之上發(fā)布問(wèn)題和評(píng)論。網(wǎng)站鏈接：https://alphaxiv.org/其實(shí)不需要專(zhuān)門(mén)訪(fǎng)問(wèn)這個(gè)網(wǎng)站，只需將任何URL中的arXiv更改為alphaXiv就可以直接在alphaXiv論壇上打開(kāi)相應(yīng)論文：可以精準(zhǔn)定位到論文中的段落、句子：右側(cè)討論區(qū)，用戶(hù)可以發(fā)表問(wèn)題詢(xún)問(wèn)作者論文思路、細(xì)節(jié)，例如：也可以針對(duì)論文內(nèi)容發(fā)表評(píng)論，例如：「給出至

ControlNet作者又出爆款！一張圖生成繪畫(huà)全過(guò)程，兩天狂攬1.4k Star Jul 17, 2024 am 01:56 AM

同樣是圖生視頻，PaintsUndo走出了不一樣的路線(xiàn)。ControlNet作者LvminZhang又開(kāi)始整活了！這次瞄準(zhǔn)繪畫(huà)領(lǐng)域。新項(xiàng)目PaintsUndo剛上線(xiàn)不久，就收獲1.4kstar（還在瘋狂漲）。項(xiàng)目地址：https://github.com/lllyasviel/Paints-UNDO通過(guò)該項(xiàng)目，用戶(hù)輸入一張靜態(tài)圖像，PaintsUndo就能自動(dòng)幫你生成整個(gè)繪畫(huà)的全過(guò)程視頻，從線(xiàn)稿到成品都有跡可循。繪制過(guò)程，線(xiàn)條變化多端甚是神奇，最終視頻結(jié)果和原圖像非常相似：我們?cè)賮?lái)看一個(gè)完整的繪

黎曼猜想顯著突破！陶哲軒強(qiáng)推MIT、牛津新論文，37歲菲爾茲獎(jiǎng)得主參與 Aug 05, 2024 pm 03:32 PM

最近，被稱(chēng)為千禧年七大難題之一的黎曼猜想迎來(lái)了新突破。黎曼猜想是數(shù)學(xué)中一個(gè)非常重要的未解決問(wèn)題，與素?cái)?shù)分布的精確性質(zhì)有關(guān)（素?cái)?shù)是那些只能被1和自身整除的數(shù)字，它們?cè)跀?shù)論中扮演著基礎(chǔ)性的角色）。在當(dāng)今的數(shù)學(xué)文獻(xiàn)中，已有超過(guò)一千條數(shù)學(xué)命題以黎曼猜想（或其推廣形式）的成立為前提。也就是說(shuō)，黎曼猜想及其推廣形式一旦被證明，這一千多個(gè)命題將被確立為定理，對(duì)數(shù)學(xué)領(lǐng)域產(chǎn)生深遠(yuǎn)的影響；而如果黎曼猜想被證明是錯(cuò)誤的，那么這些命題中的一部分也將隨之失去其有效性。新的突破來(lái)自MIT數(shù)學(xué)教授LarryGuth和牛津大學(xué)

OpenAI超級(jí)對(duì)齊團(tuán)隊(duì)遺作：兩個(gè)大模型博弈一番，輸出更好懂了 Jul 19, 2024 am 01:29 AM

如果AI模型給的答案一點(diǎn)也看不懂，你敢用嗎？隨著機(jī)器學(xué)習(xí)系統(tǒng)在更重要的領(lǐng)域得到應(yīng)用，證明為什么我們可以信任它們的輸出，并明確何時(shí)不應(yīng)信任它們，變得越來(lái)越重要。獲得對(duì)復(fù)雜系統(tǒng)輸出結(jié)果信任的一個(gè)可行方法是，要求系統(tǒng)對(duì)其輸出產(chǎn)生一種解釋?zhuān)@種解釋對(duì)人類(lèi)或另一個(gè)受信任的系統(tǒng)來(lái)說(shuō)是可讀的，即可以完全理解以至于任何可能的錯(cuò)誤都可以被發(fā)現(xiàn)。例如，為了建立對(duì)司法系統(tǒng)的信任，我們要求法院提供清晰易讀的書(shū)面意見(jiàn)，解釋并支持其決策。對(duì)于大型語(yǔ)言模型來(lái)說(shuō)，我們也可以采用類(lèi)似的方法。不過(guò)，在采用這種方法時(shí)，確保語(yǔ)言模型生

LLM用于時(shí)序預(yù)測(cè)真的不行，連推理能力都沒(méi)用到 Jul 15, 2024 pm 03:59 PM

語(yǔ)言模型真的能用于時(shí)序預(yù)測(cè)嗎？根據(jù)貝特里奇頭條定律（任何以問(wèn)號(hào)結(jié)尾的新聞標(biāo)題，都能夠用「不」來(lái)回答），答案應(yīng)該是否定的。事實(shí)似乎也果然如此：強(qiáng)大如斯的LLM并不能很好地處理時(shí)序數(shù)據(jù)。時(shí)序，即時(shí)間序列，顧名思義，是指一組按照時(shí)間發(fā)生先后順序進(jìn)行排列的數(shù)據(jù)點(diǎn)序列。在很多領(lǐng)域，時(shí)序分析都很關(guān)鍵，包括疾病傳播預(yù)測(cè)、零售分析、醫(yī)療和金融。在時(shí)序分析領(lǐng)域，近期不少研究者都在研究如何使用大型語(yǔ)言模型（LLM）來(lái)分類(lèi)、預(yù)測(cè)和檢測(cè)時(shí)間序列中的異常。這些論文假設(shè)擅長(zhǎng)處理文本中順序依賴(lài)關(guān)系的語(yǔ)言模型也能泛化用于時(shí)間序

從RLHF到DPO再到TDPO，大模型對(duì)齊算法已經(jīng)是「token-level」 Jun 24, 2024 pm 03:04 PM

AIxiv專(zhuān)欄是本站發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過(guò)去數(shù)年，本站AIxiv專(zhuān)欄接收?qǐng)?bào)道了2000多篇內(nèi)容，覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室，有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享，歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com在人工智能領(lǐng)域的發(fā)展過(guò)程中，對(duì)大語(yǔ)言模型（LLM）的控制與指導(dǎo)始終是核心挑戰(zhàn)之一，旨在確保這些模型既強(qiáng)大又安全地服務(wù)于人類(lèi)社會(huì)。早期的努力集中于通過(guò)人類(lèi)反饋的強(qiáng)化學(xué)習(xí)方法（RL

登頂開(kāi)源AI軟件工程師榜首，UIUC無(wú)Agent方案輕松解決SWE-bench真實(shí)編程問(wèn)題 Jul 17, 2024 pm 10:02 PM

AIxiv專(zhuān)欄是本站發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過(guò)去數(shù)年，本站AIxiv專(zhuān)欄接收?qǐng)?bào)道了2000多篇內(nèi)容，覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室，有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享，歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com這篇論文的作者均來(lái)自伊利諾伊大學(xué)香檳分校（UIUC）張令明老師團(tuán)隊(duì)，包括：StevenXia，四年級(jí)博士生，研究方向是基于AI大模型的自動(dòng)代碼修復(fù)；鄧茵琳，四年級(jí)博士生，研究方

首個(gè)基于Mamba的MLLM來(lái)了！模型權(quán)重、訓(xùn)練代碼等已全部開(kāi)源 Jul 17, 2024 am 02:46 AM

AIxiv專(zhuān)欄是本站發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過(guò)去數(shù)年，本站AIxiv專(zhuān)欄接收?qǐng)?bào)道了2000多篇內(nèi)容，覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室，有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享，歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com。引言近年來(lái)，多模態(tài)大型語(yǔ)言模型（MLLM）在各個(gè)領(lǐng)域的應(yīng)用取得了顯著的成功。然而，作為許多下游任務(wù)的基礎(chǔ)模型，當(dāng)前的MLLM由眾所周知的Transformer網(wǎng)絡(luò)構(gòu)成，這種網(wǎng)

See all articles

亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

從RLHF到DPO再到TDPO，大模型對(duì)齊算法已經(jīng)是「token-level」