亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

首頁(yè) 科技周邊 人工智能 從RLHF到DPO再到TDPO,大模型對(duì)齊算法已經(jīng)是「token-level」

從RLHF到DPO再到TDPO,大模型對(duì)齊算法已經(jīng)是「token-level」

Jun 24, 2024 pm 03:04 PM
工程 對(duì)齊算法 TDPO

從RLHF到DPO再到TDPO,大模型對(duì)齊算法已經(jīng)是「token-level」
AIxiv專(zhuān)欄是本站發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過(guò)去數(shù)年,本站AIxiv專(zhuān)欄接收?qǐng)?bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

在人工智能領(lǐng)域的發(fā)展過(guò)程中,對(duì)大語(yǔ)言模型(LLM)的控制與指導(dǎo)始終是核心挑戰(zhàn)之一,旨在確保這些模型既強(qiáng)大又安全地服務(wù)于人類(lèi)社會(huì)。早期的努力集中于通過(guò)人類(lèi)反饋的強(qiáng)化學(xué)習(xí)方法(RLHF)來(lái)管理這些模型,成效顯著,標(biāo)志著向更加人性化 AI 邁出的關(guān)鍵一步。

盡管 RLHF 取得了巨大成功,但是在訓(xùn)練過(guò)程中 RLHF 非常消耗資源。因此,近段時(shí)間學(xué)者們?cè)?RLHF 奠定的堅(jiān)實(shí)基礎(chǔ)上,繼續(xù)探索更為簡(jiǎn)單且高效的策略?xún)?yōu)化路徑,催生了直接偏好優(yōu)化(DPO)的誕生。 DPO 通過(guò)數(shù)學(xué)推理得到獎(jiǎng)勵(lì)函數(shù)與最優(yōu)策略之間的直接映射,消除了獎(jiǎng)勵(lì)模型的訓(xùn)練過(guò)程,直接在偏好數(shù)據(jù)上優(yōu)化策略模型,實(shí)現(xiàn)了從「反饋到策略」的直觀飛躍。這不僅減少了復(fù)雜度,還增強(qiáng)了算法的穩(wěn)健性,迅速成為業(yè)界的新寵。

然而,DPO 主要關(guān)注在逆 KL 散度約束下的策略?xún)?yōu)化。由于逆 KL 散度的 mode-seeking 特性,DPO 在提升對(duì)齊性能方面表現(xiàn)出色,但是這一特性也傾向于在生成過(guò)程中減少多樣性,可能限制模型的能力。另一方面,盡管 DPO 從句子級(jí)的角度控制 KL 散度,模型的生成過(guò)程本質(zhì)上是逐個(gè) token 進(jìn)行的。從句子級(jí)控制 KL 散度直觀上表明 DPO 在細(xì)粒度控制上存在限制,對(duì) KL 散度的調(diào)節(jié)能力較弱,可能是 DPO 訓(xùn)練過(guò)程中 LLM 的生成多樣性迅速下降的關(guān)鍵因素之一。

為此,來(lái)自中科院和倫敦大學(xué)學(xué)院的汪軍與張海峰團(tuán)隊(duì)提出了一種從 token-level 角度建模的大模型對(duì)齊算法:TDPO。

從RLHF到DPO再到TDPO,大模型對(duì)齊算法已經(jīng)是「token-level」

  • 論文標(biāo)題:Token-level Direct Preference Optimization

  • 論文地址:https://arxiv.org/abs/2404.11999

  • 代碼地址:https://github.com/Vance0124 /Token-level-Direct-Preference-Optimization

為了應(yīng)對(duì)模型生成多樣性顯著下降的問(wèn)題,TDPO 從token-level 的角度重新定義了整個(gè)對(duì)齊流程的目標(biāo)函數(shù),并通過(guò)將Bradley-Terry 模型轉(zhuǎn)換為優(yōu)勢(shì)函數(shù)的形式,使得整個(gè)對(duì)齊流程能最終從Token-level 層面進(jìn)行分析和優(yōu)化。相比于DPO 而言,TDPO 的主要貢獻(xiàn)如下:

  • Token-level 的建模方式:TDPO 從Token-level 的角度對(duì)問(wèn)題進(jìn)行了建模,對(duì)RLHF 進(jìn)行了更精細(xì)的分析;

  • 細(xì)粒度KL 散度約束:在每個(gè)token 處從理論上引入了前向KL 散度約束,使方法能夠更好地約束模型優(yōu)化;

  • 性能優(yōu)勢(shì)明顯:相比于DPO 而言,TDPO 能夠?qū)崿F(xiàn)更好的對(duì)齊性能和生成多樣性的帕累托前沿。

DPO 與 TDPO 的主要區(qū)別如下圖所示:

從RLHF到DPO再到TDPO,大模型對(duì)齊算法已經(jīng)是「token-level」

? ? ? ? ? ? ? ? ? ? ? ? ? ? 圖 1:DPO 的對(duì)齊優(yōu)化方式。 DPO 從 sentence-level 的角度進(jìn)行建模

從RLHF到DPO再到TDPO,大模型對(duì)齊算法已經(jīng)是「token-level」

圖 2:TDPO 的對(duì)齊優(yōu)化方式。 TDPO 從token-level 的角度進(jìn)行建模,并在每個(gè)token 處引入了額外的前向KL 散度約束,如圖中紅色部分所示,控制模型偏移程度的同時(shí),充當(dāng)了模型對(duì)齊的baseline

下面介紹兩者方法的具體推導(dǎo)過(guò)程。

背景:直接偏好優(yōu)化(DPO)

DPO 通過(guò)數(shù)學(xué)推導(dǎo),得到了獎(jiǎng)勵(lì)函數(shù)與最優(yōu)策略之間的直接映射,消除了RLHF 過(guò)程中的獎(jiǎng)勵(lì)建模階段:

從RLHF到DPO再到TDPO,大模型對(duì)齊算法已經(jīng)是「token-level」

將公式(1) 代入Bradley-Terry (BT) 偏好模型中,得到直接策略?xún)?yōu)化(DPO)損失函數(shù):

從RLHF到DPO再到TDPO,大模型對(duì)齊算法已經(jīng)是「token-level」

其中從RLHF到DPO再到TDPO,大模型對(duì)齊算法已經(jīng)是「token-level」是由來(lái)自偏好數(shù)據(jù)集 D 的 prompt、獲勝響應(yīng)和失敗響應(yīng)構(gòu)成的偏好對(duì)。

TDPO

符號(hào)標(biāo)注

為了建模語(yǔ)言模型順序的、自回歸的生成過(guò)程,TDPO 將生成回復(fù)表示成?T?個(gè) token 組成的形式 從RLHF到DPO再到TDPO,大模型對(duì)齊算法已經(jīng)是「token-level」,其中從RLHF到DPO再到TDPO,大模型對(duì)齊算法已經(jīng)是「token-level」,從RLHF到DPO再到TDPO,大模型對(duì)齊算法已經(jīng)是「token-level」表示字母表(詞匯表)。

當(dāng)將文本生成建模為馬爾可夫決策過(guò)程時(shí),狀態(tài) state 定義為 prompt 和到當(dāng)前 step 為止已生成的 token 的組合,表示為從RLHF到DPO再到TDPO,大模型對(duì)齊算法已經(jīng)是「token-level」,而動(dòng)作 action 則對(duì)應(yīng)于下一個(gè)生成的 token,表示為從RLHF到DPO再到TDPO,大模型對(duì)齊算法已經(jīng)是「token-level」,token 級(jí)獎(jiǎng)勵(lì)定義為從RLHF到DPO再到TDPO,大模型對(duì)齊算法已經(jīng)是「token-level」

基于以上提供的定義,TDPO 為策略從RLHF到DPO再到TDPO,大模型對(duì)齊算法已經(jīng)是「token-level」建立了狀態(tài) - 動(dòng)作函數(shù)從RLHF到DPO再到TDPO,大模型對(duì)齊算法已經(jīng)是「token-level」、狀態(tài)值函數(shù)從RLHF到DPO再到TDPO,大模型對(duì)齊算法已經(jīng)是「token-level」和優(yōu)勢(shì)函數(shù)從RLHF到DPO再到TDPO,大模型對(duì)齊算法已經(jīng)是「token-level」

從RLHF到DPO再到TDPO,大模型對(duì)齊算法已經(jīng)是「token-level」

其中,從RLHF到DPO再到TDPO,大模型對(duì)齊算法已經(jīng)是「token-level」表示折扣因子。

Token-level 角度的人類(lèi)反饋強(qiáng)化學(xué)習(xí)

TDPO 理論上修改了 RLHF 的獎(jiǎng)勵(lì)建模階段和 RL 微調(diào)階段,將它們擴(kuò)展為了從 token-level 角度考慮的優(yōu)化目標(biāo)。

對(duì)于獎(jiǎng)勵(lì)建模階段, TDPO 建立了 Bradley-Terry 模型和優(yōu)勢(shì)函數(shù)之間的相關(guān)性:

從RLHF到DPO再到TDPO,大模型對(duì)齊算法已經(jīng)是「token-level」

對(duì)于 RL 微調(diào)階段,TDPO 定義了以下目標(biāo)函數(shù):

從RLHF到DPO再到TDPO,大模型對(duì)齊算法已經(jīng)是「token-level」

推導(dǎo)

從目標(biāo) (4) 出發(fā),TDPO 在每個(gè) token 上推導(dǎo)了最優(yōu)策略從RLHF到DPO再到TDPO,大模型對(duì)齊算法已經(jīng)是「token-level」和狀態(tài) - 動(dòng)作函數(shù)從RLHF到DPO再到TDPO,大模型對(duì)齊算法已經(jīng)是「token-level」之間的映射關(guān)系:

從RLHF到DPO再到TDPO,大模型對(duì)齊算法已經(jīng)是「token-level」

其中,從RLHF到DPO再到TDPO,大模型對(duì)齊算法已經(jīng)是「token-level」表示配分函數(shù)。

將方程 (5) 代入方程 (3),我們得到:

從RLHF到DPO再到TDPO,大模型對(duì)齊算法已經(jīng)是「token-level」

其中,從RLHF到DPO再到TDPO,大模型對(duì)齊算法已經(jīng)是「token-level」表示策略模型從RLHF到DPO再到TDPO,大模型對(duì)齊算法已經(jīng)是「token-level」和參考模型從RLHF到DPO再到TDPO,大模型對(duì)齊算法已經(jīng)是「token-level」表示的隱式獎(jiǎng)勵(lì)函數(shù)差異,表示為

從RLHF到DPO再到TDPO,大模型對(duì)齊算法已經(jīng)是「token-level」

從RLHF到DPO再到TDPO,大模型對(duì)齊算法已經(jīng)是「token-level」則表示從RLHF到DPO再到TDPO,大模型對(duì)齊算法已經(jīng)是「token-level」從RLHF到DPO再到TDPO,大模型對(duì)齊算法已經(jīng)是「token-level」的序列級(jí)前向 KL 散度差異,按從RLHF到DPO再到TDPO,大模型對(duì)齊算法已經(jīng)是「token-level」加權(quán),表示為

從RLHF到DPO再到TDPO,大模型對(duì)齊算法已經(jīng)是「token-level」

基于方程 (8),TDPO 最大似然損失函數(shù)可以建模為:

從RLHF到DPO再到TDPO,大模型對(duì)齊算法已經(jīng)是「token-level」

考慮到在實(shí)際中,從RLHF到DPO再到TDPO,大模型對(duì)齊算法已經(jīng)是「token-level」損失傾向于增加從RLHF到DPO再到TDPO,大模型對(duì)齊算法已經(jīng)是「token-level」,放大從RLHF到DPO再到TDPO,大模型對(duì)齊算法已經(jīng)是「token-level」從RLHF到DPO再到TDPO,大模型對(duì)齊算法已經(jīng)是「token-level」之間的差異,TDPO 提出修改方程 (9) 為:

從RLHF到DPO再到TDPO,大模型對(duì)齊算法已經(jīng)是「token-level」

其中從RLHF到DPO再到TDPO,大模型對(duì)齊算法已經(jīng)是「token-level」是一個(gè)超參數(shù),而

從RLHF到DPO再到TDPO,大模型對(duì)齊算法已經(jīng)是「token-level」

這里,從RLHF到DPO再到TDPO,大模型對(duì)齊算法已經(jīng)是「token-level」表示停止梯度傳播運(yùn)算符。

我們將 TDPO 和 DPO 的損失函數(shù)總結(jié)如下:

從RLHF到DPO再到TDPO,大模型對(duì)齊算法已經(jīng)是「token-level」

由此可見(jiàn),TDPO 在每個(gè) token 處引入了這種前向 KL 散度控制,使得在優(yōu)化過(guò)程中能夠更好地控制 KL 的變化,而不影響對(duì)齊性能,從而實(shí)現(xiàn)了更優(yōu)的帕累托前沿。

實(shí)驗(yàn)設(shè)置

TDPO 在 IMDb,Anthropic/hh-rlhf、MT-Bench 上個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。

IMDb

在 IMDb 數(shù)據(jù)集上,該團(tuán)隊(duì)采用了 GPT-2 作為基模型,然后用 siebert/sentiment-roberta-large-english 作為獎(jiǎng)勵(lì)模型評(píng)估策略模型輸出,實(shí)驗(yàn)結(jié)果如圖 3 所示。

從RLHF到DPO再到TDPO,大模型對(duì)齊算法已經(jīng)是「token-level」

從圖 3 (a) 中可以看出,TDPO (TDPO1,TDPO2) 能夠達(dá)到比 DPO 更好的 reward-KL 的帕累托前沿,而從圖 3 (b)-(d) 則可以看出,TDPO 在 KL 散度控制方面表現(xiàn)極為出色,遠(yuǎn)遠(yuǎn)優(yōu)于 DPO 算法的 KL 散度控制能力。

Anthropic HH

而在 Anthropic/hh-rlhf 數(shù)據(jù)集上,該團(tuán)隊(duì)采用了 Pythia 2.8B 作為基模型,采用兩種方式評(píng)估模型生成的好壞:1)使用已有的指標(biāo);2)使用 GPT-4 評(píng)測(cè)。

對(duì)于第一種評(píng)估方式,該團(tuán)隊(duì)評(píng)測(cè)了不同算法訓(xùn)練的模型在對(duì)齊性能 (Accuracy) 和生成多樣性 (Entropy) 上的權(quán)衡,如表 1 所示。

從RLHF到DPO再到TDPO,大模型對(duì)齊算法已經(jīng)是「token-level」

可以看到 TDPO 算法不僅在對(duì)齊性能 (Accuracy) 上優(yōu)于 DPO 和 f-DPO,在生成多樣性 (Entropy) 上也占據(jù)優(yōu)勢(shì),在這兩個(gè)大模型生成回復(fù)的關(guān)鍵指標(biāo)上達(dá)到了更好的權(quán)衡。

而對(duì)于第二種評(píng)估方式,該團(tuán)隊(duì)評(píng)測(cè)了不同算法訓(xùn)練的模型和人類(lèi)偏好的吻合度,與數(shù)據(jù)集中的獲勝響應(yīng)作對(duì)比,如圖 4 所示。

從RLHF到DPO再到TDPO,大模型對(duì)齊算法已經(jīng)是「token-level」

DPO、TDPO1 和 TDPO2 算法在溫度系數(shù)為 0.75 的情況下均能夠達(dá)到對(duì)獲勝響應(yīng)的勝率高于 50%,較好地符合人類(lèi)偏好。

MT-Bench

在論文中的最后一個(gè)實(shí)驗(yàn)上,該團(tuán)隊(duì)采用了在 Anthropic HH 數(shù)據(jù)集上訓(xùn)練好的 Pythia 2.8B 模型直接用于 MT-Bench 數(shù)據(jù)集評(píng)測(cè),結(jié)果如圖 5 所示。

從RLHF到DPO再到TDPO,大模型對(duì)齊算法已經(jīng)是「token-level」

在 MT-Bench 上,TDPO 能夠達(dá)到比其他算法更高的獲勝概率,這充分說(shuō)明了 TDPO 算法訓(xùn)練的模型生成的響應(yīng)的質(zhì)量更高。

此外,有相關(guān)研究對(duì) DPO、TDPO、SimPO 算法進(jìn)行了對(duì)比,可參考鏈接:https://www.zhihu.com/question/651021172/answer/3513696851

基于 eurus 提供的 eval 腳本,評(píng)測(cè)了基模型 qwen-4b、mistral-0.1、deepseek-math-base 基于不同的對(duì)齊算法 DPO、TDPO、SimPO 微調(diào)訓(xùn)練得到的性能,以下是實(shí)驗(yàn)的實(shí)驗(yàn)結(jié)果:

從RLHF到DPO再到TDPO,大模型對(duì)齊算法已經(jīng)是「token-level」

? ? ? ? ? ? ? ? ? ? ? ? ? 表格 2:DPO,TDPO,SimPO 算法性能對(duì)比

了解更多結(jié)果,請(qǐng)參考原論文。

以上是從RLHF到DPO再到TDPO,大模型對(duì)齊算法已經(jīng)是「token-level」的詳細(xì)內(nèi)容。更多信息請(qǐng)關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本站聲明
本文內(nèi)容由網(wǎng)友自發(fā)貢獻(xiàn),版權(quán)歸原作者所有,本站不承擔(dān)相應(yīng)法律責(zé)任。如您發(fā)現(xiàn)有涉嫌抄襲侵權(quán)的內(nèi)容,請(qǐng)聯(lián)系admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費(fèi)脫衣服圖片

Undresser.AI Undress

Undresser.AI Undress

人工智能驅(qū)動(dòng)的應(yīng)用程序,用于創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用于從照片中去除衣服的在線(xiàn)人工智能工具。

Clothoff.io

Clothoff.io

AI脫衣機(jī)

Video Face Swap

Video Face Swap

使用我們完全免費(fèi)的人工智能換臉工具輕松在任何視頻中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費(fèi)的代碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

功能強(qiáng)大的PHP集成開(kāi)發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺(jué)化網(wǎng)頁(yè)開(kāi)發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級(jí)代碼編輯軟件(SublimeText3)

熱門(mén)話(huà)題

Laravel 教程
1597
29
PHP教程
1488
72
arXiv論文可以發(fā)「彈幕」了,斯坦福alphaXiv討論平臺(tái)上線(xiàn),LeCun點(diǎn)贊 arXiv論文可以發(fā)「彈幕」了,斯坦福alphaXiv討論平臺(tái)上線(xiàn),LeCun點(diǎn)贊 Aug 01, 2024 pm 05:18 PM

干杯!當(dāng)論文討論細(xì)致到詞句,是什么體驗(yàn)?最近,斯坦福大學(xué)的學(xué)生針對(duì)arXiv論文創(chuàng)建了一個(gè)開(kāi)放討論論壇——alphaXiv,可以直接在任何arXiv論文之上發(fā)布問(wèn)題和評(píng)論。網(wǎng)站鏈接:https://alphaxiv.org/其實(shí)不需要專(zhuān)門(mén)訪(fǎng)問(wèn)這個(gè)網(wǎng)站,只需將任何URL中的arXiv更改為alphaXiv就可以直接在alphaXiv論壇上打開(kāi)相應(yīng)論文:可以精準(zhǔn)定位到論文中的段落、句子:右側(cè)討論區(qū),用戶(hù)可以發(fā)表問(wèn)題詢(xún)問(wèn)作者論文思路、細(xì)節(jié),例如:也可以針對(duì)論文內(nèi)容發(fā)表評(píng)論,例如:「給出至

ControlNet作者又出爆款!一張圖生成繪畫(huà)全過(guò)程,兩天狂攬1.4k Star ControlNet作者又出爆款!一張圖生成繪畫(huà)全過(guò)程,兩天狂攬1.4k Star Jul 17, 2024 am 01:56 AM

同樣是圖生視頻,PaintsUndo走出了不一樣的路線(xiàn)。ControlNet作者LvminZhang又開(kāi)始整活了!這次瞄準(zhǔn)繪畫(huà)領(lǐng)域。新項(xiàng)目PaintsUndo剛上線(xiàn)不久,就收獲1.4kstar(還在瘋狂漲)。項(xiàng)目地址:https://github.com/lllyasviel/Paints-UNDO通過(guò)該項(xiàng)目,用戶(hù)輸入一張靜態(tài)圖像,PaintsUndo就能自動(dòng)幫你生成整個(gè)繪畫(huà)的全過(guò)程視頻,從線(xiàn)稿到成品都有跡可循。繪制過(guò)程,線(xiàn)條變化多端甚是神奇,最終視頻結(jié)果和原圖像非常相似:我們?cè)賮?lái)看一個(gè)完整的繪

黎曼猜想顯著突破!陶哲軒強(qiáng)推MIT、牛津新論文,37歲菲爾茲獎(jiǎng)得主參與 黎曼猜想顯著突破!陶哲軒強(qiáng)推MIT、牛津新論文,37歲菲爾茲獎(jiǎng)得主參與 Aug 05, 2024 pm 03:32 PM

最近,被稱(chēng)為千禧年七大難題之一的黎曼猜想迎來(lái)了新突破。黎曼猜想是數(shù)學(xué)中一個(gè)非常重要的未解決問(wèn)題,與素?cái)?shù)分布的精確性質(zhì)有關(guān)(素?cái)?shù)是那些只能被1和自身整除的數(shù)字,它們?cè)跀?shù)論中扮演著基礎(chǔ)性的角色)。在當(dāng)今的數(shù)學(xué)文獻(xiàn)中,已有超過(guò)一千條數(shù)學(xué)命題以黎曼猜想(或其推廣形式)的成立為前提。也就是說(shuō),黎曼猜想及其推廣形式一旦被證明,這一千多個(gè)命題將被確立為定理,對(duì)數(shù)學(xué)領(lǐng)域產(chǎn)生深遠(yuǎn)的影響;而如果黎曼猜想被證明是錯(cuò)誤的,那么這些命題中的一部分也將隨之失去其有效性。新的突破來(lái)自MIT數(shù)學(xué)教授LarryGuth和牛津大學(xué)

OpenAI超級(jí)對(duì)齊團(tuán)隊(duì)遺作:兩個(gè)大模型博弈一番,輸出更好懂了 OpenAI超級(jí)對(duì)齊團(tuán)隊(duì)遺作:兩個(gè)大模型博弈一番,輸出更好懂了 Jul 19, 2024 am 01:29 AM

如果AI模型給的答案一點(diǎn)也看不懂,你敢用嗎?隨著機(jī)器學(xué)習(xí)系統(tǒng)在更重要的領(lǐng)域得到應(yīng)用,證明為什么我們可以信任它們的輸出,并明確何時(shí)不應(yīng)信任它們,變得越來(lái)越重要。獲得對(duì)復(fù)雜系統(tǒng)輸出結(jié)果信任的一個(gè)可行方法是,要求系統(tǒng)對(duì)其輸出產(chǎn)生一種解釋?zhuān)@種解釋對(duì)人類(lèi)或另一個(gè)受信任的系統(tǒng)來(lái)說(shuō)是可讀的,即可以完全理解以至于任何可能的錯(cuò)誤都可以被發(fā)現(xiàn)。例如,為了建立對(duì)司法系統(tǒng)的信任,我們要求法院提供清晰易讀的書(shū)面意見(jiàn),解釋并支持其決策。對(duì)于大型語(yǔ)言模型來(lái)說(shuō),我們也可以采用類(lèi)似的方法。不過(guò),在采用這種方法時(shí),確保語(yǔ)言模型生

LLM用于時(shí)序預(yù)測(cè)真的不行,連推理能力都沒(méi)用到 LLM用于時(shí)序預(yù)測(cè)真的不行,連推理能力都沒(méi)用到 Jul 15, 2024 pm 03:59 PM

語(yǔ)言模型真的能用于時(shí)序預(yù)測(cè)嗎?根據(jù)貝特里奇頭條定律(任何以問(wèn)號(hào)結(jié)尾的新聞標(biāo)題,都能夠用「不」來(lái)回答),答案應(yīng)該是否定的。事實(shí)似乎也果然如此:強(qiáng)大如斯的LLM并不能很好地處理時(shí)序數(shù)據(jù)。時(shí)序,即時(shí)間序列,顧名思義,是指一組按照時(shí)間發(fā)生先后順序進(jìn)行排列的數(shù)據(jù)點(diǎn)序列。在很多領(lǐng)域,時(shí)序分析都很關(guān)鍵,包括疾病傳播預(yù)測(cè)、零售分析、醫(yī)療和金融。在時(shí)序分析領(lǐng)域,近期不少研究者都在研究如何使用大型語(yǔ)言模型(LLM)來(lái)分類(lèi)、預(yù)測(cè)和檢測(cè)時(shí)間序列中的異常。這些論文假設(shè)擅長(zhǎng)處理文本中順序依賴(lài)關(guān)系的語(yǔ)言模型也能泛化用于時(shí)間序

從RLHF到DPO再到TDPO,大模型對(duì)齊算法已經(jīng)是「token-level」 從RLHF到DPO再到TDPO,大模型對(duì)齊算法已經(jīng)是「token-level」 Jun 24, 2024 pm 03:04 PM

AIxiv專(zhuān)欄是本站發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過(guò)去數(shù)年,本站AIxiv專(zhuān)欄接收?qǐng)?bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com在人工智能領(lǐng)域的發(fā)展過(guò)程中,對(duì)大語(yǔ)言模型(LLM)的控制與指導(dǎo)始終是核心挑戰(zhàn)之一,旨在確保這些模型既強(qiáng)大又安全地服務(wù)于人類(lèi)社會(huì)。早期的努力集中于通過(guò)人類(lèi)反饋的強(qiáng)化學(xué)習(xí)方法(RL

登頂開(kāi)源AI軟件工程師榜首,UIUC無(wú)Agent方案輕松解決SWE-bench真實(shí)編程問(wèn)題 登頂開(kāi)源AI軟件工程師榜首,UIUC無(wú)Agent方案輕松解決SWE-bench真實(shí)編程問(wèn)題 Jul 17, 2024 pm 10:02 PM

AIxiv專(zhuān)欄是本站發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過(guò)去數(shù)年,本站AIxiv專(zhuān)欄接收?qǐng)?bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com這篇論文的作者均來(lái)自伊利諾伊大學(xué)香檳分校(UIUC)張令明老師團(tuán)隊(duì),包括:StevenXia,四年級(jí)博士生,研究方向是基于AI大模型的自動(dòng)代碼修復(fù);鄧茵琳,四年級(jí)博士生,研究方

首個(gè)基于Mamba的MLLM來(lái)了!模型權(quán)重、訓(xùn)練代碼等已全部開(kāi)源 首個(gè)基于Mamba的MLLM來(lái)了!模型權(quán)重、訓(xùn)練代碼等已全部開(kāi)源 Jul 17, 2024 am 02:46 AM

AIxiv專(zhuān)欄是本站發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過(guò)去數(shù)年,本站AIxiv專(zhuān)欄接收?qǐng)?bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。引言近年來(lái),多模態(tài)大型語(yǔ)言模型(MLLM)在各個(gè)領(lǐng)域的應(yīng)用取得了顯著的成功。然而,作為許多下游任務(wù)的基礎(chǔ)模型,當(dāng)前的MLLM由眾所周知的Transformer網(wǎng)絡(luò)構(gòu)成,這種網(wǎng)

See all articles