亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

首頁(yè) 科技週邊 人工智慧 英偉達(dá)玩轉(zhuǎn)剪枝、蒸餾:把Llama 3.1 8B參數(shù)減半,性能同尺寸更強(qiáng)

英偉達(dá)玩轉(zhuǎn)剪枝、蒸餾:把Llama 3.1 8B參數(shù)減半,性能同尺寸更強(qiáng)

Aug 16, 2024 pm 04:42 PM
英偉達(dá) 工程

小模型崛起了。

上個(gè)月,Meta 發(fā)布了Llama 3.1 系列模型,其中包括Meta 迄今為止最大的405B 模型,以及兩個(gè)較小的模型,參數(shù)量分別為700億和80 億。

Llama 3.1 被認(rèn)為是引領(lǐng)了開(kāi)源新時(shí)代。然而,新一代的模型雖然效能強(qiáng)大,但部署時(shí)仍需要大量運(yùn)算資源。

因此,業(yè)界出現(xiàn)了另一種趨勢(shì),即開(kāi)發(fā)小型語(yǔ)言模型 (SLM),這種模型在許多語(yǔ)言任務(wù)中表現(xiàn)足夠出色,部署起來(lái)也非常便宜。

最近,英偉達(dá)研究表明,結(jié)構(gòu)化權(quán)重剪枝與知識(shí)蒸餾相結(jié)合,可以從初始較大的模型中逐步獲得較小的語(yǔ)言模型。

英偉達(dá)玩轉(zhuǎn)剪枝、蒸餾:把Llama 3.1 8B參數(shù)減半,性能同尺寸更強(qiáng)

? ? ? ? ? ? ? ? ?.

經(jīng)過(guò)剪枝和蒸餾,英偉達(dá)研究團(tuán)隊(duì)將 Llama 3.1 8B 提煉為 Llama-3.1-Minitron 4B 開(kāi)源了出來(lái)。這是英偉達(dá)在 Llama 3.1 開(kāi)源系列中的第一個(gè)作品。

Llama-3.1-Minitron 4B 的表現(xiàn)優(yōu)於類(lèi)似大小的最先進(jìn)的開(kāi)源模型,包括 Minitron 4B、Phi-2 2.7B、Gemma2 2.6B 和 Qwen2-1.5B。

英偉達(dá)玩轉(zhuǎn)剪枝、蒸餾:把Llama 3.1 8B參數(shù)減半,性能同尺寸更強(qiáng)

這項(xiàng)研究的相關(guān)論文早在上個(gè)月就已經(jīng)放出了。

英偉達(dá)玩轉(zhuǎn)剪枝、蒸餾:把Llama 3.1 8B參數(shù)減半,性能同尺寸更強(qiáng)
  • 論文連結(jié):https://www.arxiv.org/pdf/2407.14679

  • 論文

    論文標(biāo)題:Compact Language Models via Pruning and Knowledge Distillation

剪枝和蒸餾

剪枝使模型變得更小、更簡(jiǎn),可以透過(guò)刪除層(深度剪枝)或刪除神經(jīng)元和注意力頭以及嵌入通道(寬度剪枝)來(lái)實(shí)現(xiàn)。剪枝通常伴隨著一定程度的再訓(xùn)練,以恢復(fù)準(zhǔn)確率。

模型蒸餾是一種將知識(shí)從大型複雜模型(通常稱(chēng)為教師模型)遷移到較小、較簡(jiǎn)單的學(xué)生模型的技術(shù)。目標(biāo)是創(chuàng)建一個(gè)更有效率的模型,該模型保留了原始較大模型的大部分預(yù)測(cè)能力,同時(shí)運(yùn)行速度更快且資源消耗更少。

蒸餾方式主要包括兩種:SDG 微調(diào)與經(jīng)典知識(shí)蒸餾,兩種蒸餾方式互補(bǔ)。本文主要關(guān)注經(jīng)典知識(shí)蒸餾方法。

英偉達(dá)採(cǎi)用將剪枝與經(jīng)典知識(shí)蒸餾相結(jié)合的方式來(lái)構(gòu)造大模型,下圖展示了單一模型的剪枝和蒸餾過(guò)程(上)以及模型剪枝和蒸餾的鏈條(下) 。具體過(guò)程如下:

1. 英偉達(dá)從15B 模型開(kāi)始,評(píng)估每個(gè)組件(層、神經(jīng)元、頭和嵌入通道)的重要性,然後對(duì)模型進(jìn)行排序和剪枝,使其達(dá)到目標(biāo)大?。?B 模型。

2. 接著使用模型蒸餾進(jìn)行了輕度再訓(xùn)練,原始模型作為老師,剪枝後的模型作為學(xué)生。

3. 訓(xùn)練結(jié)束後,以小模型(8B)為起點(diǎn),剪枝和蒸餾為較小的 4B 模型。

英偉達(dá)玩轉(zhuǎn)剪枝、蒸餾:把Llama 3.1 8B參數(shù)減半,性能同尺寸更強(qiáng)

? ? ? ? ? ? ? ? ?? ?? ?

需要注意的點(diǎn)是,在對(duì)模型剪枝之前,需要先了解模型的哪部分是重要的。英偉達(dá)提出了一種基於激活的純重要性評(píng)估策略,該策略可以同時(shí)計(jì)算所有相關(guān)維度(深度、神經(jīng)元、頭和嵌入通道)的信息,使用一個(gè)包含1024 個(gè)樣本的小型校準(zhǔn)數(shù)據(jù)集,並且只需要前向傳播。這種方法相比依賴(lài)梯度資訊並需要反向傳播的策略更加簡(jiǎn)單且具有成本效益。?

在剪枝過(guò)程中,你可以針對(duì)給定軸或軸組合在剪枝和重要性估計(jì)之間進(jìn)行迭代交替。實(shí)證研究顯示,使用單次重要性估計(jì)就足夠了,迭代估計(jì)不會(huì)帶來(lái)額外的好處。

利用經(jīng)典知識(shí)蒸餾進(jìn)行再訓(xùn)練

下圖 2 展示了蒸餾過(guò)程,其中 N 層學(xué)生模型(剪枝後的模型)是從 M 層教師模型中(原始未剪枝模型)蒸餾而來(lái)。學(xué)生模型透過(guò)最小化嵌入輸出損失、logit 損失以及映射到學(xué)生區(qū)塊 S 和教師區(qū)塊 T 的 Transformer 編碼器特定損失組合來(lái)學(xué)習(xí)。

英偉達(dá)玩轉(zhuǎn)剪枝、蒸餾:把Llama 3.1 8B參數(shù)減半,性能同尺寸更強(qiáng)

? ? ? ? ? ? ? ? ? ? ?? ?

剪枝和蒸餾最佳實(shí)踐

英偉達(dá)基於緊湊語(yǔ)言模型中剪枝和知識(shí)蒸餾的廣泛消融研究,將自己的學(xué)習(xí)成果總結(jié)為以下幾種結(jié)構(gòu)化壓縮最佳實(shí)務(wù)。

一是調(diào)整大小。

  • 要訓(xùn)練一組 LLM,先訓(xùn)練最大的一個(gè),然後迭代地剪枝和蒸餾以獲得較小的 LLM。

  • 如果使用多階段訓(xùn)練策略來(lái)訓(xùn)練最大的模型,最好剪枝並對(duì)訓(xùn)練最後階段獲得的模型進(jìn)行重新訓(xùn)練。

  • 對(duì)最接近目標(biāo)大小的可用來(lái)源模型進(jìn)行剪枝。

二是剪枝。

  • 優(yōu)先考慮寬度剪枝而不是深度剪枝,這對(duì)於 15B 參數(shù)規(guī)模以下的模型效果很好。

  • 使用單一樣本(single-shot)重要性估計(jì),因?yàn)榈匾怨烙?jì)沒(méi)有任何好處。

三是重新訓(xùn)練。

  • 僅使用蒸餾損失進(jìn)行重新訓(xùn)練,而不是常規(guī)訓(xùn)練。

  • 當(dāng)深度明顯減少時(shí),使用 logit、中間狀態(tài)和嵌入蒸餾。

  • 當(dāng)深度沒(méi)有明顯減少時(shí),使用 logit-only 蒸餾。

Llama-3.1-Minitron:將最佳實(shí)踐付諸應(yīng)用

Meta 最近推出了強(qiáng)大的Llama 3.1 開(kāi)源模型系列,在許多基準(zhǔn)測(cè)試中可與閉源模型相媲美。 Llama 3.1 的參數(shù)範(fàn)圍從巨大的 405B 到 70B、8B。

憑藉Nemotron 蒸餾的經(jīng)驗(yàn),英偉達(dá)著手將Llama 3.1 8B 模型蒸餾為更小、更高效的4B 模型,採(cǎi)取以下措施:

  • 教師微調(diào)

  • 教師微調(diào)

    教師微調(diào)
  • 教師微調(diào)
  • Depth-only 剪枝
  • Width-only 剪枝
  • 準(zhǔn)確率基準(zhǔn)

準(zhǔn)確率基準(zhǔn)

效能基準(zhǔn)

教師微調(diào)

為了修正模型訓(xùn)練所基於的原始資料集的分佈偏差,英偉達(dá)首先在他們的資料集上(94B token)對(duì)未剪枝的8B 模型進(jìn)行了微調(diào)。實(shí)驗(yàn)表明,如果不糾正分佈偏差,教師模型在蒸餾時(shí)會(huì)為數(shù)據(jù)集提供次優(yōu)指導(dǎo)。

英偉達(dá)玩轉(zhuǎn)剪枝、蒸餾:把Llama 3.1 8B參數(shù)減半,性能同尺寸更強(qiáng)Depth-only 剪枝

為了從 8B 降到 4B,英偉達(dá)剪枝了 16 層(50%)。他們首先透過(guò)從模型中刪除每個(gè)層或連續(xù)子層組來(lái)評(píng)估它們的重要性,並觀察下游任務(wù)中 LM 損失的增加或準(zhǔn)確率的降低。 下圖 5 顯示了刪除 1、2、8 或 16 層後驗(yàn)證集上的 LM 損失值。例如,第 16 層的紅色圖表示如果刪除前 16 層,則出現(xiàn) LM 損失。第 17 層表示如果保留第一層並刪除第 2 至第 17 層,也會(huì)出現(xiàn) LM 損失。英偉達(dá)觀察到:開(kāi)始和結(jié)束的層是最重要的。

? ? ? ? ? ? ? ? ? ? ?? ? ? ? ? ? ?英偉達(dá)玩轉(zhuǎn)剪枝、蒸餾:把Llama 3.1 8B參數(shù)減半,性能同尺寸更強(qiáng)

然而,英偉達(dá)觀察到,這種 LM 損失不一定與下游表現(xiàn)直接相關(guān)。 下圖6 顯示了每個(gè)剪枝模型的Winogrande 準(zhǔn)確率,它顯示最好刪除第16 到第31 層,其中第31 層是倒數(shù)第二層,剪枝模型的5-shot準(zhǔn)確率明顯高於隨機(jī)準(zhǔn)確率(0.5)。英偉達(dá)採(cǎi)納了這項(xiàng)見(jiàn)解,刪除了第 16 到第 31 層。

? ? ? ? ? ? ? ? ? ? ?? ?

  • Width-only 剪枝

  • 英偉達(dá)沿寬度軸剪枝了嵌入(隱藏)和MLP 中間維,以壓縮Llama 3.1 8B 。具體來(lái)說(shuō),他們使用前面描述的基於激活的策略來(lái)計(jì)算每個(gè)注意頭、嵌入通道和 MLP 隱藏維度的重要性分?jǐn)?shù)。
  • 在重要性估計(jì)之後,英偉達(dá)選擇

  • 將 MLP 中間維從 14336 剪枝到 9216。

    將隱藏大小從 4096 剪枝到 3072。 重新訓(xùn)練注意頭數(shù)量和層數(shù)。

值得一提的是,在單樣本剪枝之後,寬度剪枝的 LM 損失高於深度剪枝。然而,經(jīng)過(guò)短暫的重新訓(xùn)練後,趨勢(shì)發(fā)生了逆轉(zhuǎn)。

準(zhǔn)確率基準(zhǔn)

英偉達(dá)使用以下參數(shù)對(duì)模型進(jìn)行蒸餾

  • 峰值學(xué)習(xí)率= 1e-4

  • 最小學(xué)習(xí)率= 1e-5

  • 40 步線(xiàn)性預(yù)熱

  • 餘弦衰減計(jì)畫(huà)

  • 全域批次大小= 1152

下表1 顯示了Llama-3.1-Minitron 4B 模型變體(寬度剪枝和深度剪枝)與原始Llama 3.1 8B 模型、其他類(lèi)似大小的模型在跨多個(gè)領(lǐng)域的基準(zhǔn)測(cè)試中的性能比較。整體而言,英偉達(dá)再次證實(shí)了寬度剪枝策略相較於遵循最佳實(shí)踐的深度剪枝的有效性。

英偉達(dá)玩轉(zhuǎn)剪枝、蒸餾:把Llama 3.1 8B參數(shù)減半,性能同尺寸更強(qiáng)

? ? ? ? ? ? ? ? ? ? ?? ?

為了驗(yàn)證蒸餾後的模型是否可以成為強(qiáng)大的指令模型,英偉達(dá)使用 NeMo-Aligner 對(duì) Llama-3.1-Minitron 4B 模型進(jìn)行了微調(diào)。

他們使用了Nemotron-4 340B 的訓(xùn)練數(shù)據(jù),在IFEval、MT-Bench、ChatRAG-Bench 和Berkeley Function Calling Leaderboard (BFCL) 上進(jìn)行了評(píng)估,以測(cè)試指令遵循、角色扮演、RAG 和函數(shù)呼叫功能。最後確認(rèn) Llama-3.1-Minitron 4B 模型可以成為可靠的指令模型,其表現(xiàn)優(yōu)於其他基準(zhǔn) SLM。

英偉達(dá)玩轉(zhuǎn)剪枝、蒸餾:把Llama 3.1 8B參數(shù)減半,性能同尺寸更強(qiáng)

? ? ? ? ? ? ? ? ? ? ?? base

效能基準(zhǔn)

英偉達(dá)利用NVIDIA TensorRT-LLM(一種用於最佳化LLM 推理的開(kāi)源工具包)優(yōu)化了Llama 3.1 8B和Llama-3.1-Minitron 4B 模型。

下兩張圖顯示了不同模型在不同用例下以FP8 和FP16 精度每秒的吞吐量請(qǐng)求,表示為8B 模型的batch size 為32 的輸入序列長(zhǎng)度/ 輸出序列長(zhǎng)度(ISL/ OSL) 組合以及4B 模型的batch size 為64 的輸入序列長(zhǎng)度/ 輸出序列長(zhǎng)度(ISL/OSL) 組合,這要?dú)w功於在一塊英偉達(dá)H100 80GB GPU 上,較小的權(quán)重允許較大的batch size。

Llama-3.1-Minitron-4B-Depth-Base 變體是最快的,平均吞吐量約為L(zhǎng)lama 3.1 8B 的2.7 倍,而Llama-3.1-Minitron-4B-Width-Base 變體的平均吞吐量約為L(zhǎng)lama 3.1 8B 的1.8 倍。與 BF16 相比,在 FP8 中部署還可使這三種型號(hào)的效能提高約 1.3 倍。

英偉達(dá)玩轉(zhuǎn)剪枝、蒸餾:把Llama 3.1 8B參數(shù)減半,性能同尺寸更強(qiáng)
英偉達(dá)玩轉(zhuǎn)剪枝、蒸餾:把Llama 3.1 8B參數(shù)減半,性能同尺寸更強(qiáng)

? ? ? ? ?? ?32,Llama-3.1-Minitron 4B 型號(hào)為BS=64。1x H100 80GB GPU。

結(jié)論

剪枝和經(jīng)典知識(shí)提煉是一種非常經(jīng)濟(jì)高效的方法,可以逐步獲得更小尺寸的LLM,與在所有領(lǐng)域從頭開(kāi)始訓(xùn)練相比,可實(shí)現(xiàn)更高的準(zhǔn)確性。與合成資料式微調(diào)或從頭開(kāi)始預(yù)訓(xùn)練相比,這是一種更有效且資料效率更高的方法。

Llama-3.1-Minitron 4B 是英偉達(dá)首次嘗試使用最先進(jìn)的開(kāi)源 Llama 3.1 系列完成的探索。要在 NVIDIA NeMo 中使用 Llama-3.1 的 SDG 微調(diào),可參閱 GitHub 上的 /sdg-law-title-generation 部分。

有關(guān)更多信息,請(qǐng)參閱以下資源:

  • https://arxiv.org/abs/2407.14679

  • https://github.com/NVlabs/Minitron
  • https://huggingface.co/nvidia/Llama-3.1-Minitron-4B-Width-Base
  • https://huggingface.co/nvidia/Llama-3.1-Minitron-4B-Depth-Base

參考鏈接:

https://developer.nvidia.com/blog/how-to-prune-and-distill-llama-3-1-8b-to-an-nvidia-llama-3 -1-minitron-4b-model/

以上是英偉達(dá)玩轉(zhuǎn)剪枝、蒸餾:把Llama 3.1 8B參數(shù)減半,性能同尺寸更強(qiáng)的詳細(xì)內(nèi)容。更多資訊請(qǐng)關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本網(wǎng)站聲明
本文內(nèi)容由網(wǎng)友自願(yuàn)投稿,版權(quán)歸原作者所有。本站不承擔(dān)相應(yīng)的法律責(zé)任。如發(fā)現(xiàn)涉嫌抄襲或侵權(quán)的內(nèi)容,請(qǐng)聯(lián)絡(luò)admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費(fèi)脫衣圖片

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅(qū)動(dòng)的應(yīng)用程序,用於創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線(xiàn)上人工智慧工具。

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費(fèi)的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費(fèi)的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強(qiáng)大的PHP整合開(kāi)發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺(jué)化網(wǎng)頁(yè)開(kāi)發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級(jí)程式碼編輯軟體(SublimeText3)

熱門(mén)話(huà)題

Laravel 教程
1597
29
PHP教程
1488
72
arXiv論文可以發(fā)「彈幕」了,史丹佛alphaXiv討論平臺(tái)上線(xiàn),LeCun按讚 arXiv論文可以發(fā)「彈幕」了,史丹佛alphaXiv討論平臺(tái)上線(xiàn),LeCun按讚 Aug 01, 2024 pm 05:18 PM

乾杯!當(dāng)論文討論細(xì)緻到詞句,是什麼體驗(yàn)?最近,史丹佛大學(xué)的學(xué)生針對(duì)arXiv論文創(chuàng)建了一個(gè)開(kāi)放討論論壇——alphaXiv,可以直接在任何arXiv論文之上發(fā)布問(wèn)題和評(píng)論。網(wǎng)站連結(jié):https://alphaxiv.org/其實(shí)不需要專(zhuān)門(mén)訪(fǎng)問(wèn)這個(gè)網(wǎng)站,只需將任何URL中的arXiv更改為alphaXiv就可以直接在alphaXiv論壇上打開(kāi)相應(yīng)論文:可以精準(zhǔn)定位到論文中的段落、句子:右側(cè)討論區(qū),使用者可以發(fā)表問(wèn)題詢(xún)問(wèn)作者論文想法、細(xì)節(jié),例如:也可以針對(duì)論文內(nèi)容發(fā)表評(píng)論,例如:「給出至

英偉達(dá)對(duì)話(huà)模式ChatQA進(jìn)化到2.0版本,上下文長(zhǎng)度提到128K 英偉達(dá)對(duì)話(huà)模式ChatQA進(jìn)化到2.0版本,上下文長(zhǎng)度提到128K Jul 26, 2024 am 08:40 AM

開(kāi)放LLM社群正是百花齊放、競(jìng)相爭(zhēng)鳴的時(shí)代,你能看到Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1等許多表現(xiàn)優(yōu)良的模型。但是,相較於以GPT-4-Turbo為代表的專(zhuān)有大模型,開(kāi)放模型在許多領(lǐng)域仍有明顯差距。在通用模型之外,也有一些專(zhuān)精關(guān)鍵領(lǐng)域的開(kāi)放模型已被開(kāi)發(fā)出來(lái),例如用於程式設(shè)計(jì)和數(shù)學(xué)的DeepSeek-Coder-V2、用於視覺(jué)-語(yǔ)言任務(wù)的InternVL

ControlNet作者又出爆款!一張圖生成繪畫(huà)全過(guò)程,兩天狂攬1.4k Star ControlNet作者又出爆款!一張圖生成繪畫(huà)全過(guò)程,兩天狂攬1.4k Star Jul 17, 2024 am 01:56 AM

同樣是圖生視頻,PaintsUndo走出了不一樣的路線(xiàn)。 ControlNet作者LvminZhang又開(kāi)始整活了!這次瞄準(zhǔn)繪畫(huà)領(lǐng)域。新項(xiàng)目PaintsUndo剛上線(xiàn)不久,就收穫1.4kstar(還在瘋狂漲)。項(xiàng)目地址:https://github.com/lllyasviel/Paints-UNDO透過(guò)這個(gè)項(xiàng)目,用戶(hù)輸入一張靜態(tài)圖像,PaintsUndo就能自動(dòng)幫你生成整個(gè)繪畫(huà)的全過(guò)程視頻,從線(xiàn)稿到成品都有跡可循。繪製過(guò)程,線(xiàn)條變化多端甚是神奇,最終視頻結(jié)果和原始圖像非常相似:我們?cè)賮?lái)看一個(gè)完整的繪

黎曼猜想顯著突破!陶哲軒強(qiáng)推MIT、牛津新論文,37歲菲爾茲獎(jiǎng)得主參與 黎曼猜想顯著突破!陶哲軒強(qiáng)推MIT、牛津新論文,37歲菲爾茲獎(jiǎng)得主參與 Aug 05, 2024 pm 03:32 PM

最近,被稱(chēng)為千禧年七大難題之一的黎曼猜想迎來(lái)了新突破。黎曼猜想是數(shù)學(xué)中一個(gè)非常重要的未解決問(wèn)題,與素?cái)?shù)分佈的精確性質(zhì)有關(guān)(素?cái)?shù)是那些只能被1和自身整除的數(shù)字,它們?cè)跀?shù)論中扮演著基礎(chǔ)性的角色)。在當(dāng)今的數(shù)學(xué)文獻(xiàn)中,已有超過(guò)一千個(gè)數(shù)學(xué)命題以黎曼猜想(或其推廣形式)的成立為前提。也就是說(shuō),黎曼猜想及其推廣形式一旦被證明,這一千多個(gè)命題將被確立為定理,對(duì)數(shù)學(xué)領(lǐng)域產(chǎn)生深遠(yuǎn)的影響;而如果黎曼猜想被證明是錯(cuò)誤的,那麼這些命題中的一部分也將隨之失去其有效性。新的突破來(lái)自MIT數(shù)學(xué)教授LarryGuth和牛津大學(xué)

OpenAI超級(jí)對(duì)齊團(tuán)隊(duì)遺作:兩個(gè)大模型博弈一番,輸出更好懂了 OpenAI超級(jí)對(duì)齊團(tuán)隊(duì)遺作:兩個(gè)大模型博弈一番,輸出更好懂了 Jul 19, 2024 am 01:29 AM

如果AI模型給的答案一點(diǎn)也看不懂,你敢用嗎?隨著機(jī)器學(xué)習(xí)系統(tǒng)在更重要的領(lǐng)域中得到應(yīng)用,證明為什麼我們可以信任它們的輸出,並明確何時(shí)不應(yīng)信任它們,變得越來(lái)越重要。獲得對(duì)複雜系統(tǒng)輸出結(jié)果信任的一個(gè)可行方法是,要求系統(tǒng)對(duì)其輸出產(chǎn)生一種解釋?zhuān)@種解釋對(duì)人類(lèi)或另一個(gè)受信任的系統(tǒng)來(lái)說(shuō)是可讀的,即可以完全理解以至於任何可能的錯(cuò)誤都可以被發(fā)現(xiàn)。例如,為了建立對(duì)司法系統(tǒng)的信任,我們要求法院提供清晰易讀的書(shū)面意見(jiàn),解釋並支持其決策。對(duì)於大型語(yǔ)言模型來(lái)說(shuō),我們也可以?huà)?cǎi)用類(lèi)似的方法。不過(guò),在採(cǎi)用這種方法時(shí),確保語(yǔ)言模型生

LLM用於時(shí)序預(yù)測(cè)真的不行,連推理能力都沒(méi)用到 LLM用於時(shí)序預(yù)測(cè)真的不行,連推理能力都沒(méi)用到 Jul 15, 2024 pm 03:59 PM

語(yǔ)言模型真的能用於時(shí)序預(yù)測(cè)嗎?根據(jù)貝特里奇頭條定律(任何以問(wèn)號(hào)結(jié)尾的新聞標(biāo)題,都能夠用「不」來(lái)回答),答案應(yīng)該是否定的。事實(shí)似乎也果然如此:強(qiáng)大如斯的LLM並不能很好地處理時(shí)序資料。時(shí)序,即時(shí)間序列,顧名思義,是指一組依照時(shí)間發(fā)生先後順序排列的資料點(diǎn)序列。在許多領(lǐng)域,時(shí)序分析都很關(guān)鍵,包括疾病傳播預(yù)測(cè)、零售分析、醫(yī)療和金融。在時(shí)序分析領(lǐng)域,近期不少研究者都在研究如何使用大型語(yǔ)言模型(LLM)來(lái)分類(lèi)、預(yù)測(cè)和偵測(cè)時(shí)間序列中的異常。這些論文假設(shè)擅長(zhǎng)處理文本中順序依賴(lài)關(guān)係的語(yǔ)言模型也能泛化用於時(shí)間序

登頂開(kāi)源AI軟體工程師榜首,UIUC無(wú)Agent方案輕鬆解決SWE-bench真實(shí)程式設(shè)計(jì)問(wèn)題 登頂開(kāi)源AI軟體工程師榜首,UIUC無(wú)Agent方案輕鬆解決SWE-bench真實(shí)程式設(shè)計(jì)問(wèn)題 Jul 17, 2024 pm 10:02 PM

AIxiv專(zhuān)欄是本站發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄位。過(guò)去數(shù)年,本站AIxiv專(zhuān)欄接收通報(bào)了2,000多篇內(nèi)容,涵蓋全球各大專(zhuān)院校與企業(yè)的頂尖實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或聯(lián)絡(luò)報(bào)道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com這篇論文的作者皆來(lái)自伊利諾大學(xué)香檳分校(UIUC)張令明老師團(tuán)隊(duì),包括:StevenXia,四年級(jí)博士生,研究方向是基於AI大模型的自動(dòng)代碼修復(fù);鄧茵琳,四年級(jí)博士生,研究方

首個(gè)基於Mamba的MLLM來(lái)了!模型權(quán)重、訓(xùn)練程式碼等已全部開(kāi)源 首個(gè)基於Mamba的MLLM來(lái)了!模型權(quán)重、訓(xùn)練程式碼等已全部開(kāi)源 Jul 17, 2024 am 02:46 AM

AIxiv專(zhuān)欄是本站發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過(guò)去數(shù)年,本站AIxiv專(zhuān)欄接收?qǐng)?bào)道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室,有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。引言近年來(lái),多模態(tài)大型語(yǔ)言模型(MLLM)在各個(gè)領(lǐng)域的應(yīng)用取得了顯著的成功。然而,作為許多下游任務(wù)的基礎(chǔ)模型,當(dāng)前的MLLM由眾所周知的Transformer網(wǎng)絡(luò)構(gòu)成,這種網(wǎng)

See all articles