精品国产一区二区三区久久,av在线观看网站免费

首頁(yè)

科技週邊

人工智慧

英偉達(dá)玩轉(zhuǎn)剪枝、蒸餾：把Llama 3.1 8B參數(shù)減半，性能同尺寸更強(qiáng)

PHPz

Aug 16, 2024 pm 04:42 PM

英偉達(dá) 工程

小模型崛起了。

上個(gè)月，Meta 發(fā)布了Llama 3.1 系列模型，其中包括Meta 迄今為止最大的405B 模型，以及兩個(gè)較小的模型，參數(shù)量分別為700億和80 億。

Llama 3.1 被認(rèn)為是引領(lǐng)了開(kāi)源新時(shí)代。然而，新一代的模型雖然效能強(qiáng)大，但部署時(shí)仍需要大量運(yùn)算資源。

因此，業(yè)界出現(xiàn)了另一種趨勢(shì)，即開(kāi)發(fā)小型語(yǔ)言模型 (SLM)，這種模型在許多語(yǔ)言任務(wù)中表現(xiàn)足夠出色，部署起來(lái)也非常便宜。

最近，英偉達(dá)研究表明，結(jié)構(gòu)化權(quán)重剪枝與知識(shí)蒸餾相結(jié)合，可以從初始較大的模型中逐步獲得較小的語(yǔ)言模型。

英偉達(dá)玩轉(zhuǎn)剪枝、蒸餾：把Llama 3.1 8B參數(shù)減半，性能同尺寸更強(qiáng)

^{? ? ? ? ? ? ? ? ?.}

經(jīng)過(guò)剪枝和蒸餾，英偉達(dá)研究團(tuán)隊(duì)將 Llama 3.1 8B 提煉為 Llama-3.1-Minitron 4B 開(kāi)源了出來(lái)。這是英偉達(dá)在 Llama 3.1 開(kāi)源系列中的第一個(gè)作品。

Llama-3.1-Minitron 4B 的表現(xiàn)優(yōu)於類(lèi)似大小的最先進(jìn)的開(kāi)源模型，包括 Minitron 4B、Phi-2 2.7B、Gemma2 2.6B 和 Qwen2-1.5B。

這項(xiàng)研究的相關(guān)論文早在上個(gè)月就已經(jīng)放出了。

論文連結(jié)：https://www.arxiv.org/pdf/2407.14679
論文
論文標(biāo)題：Compact Language Models via Pruning and Knowledge Distillation

剪枝和蒸餾

剪枝使模型變得更小、更簡(jiǎn)，可以透過(guò)刪除層（深度剪枝）或刪除神經(jīng)元和注意力頭以及嵌入通道（寬度剪枝）來(lái)實(shí)現(xiàn)。剪枝通常伴隨著一定程度的再訓(xùn)練，以恢復(fù)準(zhǔn)確率。

模型蒸餾是一種將知識(shí)從大型複雜模型（通常稱(chēng)為教師模型）遷移到較小、較簡(jiǎn)單的學(xué)生模型的技術(shù)。目標(biāo)是創(chuàng)建一個(gè)更有效率的模型，該模型保留了原始較大模型的大部分預(yù)測(cè)能力，同時(shí)運(yùn)行速度更快且資源消耗更少。

蒸餾方式主要包括兩種：SDG 微調(diào)與經(jīng)典知識(shí)蒸餾，兩種蒸餾方式互補(bǔ)。本文主要關(guān)注經(jīng)典知識(shí)蒸餾方法。

英偉達(dá)採(cǎi)用將剪枝與經(jīng)典知識(shí)蒸餾相結(jié)合的方式來(lái)構(gòu)造大模型，下圖展示了單一模型的剪枝和蒸餾過(guò)程（上）以及模型剪枝和蒸餾的鏈條（下）。具體過(guò)程如下：

1. 英偉達(dá)從15B 模型開(kāi)始，評(píng)估每個(gè)組件（層、神經(jīng)元、頭和嵌入通道）的重要性，然後對(duì)模型進(jìn)行排序和剪枝，使其達(dá)到目標(biāo)大?。?B 模型。

2. 接著使用模型蒸餾進(jìn)行了輕度再訓(xùn)練，原始模型作為老師，剪枝後的模型作為學(xué)生。

3. 訓(xùn)練結(jié)束後，以小模型（8B）為起點(diǎn)，剪枝和蒸餾為較小的 4B 模型。

^{? ? ? ? ? ? ? ? ?? ?? ?}

需要注意的點(diǎn)是，在對(duì)模型剪枝之前，需要先了解模型的哪部分是重要的。英偉達(dá)提出了一種基於激活的純重要性評(píng)估策略，該策略可以同時(shí)計(jì)算所有相關(guān)維度（深度、神經(jīng)元、頭和嵌入通道）的信息，使用一個(gè)包含1024 個(gè)樣本的小型校準(zhǔn)數(shù)據(jù)集，並且只需要前向傳播。這種方法相比依賴(lài)梯度資訊並需要反向傳播的策略更加簡(jiǎn)單且具有成本效益。?

在剪枝過(guò)程中，你可以針對(duì)給定軸或軸組合在剪枝和重要性估計(jì)之間進(jìn)行迭代交替。實(shí)證研究顯示，使用單次重要性估計(jì)就足夠了，迭代估計(jì)不會(huì)帶來(lái)額外的好處。

利用經(jīng)典知識(shí)蒸餾進(jìn)行再訓(xùn)練

下圖 2 展示了蒸餾過(guò)程，其中 N 層學(xué)生模型（剪枝後的模型）是從 M 層教師模型中（原始未剪枝模型）蒸餾而來(lái)。學(xué)生模型透過(guò)最小化嵌入輸出損失、logit 損失以及映射到學(xué)生區(qū)塊 S 和教師區(qū)塊 T 的 Transformer 編碼器特定損失組合來(lái)學(xué)習(xí)。

^{? ? ? ? ? ? ? ? ? ? ?? ?}

剪枝和蒸餾最佳實(shí)踐

英偉達(dá)基於緊湊語(yǔ)言模型中剪枝和知識(shí)蒸餾的廣泛消融研究，將自己的學(xué)習(xí)成果總結(jié)為以下幾種結(jié)構(gòu)化壓縮最佳實(shí)務(wù)。

一是調(diào)整大小。

要訓(xùn)練一組 LLM，先訓(xùn)練最大的一個(gè)，然後迭代地剪枝和蒸餾以獲得較小的 LLM。
如果使用多階段訓(xùn)練策略來(lái)訓(xùn)練最大的模型，最好剪枝並對(duì)訓(xùn)練最後階段獲得的模型進(jìn)行重新訓(xùn)練。
對(duì)最接近目標(biāo)大小的可用來(lái)源模型進(jìn)行剪枝。

二是剪枝。

優(yōu)先考慮寬度剪枝而不是深度剪枝，這對(duì)於 15B 參數(shù)規(guī)模以下的模型效果很好。
使用單一樣本（single-shot）重要性估計(jì)，因?yàn)榈匾怨烙?jì)沒(méi)有任何好處。

三是重新訓(xùn)練。

僅使用蒸餾損失進(jìn)行重新訓(xùn)練，而不是常規(guī)訓(xùn)練。
當(dāng)深度明顯減少時(shí)，使用 logit、中間狀態(tài)和嵌入蒸餾。
當(dāng)深度沒(méi)有明顯減少時(shí)，使用 logit-only 蒸餾。

Llama-3.1-Minitron：將最佳實(shí)踐付諸應(yīng)用

Meta 最近推出了強(qiáng)大的Llama 3.1 開(kāi)源模型系列，在許多基準(zhǔn)測(cè)試中可與閉源模型相媲美。 Llama 3.1 的參數(shù)範(fàn)圍從巨大的 405B 到 70B、8B。

憑藉Nemotron 蒸餾的經(jīng)驗(yàn)，英偉達(dá)著手將Llama 3.1 8B 模型蒸餾為更小、更高效的4B 模型，採(cǎi)取以下措施：

教師微調(diào)
教師微調(diào)
教師微調(diào)
Depth-only 剪枝
Width-only 剪枝
準(zhǔn)確率基準(zhǔn)

準(zhǔn)確率基準(zhǔn)

效能基準(zhǔn)

教師微調(diào)

為了修正模型訓(xùn)練所基於的原始資料集的分佈偏差，英偉達(dá)首先在他們的資料集上（94B token）對(duì)未剪枝的8B 模型進(jìn)行了微調(diào)。實(shí)驗(yàn)表明，如果不糾正分佈偏差，教師模型在蒸餾時(shí)會(huì)為數(shù)據(jù)集提供次優(yōu)指導(dǎo)。

英偉達(dá)玩轉(zhuǎn)剪枝、蒸餾：把Llama 3.1 8B參數(shù)減半，性能同尺寸更強(qiáng) Depth-only 剪枝

為了從 8B 降到 4B，英偉達(dá)剪枝了 16 層（50%）。他們首先透過(guò)從模型中刪除每個(gè)層或連續(xù)子層組來(lái)評(píng)估它們的重要性，並觀察下游任務(wù)中 LM 損失的增加或準(zhǔn)確率的降低。下圖 5 顯示了刪除 1、2、8 或 16 層後驗(yàn)證集上的 LM 損失值。例如，第 16 層的紅色圖表示如果刪除前 16 層，則出現(xiàn) LM 損失。第 17 層表示如果保留第一層並刪除第 2 至第 17 層，也會(huì)出現(xiàn) LM 損失。英偉達(dá)觀察到：開(kāi)始和結(jié)束的層是最重要的。

? ? ? ? ? ? ? ? ? ? ?? ? ? ? ? ? ? 英偉達(dá)玩轉(zhuǎn)剪枝、蒸餾：把Llama 3.1 8B參數(shù)減半，性能同尺寸更強(qiáng)

然而，英偉達(dá)觀察到，這種 LM 損失不一定與下游表現(xiàn)直接相關(guān)。下圖6 顯示了每個(gè)剪枝模型的Winogrande 準(zhǔn)確率，它顯示最好刪除第16 到第31 層，其中第31 層是倒數(shù)第二層，剪枝模型的5-shot準(zhǔn)確率明顯高於隨機(jī)準(zhǔn)確率(0.5)。英偉達(dá)採(cǎi)納了這項(xiàng)見(jiàn)解，刪除了第 16 到第 31 層。

? ? ? ? ? ? ? ? ? ? ?? ?

Width-only 剪枝
在重要性估計(jì)之後，英偉達(dá)選擇
將 MLP 中間維從 14336 剪枝到 9216。
將隱藏大小從 4096 剪枝到 3072。重新訓(xùn)練注意頭數(shù)量和層數(shù)。

值得一提的是，在單樣本剪枝之後，寬度剪枝的 LM 損失高於深度剪枝。然而，經(jīng)過(guò)短暫的重新訓(xùn)練後，趨勢(shì)發(fā)生了逆轉(zhuǎn)。

準(zhǔn)確率基準(zhǔn)

英偉達(dá)使用以下參數(shù)對(duì)模型進(jìn)行蒸餾

峰值學(xué)習(xí)率= 1e-4
最小學(xué)習(xí)率= 1e-5
40 步線(xiàn)性預(yù)熱
餘弦衰減計(jì)畫(huà)
全域批次大小= 1152

下表1 顯示了Llama-3.1-Minitron 4B 模型變體（寬度剪枝和深度剪枝）與原始Llama 3.1 8B 模型、其他類(lèi)似大小的模型在跨多個(gè)領(lǐng)域的基準(zhǔn)測(cè)試中的性能比較。整體而言，英偉達(dá)再次證實(shí)了寬度剪枝策略相較於遵循最佳實(shí)踐的深度剪枝的有效性。

^{? ? ? ? ? ? ? ? ? ? ?? ?}

為了驗(yàn)證蒸餾後的模型是否可以成為強(qiáng)大的指令模型，英偉達(dá)使用 NeMo-Aligner 對(duì) Llama-3.1-Minitron 4B 模型進(jìn)行了微調(diào)。

他們使用了Nemotron-4 340B 的訓(xùn)練數(shù)據(jù)，在IFEval、MT-Bench、ChatRAG-Bench 和Berkeley Function Calling Leaderboard (BFCL) 上進(jìn)行了評(píng)估，以測(cè)試指令遵循、角色扮演、RAG 和函數(shù)呼叫功能。最後確認(rèn) Llama-3.1-Minitron 4B 模型可以成為可靠的指令模型，其表現(xiàn)優(yōu)於其他基準(zhǔn) SLM。

^{? ? ? ? ? ? ? ? ? ? ?? base}

效能基準(zhǔn)

英偉達(dá)利用NVIDIA TensorRT-LLM（一種用於最佳化LLM 推理的開(kāi)源工具包）優(yōu)化了Llama 3.1 8B和Llama-3.1-Minitron 4B 模型。

下兩張圖顯示了不同模型在不同用例下以FP8 和FP16 精度每秒的吞吐量請(qǐng)求，表示為8B 模型的batch size 為32 的輸入序列長(zhǎng)度/ 輸出序列長(zhǎng)度(ISL/ OSL) 組合以及4B 模型的batch size 為64 的輸入序列長(zhǎng)度/ 輸出序列長(zhǎng)度(ISL/OSL) 組合，這要?dú)w功於在一塊英偉達(dá)H100 80GB GPU 上，較小的權(quán)重允許較大的batch size。

Llama-3.1-Minitron-4B-Depth-Base 變體是最快的，平均吞吐量約為L(zhǎng)lama 3.1 8B 的2.7 倍，而Llama-3.1-Minitron-4B-Width-Base 變體的平均吞吐量約為L(zhǎng)lama 3.1 8B 的1.8 倍。與 BF16 相比，在 FP8 中部署還可使這三種型號(hào)的效能提高約 1.3 倍。

^{? ? ? ? ?? ?32，Llama-3.1-Minitron 4B 型號(hào)為BS=64。1x H100 80GB GPU。}

結(jié)論

剪枝和經(jīng)典知識(shí)提煉是一種非常經(jīng)濟(jì)高效的方法，可以逐步獲得更小尺寸的LLM，與在所有領(lǐng)域從頭開(kāi)始訓(xùn)練相比，可實(shí)現(xiàn)更高的準(zhǔn)確性。與合成資料式微調(diào)或從頭開(kāi)始預(yù)訓(xùn)練相比，這是一種更有效且資料效率更高的方法。

Llama-3.1-Minitron 4B 是英偉達(dá)首次嘗試使用最先進(jìn)的開(kāi)源 Llama 3.1 系列完成的探索。要在 NVIDIA NeMo 中使用 Llama-3.1 的 SDG 微調(diào)，可參閱 GitHub 上的 /sdg-law-title-generation 部分。

有關(guān)更多信息，請(qǐng)參閱以下資源：

https://arxiv.org/abs/2407.14679
https://github.com/NVlabs/Minitron
https://huggingface.co/nvidia/Llama-3.1-Minitron-4B-Width-Base
https://huggingface.co/nvidia/Llama-3.1-Minitron-4B-Depth-Base

參考鏈接：

https://developer.nvidia.com/blog/how-to-prune-and-distill-llama-3-1-8b-to-an-nvidia-llama-3 -1-minitron-4b-model/

以上是英偉達(dá)玩轉(zhuǎn)剪枝、蒸餾：把Llama 3.1 8B參數(shù)減半，性能同尺寸更強(qiáng)的詳細(xì)內(nèi)容。更多資訊請(qǐng)關(guān)注PHP中文網(wǎng)其他相關(guān)文章！

本網(wǎng)站聲明

本文內(nèi)容由網(wǎng)友自願(yuàn)投稿，版權(quán)歸原作者所有。本站不承擔(dān)相應(yīng)的法律責(zé)任。如發(fā)現(xiàn)涉嫌抄襲或侵權(quán)的內(nèi)容，請(qǐng)聯(lián)絡(luò)admin@php.cn

熱AI工具

Undress AI Tool

免費(fèi)脫衣圖片

Undresser.AI Undress

人工智慧驅(qū)動(dòng)的應(yīng)用程序，用於創(chuàng)建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線(xiàn)上人工智慧工具。

Clothoff.io

AI脫衣器

Video Face Swap

使用我們完全免費(fèi)的人工智慧換臉工具，輕鬆在任何影片中換臉！

熱工具

記事本++7.3.1

好用且免費(fèi)的程式碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

強(qiáng)大的PHP整合開(kāi)發(fā)環(huán)境

Dreamweaver CS6

視覺(jué)化網(wǎng)頁(yè)開(kāi)發(fā)工具

SublimeText3 Mac版

神級(jí)程式碼編輯軟體(SublimeText3)

熱門(mén)話(huà)題

Laravel 教程

1597

PHP教程

1488

Related knowledge

arXiv論文可以發(fā)「彈幕」了，史丹佛alphaXiv討論平臺(tái)上線(xiàn)，LeCun按讚 Aug 01, 2024 pm 05:18 PM

乾杯！當(dāng)論文討論細(xì)緻到詞句，是什麼體驗(yàn)？最近，史丹佛大學(xué)的學(xué)生針對(duì)arXiv論文創(chuàng)建了一個(gè)開(kāi)放討論論壇——alphaXiv，可以直接在任何arXiv論文之上發(fā)布問(wèn)題和評(píng)論。網(wǎng)站連結(jié)：https://alphaxiv.org/其實(shí)不需要專(zhuān)門(mén)訪(fǎng)問(wèn)這個(gè)網(wǎng)站，只需將任何URL中的arXiv更改為alphaXiv就可以直接在alphaXiv論壇上打開(kāi)相應(yīng)論文：可以精準(zhǔn)定位到論文中的段落、句子：右側(cè)討論區(qū)，使用者可以發(fā)表問(wèn)題詢(xún)問(wèn)作者論文想法、細(xì)節(jié)，例如：也可以針對(duì)論文內(nèi)容發(fā)表評(píng)論，例如：「給出至

英偉達(dá)對(duì)話(huà)模式ChatQA進(jìn)化到2.0版本，上下文長(zhǎng)度提到128K Jul 26, 2024 am 08:40 AM

開(kāi)放LLM社群正是百花齊放、競(jìng)相爭(zhēng)鳴的時(shí)代，你能看到Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1等許多表現(xiàn)優(yōu)良的模型。但是，相較於以GPT-4-Turbo為代表的專(zhuān)有大模型，開(kāi)放模型在許多領(lǐng)域仍有明顯差距。在通用模型之外，也有一些專(zhuān)精關(guān)鍵領(lǐng)域的開(kāi)放模型已被開(kāi)發(fā)出來(lái)，例如用於程式設(shè)計(jì)和數(shù)學(xué)的DeepSeek-Coder-V2、用於視覺(jué)-語(yǔ)言任務(wù)的InternVL

ControlNet作者又出爆款！一張圖生成繪畫(huà)全過(guò)程，兩天狂攬1.4k Star Jul 17, 2024 am 01:56 AM

同樣是圖生視頻，PaintsUndo走出了不一樣的路線(xiàn)。 ControlNet作者LvminZhang又開(kāi)始整活了！這次瞄準(zhǔn)繪畫(huà)領(lǐng)域。新項(xiàng)目PaintsUndo剛上線(xiàn)不久，就收穫1.4kstar（還在瘋狂漲）。項(xiàng)目地址：https://github.com/lllyasviel/Paints-UNDO透過(guò)這個(gè)項(xiàng)目，用戶(hù)輸入一張靜態(tài)圖像，PaintsUndo就能自動(dòng)幫你生成整個(gè)繪畫(huà)的全過(guò)程視頻，從線(xiàn)稿到成品都有跡可循。繪製過(guò)程，線(xiàn)條變化多端甚是神奇，最終視頻結(jié)果和原始圖像非常相似：我們?cè)賮?lái)看一個(gè)完整的繪

黎曼猜想顯著突破！陶哲軒強(qiáng)推MIT、牛津新論文，37歲菲爾茲獎(jiǎng)得主參與 Aug 05, 2024 pm 03:32 PM

最近，被稱(chēng)為千禧年七大難題之一的黎曼猜想迎來(lái)了新突破。黎曼猜想是數(shù)學(xué)中一個(gè)非常重要的未解決問(wèn)題，與素?cái)?shù)分佈的精確性質(zhì)有關(guān)（素?cái)?shù)是那些只能被1和自身整除的數(shù)字，它們?cè)跀?shù)論中扮演著基礎(chǔ)性的角色）。在當(dāng)今的數(shù)學(xué)文獻(xiàn)中，已有超過(guò)一千個(gè)數(shù)學(xué)命題以黎曼猜想（或其推廣形式）的成立為前提。也就是說(shuō)，黎曼猜想及其推廣形式一旦被證明，這一千多個(gè)命題將被確立為定理，對(duì)數(shù)學(xué)領(lǐng)域產(chǎn)生深遠(yuǎn)的影響；而如果黎曼猜想被證明是錯(cuò)誤的，那麼這些命題中的一部分也將隨之失去其有效性。新的突破來(lái)自MIT數(shù)學(xué)教授LarryGuth和牛津大學(xué)

OpenAI超級(jí)對(duì)齊團(tuán)隊(duì)遺作：兩個(gè)大模型博弈一番，輸出更好懂了 Jul 19, 2024 am 01:29 AM

如果AI模型給的答案一點(diǎn)也看不懂，你敢用嗎？隨著機(jī)器學(xué)習(xí)系統(tǒng)在更重要的領(lǐng)域中得到應(yīng)用，證明為什麼我們可以信任它們的輸出，並明確何時(shí)不應(yīng)信任它們，變得越來(lái)越重要。獲得對(duì)複雜系統(tǒng)輸出結(jié)果信任的一個(gè)可行方法是，要求系統(tǒng)對(duì)其輸出產(chǎn)生一種解釋?zhuān)@種解釋對(duì)人類(lèi)或另一個(gè)受信任的系統(tǒng)來(lái)說(shuō)是可讀的，即可以完全理解以至於任何可能的錯(cuò)誤都可以被發(fā)現(xiàn)。例如，為了建立對(duì)司法系統(tǒng)的信任，我們要求法院提供清晰易讀的書(shū)面意見(jiàn)，解釋並支持其決策。對(duì)於大型語(yǔ)言模型來(lái)說(shuō)，我們也可以?huà)?cǎi)用類(lèi)似的方法。不過(guò)，在採(cǎi)用這種方法時(shí)，確保語(yǔ)言模型生

LLM用於時(shí)序預(yù)測(cè)真的不行，連推理能力都沒(méi)用到 Jul 15, 2024 pm 03:59 PM

語(yǔ)言模型真的能用於時(shí)序預(yù)測(cè)嗎？根據(jù)貝特里奇頭條定律（任何以問(wèn)號(hào)結(jié)尾的新聞標(biāo)題，都能夠用「不」來(lái)回答），答案應(yīng)該是否定的。事實(shí)似乎也果然如此：強(qiáng)大如斯的LLM並不能很好地處理時(shí)序資料。時(shí)序，即時(shí)間序列，顧名思義，是指一組依照時(shí)間發(fā)生先後順序排列的資料點(diǎn)序列。在許多領(lǐng)域，時(shí)序分析都很關(guān)鍵，包括疾病傳播預(yù)測(cè)、零售分析、醫(yī)療和金融。在時(shí)序分析領(lǐng)域，近期不少研究者都在研究如何使用大型語(yǔ)言模型（LLM）來(lái)分類(lèi)、預(yù)測(cè)和偵測(cè)時(shí)間序列中的異常。這些論文假設(shè)擅長(zhǎng)處理文本中順序依賴(lài)關(guān)係的語(yǔ)言模型也能泛化用於時(shí)間序

登頂開(kāi)源AI軟體工程師榜首，UIUC無(wú)Agent方案輕鬆解決SWE-bench真實(shí)程式設(shè)計(jì)問(wèn)題 Jul 17, 2024 pm 10:02 PM

AIxiv專(zhuān)欄是本站發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄位。過(guò)去數(shù)年，本站AIxiv專(zhuān)欄接收通報(bào)了2,000多篇內(nèi)容，涵蓋全球各大專(zhuān)院校與企業(yè)的頂尖實(shí)驗(yàn)室，有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享，歡迎投稿或聯(lián)絡(luò)報(bào)道。投稿信箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com這篇論文的作者皆來(lái)自伊利諾大學(xué)香檳分校（UIUC）張令明老師團(tuán)隊(duì)，包括：StevenXia，四年級(jí)博士生，研究方向是基於AI大模型的自動(dòng)代碼修復(fù)；鄧茵琳，四年級(jí)博士生，研究方

首個(gè)基於Mamba的MLLM來(lái)了！模型權(quán)重、訓(xùn)練程式碼等已全部開(kāi)源 Jul 17, 2024 am 02:46 AM

AIxiv專(zhuān)欄是本站發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過(guò)去數(shù)年，本站AIxiv專(zhuān)欄接收?qǐng)?bào)道了2000多篇內(nèi)容，覆蓋全球各大高校與企業(yè)的頂級(jí)實(shí)驗(yàn)室，有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享，歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com。引言近年來(lái)，多模態(tài)大型語(yǔ)言模型（MLLM）在各個(gè)領(lǐng)域的應(yīng)用取得了顯著的成功。然而，作為許多下游任務(wù)的基礎(chǔ)模型，當(dāng)前的MLLM由眾所周知的Transformer網(wǎng)絡(luò)構(gòu)成，這種網(wǎng)

See all articles

亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

英偉達(dá)玩轉(zhuǎn)剪枝、蒸餾：把Llama 3.1 8B參數(shù)減半，性能同尺寸更強(qiáng)