亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

首頁(yè) 科技周邊 人工智能 PRO | 為什么基于 MoE 的大模型更值得關(guān)注?

PRO | 為什么基于 MoE 的大模型更值得關(guān)注?

Aug 07, 2024 pm 07:08 PM
理論 moe 機(jī)器之心Pro

2023年,幾乎 AI 的每個(gè)領(lǐng)域都在以前所未有的速度進(jìn)化,同時(shí),AI也在不斷地推動(dòng)著具身智能、自動(dòng)駕駛等關(guān)鍵賽道的技術(shù)邊界。多模態(tài)趨勢(shì)下,Transformer 作為 AI 大模型主流架構(gòu)的局面是否會(huì)撼動(dòng)?為何探索基于 MoE (專家混合)架構(gòu)的大模型成為業(yè)內(nèi)新趨勢(shì)?大型視覺模型 (LVM)能否成為通用視覺的新突破?...我們從過去的半年發(fā)布的2023年本站PRO會(huì)員通訊中,挑選了 10 份針對(duì)以上領(lǐng)域技術(shù)趨勢(shì)、產(chǎn)業(yè)變革進(jìn)行深入剖析的專題解讀,助您在新的一年里為大展宏圖做好準(zhǔn)備。本篇解讀來(lái)自2023年 Week50 業(yè)內(nèi)通訊??

PRO | 為什么基于 MoE 的大模型更值得關(guān)注?

專題解讀?為什么基于 MoE 的大模型更值得關(guān)注?

日期:12 月 12 日

事件:Mistral AI 開源了基于 MoE(Mixture-of-Experts,專家混合)架構(gòu)的模型 Mixtral 8x7B,其性能達(dá)到 Llama 2 70B 和 GPT-3.5 的水平"的事件進(jìn)行延展解讀。

首先,弄清楚 MoE 是什么及其來(lái)龍去脈

1、概念:

MoE(Mixture of Experts)是一種混合模型,由多個(gè)子模型(即專家)組成,每個(gè)子模型都是一個(gè)局部模型,專門處理輸入空間的一個(gè)子集。MoE 的核心思想是使用一個(gè)門控網(wǎng)絡(luò)來(lái)決定每個(gè)數(shù)據(jù)應(yīng)該被哪個(gè)模型去訓(xùn)練,從而減輕不同類型樣本之間的干擾。

2、主要構(gòu)成:

混合專家模型技術(shù)(MoE)是由專家模型和門控模型組成稀疏門控制的深度學(xué)習(xí)技術(shù)。MoE 通過門控網(wǎng)絡(luò)實(shí)現(xiàn)任務(wù)/訓(xùn)練數(shù)據(jù)在不同專家模型間的分配,讓每個(gè)模型專注處理其最擅長(zhǎng)的任務(wù),進(jìn)而實(shí)現(xiàn)模型的稀疏性。

① 在門控網(wǎng)絡(luò)的訓(xùn)練中,每個(gè)樣本都會(huì)被分配到一個(gè)或多個(gè)專家中;
② 在專家網(wǎng)絡(luò)的訓(xùn)練中,每個(gè)專家都會(huì)被訓(xùn)練以最小化其分配給它的樣本的誤差。

3、MoE 的「前身」:

MoE 的「前身」是集成學(xué)習(xí)(Ensemble Learning)。集成學(xué)習(xí)是通過訓(xùn)練練多個(gè)模型(基學(xué)習(xí)器)未解決同一問題,并且將它們的預(yù)測(cè)結(jié)果簡(jiǎn)單組合(例如投票或平均)。集成學(xué)習(xí)的主要目標(biāo)是通過減少過擬合,提高泛化能力,以提高預(yù)測(cè)性能。常見的集成學(xué)習(xí)方法包括 Bagging,Boosting 和 Stacking。

4、MoE 歷史來(lái)源:

① MoE 的根源可以追溯到 1991 年的論文《 Adaptive Mixture of Local Experts》。這個(gè)想法與集成方法類似,目的是為由不同子網(wǎng)絡(luò)組成的系統(tǒng)提供一種監(jiān)督過程,每個(gè)單獨(dú)的網(wǎng)絡(luò)或?qū)<叶紝iT處理輸入空間的不同區(qū)域。通過門控網(wǎng)絡(luò)確定每個(gè)專家的權(quán)重。在訓(xùn)練過程中,專家和門控都會(huì)被訓(xùn)練。

② 在 2010 年至 2015 年期間,兩個(gè)不同的研究領(lǐng)域?qū)?MoE 的進(jìn)一步發(fā)展做出了貢獻(xiàn):

一是專家作為組件:在傳統(tǒng)的 MoE 設(shè)置中,整個(gè)系統(tǒng)包括一個(gè)門控網(wǎng)絡(luò)和多個(gè)專家。MoEs 作為整個(gè)模型已經(jīng)在支持向量機(jī)、高斯過程和其他方法中進(jìn)行了探索?!禠earning Factored Representations in a Deep Mixture of Experts》工作探索了 MoEs 作為更深層網(wǎng)絡(luò)組件的可能性。這使得模型可以同時(shí)變得龐大和高效。

另一個(gè)是條件計(jì)算:傳統(tǒng)的網(wǎng)絡(luò)通過每一層處理所有輸入數(shù)據(jù)。在這個(gè)時(shí)期,Yoshua Bengio 研究了根據(jù)輸入 token 動(dòng)態(tài)激活或停用組件的方法。

③ 由此,人們開始在自然語(yǔ)言處理的背景下探索專家混合模型。在論文《Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer》中通過引入稀疏性,將其擴(kuò)展到了一個(gè) 137B LSTM,從而實(shí)現(xiàn)了高規(guī)模下的快速推理。

為什么基于 MoE 的大模型值得關(guān)注?

1、通常來(lái)講,模型規(guī)模的擴(kuò)展會(huì)導(dǎo)致訓(xùn)練成本顯著增加,計(jì)算資源的限制成為了大規(guī)模密集模型訓(xùn)練的瓶頸。為了解決這個(gè)問題,基于稀疏 MoE 層的深度學(xué)習(xí)模型架構(gòu)被提出。

2、稀疏混合專家模型(MoE)是一種特殊的神經(jīng)網(wǎng)絡(luò)架構(gòu),可以在不增加推理成本的情況下,為大型語(yǔ)言模型(LLM)增加可學(xué)習(xí)的參數(shù),而指令調(diào)優(yōu)(instruction tuning)則是一種訓(xùn)練 LLM 遵循指令的技術(shù)。

3、MoE+指令微調(diào)技術(shù)的結(jié)合,可大幅度提升語(yǔ)言模型的性能。2023 年 7 月,谷歌、UC 伯克利和 MIT 等機(jī)構(gòu)的研究者發(fā)表了論文《Mixture-of-Experts Meets Instruction Tuning: A Winning Combination for Large Language Models》,證明了混合專家模型(MoE)與指令調(diào)優(yōu)的結(jié)合能夠讓大型語(yǔ)言模型(LLM)的性能大幅提升。

① 具體來(lái)說(shuō),研究者在一組經(jīng)過指令微調(diào)的稀疏混合專家模型 FLAN-MOE 中,使用稀疏激活 MoE,并用 MoE 層替換 Transformer 層的前饋組件,以提供更優(yōu)的模型容量與計(jì)算靈活性;其次,在 FLAN 集合數(shù)據(jù)集的基礎(chǔ)上對(duì) FLAN-MOE 進(jìn)行微調(diào)。

② 研究者基于上述方法研究在沒有指令調(diào)優(yōu)的情況下在單個(gè)下游任務(wù)進(jìn)行直接微調(diào),在指令調(diào)優(yōu)后對(duì)下游任務(wù)進(jìn)行 in-context 少樣本或零樣本泛化,以及在指令調(diào)優(yōu)后對(duì)單個(gè)下游任務(wù)進(jìn)行進(jìn)一步微調(diào)等三種實(shí)驗(yàn)設(shè)置下 LLM 的性能區(qū)別。

③ 實(shí)驗(yàn)結(jié)果表明,如果不使用指令調(diào)優(yōu),MoE 模型的性能通常不如與之計(jì)算能能力相當(dāng)?shù)拿芗P?。但?dāng)結(jié)合指令調(diào)優(yōu)時(shí),情況發(fā)生了變化。指令調(diào)優(yōu)后的 MoE 模型(Flan-MoE)在多個(gè)任務(wù)上的表現(xiàn)超越了更大的密集模型,即使 MoE 模型的計(jì)算成本只是密集模型的三分之一。與密集模型相比。MoE 模型從指令調(diào)優(yōu)中獲得的性能提升更為顯著,因此當(dāng)考慮計(jì)算效率與性能時(shí),MoE 將成為大型語(yǔ)言模型訓(xùn)練的有力工具。

4、此次,發(fā)布的 Mixtral 8x7B 模型同樣采用了稀疏混合專家網(wǎng)絡(luò)。

① Mixtral 8x7B 是一個(gè) decoder-only 的模型。前饋模塊從 8 組不同的參數(shù)中進(jìn)行選擇。在每一層網(wǎng)絡(luò)中,對(duì)于每個(gè) token,路由器網(wǎng)絡(luò)選擇 8 組中的兩組(專家),來(lái)處理 token 并將其輸出累加組合。

② Mixtral 8x7B 模型在大多數(shù)基準(zhǔn)測(cè)試中均匹配或優(yōu)于 Llama 2 70B 以及 GPT3.5,推理速度快了 6 倍。

MoE 的重要優(yōu)勢(shì):稀疏性是什么?

1、在傳統(tǒng)的密集模型中,對(duì)于每一個(gè)輸入都需要在完整的模型中進(jìn)行計(jì)算。在稀疏混合專家模型中,處理輸入數(shù)據(jù)時(shí)只有少數(shù)專家模型被激活成者使用,而大部分專家模型處于未被激活狀態(tài),這種狀態(tài)便是「稀疏「。而稀疏性是混合專家模型的重要優(yōu)點(diǎn),也是提升模型訓(xùn)練和推理過程的效率的關(guān)鍵。

PRO | 為什么基于 MoE 的大模型更值得關(guān)注?

以上是PRO | 為什么基于 MoE 的大模型更值得關(guān)注?的詳細(xì)內(nèi)容。更多信息請(qǐng)關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本站聲明
本文內(nèi)容由網(wǎng)友自發(fā)貢獻(xiàn),版權(quán)歸原作者所有,本站不承擔(dān)相應(yīng)法律責(zé)任。如您發(fā)現(xiàn)有涉嫌抄襲侵權(quán)的內(nèi)容,請(qǐng)聯(lián)系admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費(fèi)脫衣服圖片

Undresser.AI Undress

Undresser.AI Undress

人工智能驅(qū)動(dòng)的應(yīng)用程序,用于創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用于從照片中去除衣服的在線人工智能工具。

Clothoff.io

Clothoff.io

AI脫衣機(jī)

Video Face Swap

Video Face Swap

使用我們完全免費(fèi)的人工智能換臉工具輕松在任何視頻中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費(fèi)的代碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

功能強(qiáng)大的PHP集成開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網(wǎng)頁(yè)開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級(jí)代碼編輯軟件(SublimeText3)

全球最強(qiáng)開源 MoE 模型來(lái)了,中文能力比肩 GPT-4,價(jià)格僅為 GPT-4-Turbo 的近百分之一 全球最強(qiáng)開源 MoE 模型來(lái)了,中文能力比肩 GPT-4,價(jià)格僅為 GPT-4-Turbo 的近百分之一 May 07, 2024 pm 04:13 PM

想象一下,一個(gè)人工智能模型,不僅擁有超越傳統(tǒng)計(jì)算的能力,還能以更低的成本實(shí)現(xiàn)更高效的性能。這不是科幻,DeepSeek-V2[1],全球最強(qiáng)開源MoE模型來(lái)了。DeepSeek-V2是一個(gè)強(qiáng)大的專家混合(MoE)語(yǔ)言模型,具有訓(xùn)練經(jīng)濟(jì)、推理高效的特點(diǎn)。它由236B個(gè)參數(shù)組成,其中21B個(gè)參數(shù)用于激活每個(gè)標(biāo)記。與DeepSeek67B相比,DeepSeek-V2性能更強(qiáng),同時(shí)節(jié)省了42.5%的訓(xùn)練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。DeepSeek是一家探索通用人工智

突破傳統(tǒng)缺陷檢測(cè)的界限,\'Defect Spectrum\'首次實(shí)現(xiàn)超高精度豐富語(yǔ)義的工業(yè)缺陷檢測(cè)。 突破傳統(tǒng)缺陷檢測(cè)的界限,\'Defect Spectrum\'首次實(shí)現(xiàn)超高精度豐富語(yǔ)義的工業(yè)缺陷檢測(cè)。 Jul 26, 2024 pm 05:38 PM

在現(xiàn)代制造業(yè)中,精準(zhǔn)的缺陷檢測(cè)不僅是保證產(chǎn)品質(zhì)量的關(guān)鍵,更是提升生產(chǎn)效率的核心。然而,現(xiàn)有的缺陷檢測(cè)數(shù)據(jù)集常常缺乏實(shí)際應(yīng)用所需的精確度和語(yǔ)義豐富性,導(dǎo)致模型無(wú)法識(shí)別具體的缺陷類別或位置。為了解決這一難題,由香港科技大學(xué)廣州和思謀科技組成的頂尖研究團(tuán)隊(duì),創(chuàng)新性地開發(fā)出了“DefectSpectrum”數(shù)據(jù)集,為工業(yè)缺陷提供了詳盡、語(yǔ)義豐富的大規(guī)模標(biāo)注。如表一所示,相比其他工業(yè)數(shù)據(jù)集,“DefectSpectrum”數(shù)據(jù)集提供了最多的缺陷標(biāo)注(5438張缺陷樣本),最細(xì)致的缺陷分類(125種缺陷類別

英偉達(dá)對(duì)話模型ChatQA進(jìn)化到2.0版本,上下文長(zhǎng)度提到128K 英偉達(dá)對(duì)話模型ChatQA進(jìn)化到2.0版本,上下文長(zhǎng)度提到128K Jul 26, 2024 am 08:40 AM

開放LLM社區(qū)正是百花齊放、競(jìng)相爭(zhēng)鳴的時(shí)代,你能看到Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1等許多表現(xiàn)優(yōu)良的模型。但是,相比于以GPT-4-Turbo為代表的專有大模型,開放模型在很多領(lǐng)域依然還有明顯差距。在通用模型之外,也有一些專精關(guān)鍵領(lǐng)域的開放模型已被開發(fā)出來(lái),比如用于編程和數(shù)學(xué)的DeepSeek-Coder-V2、用于視覺-語(yǔ)言任務(wù)的InternVL

數(shù)百萬(wàn)晶體數(shù)據(jù)訓(xùn)練,解決晶體學(xué)相位問題,深度學(xué)習(xí)方法PhAI登Science 數(shù)百萬(wàn)晶體數(shù)據(jù)訓(xùn)練,解決晶體學(xué)相位問題,深度學(xué)習(xí)方法PhAI登Science Aug 08, 2024 pm 09:22 PM

編輯|KX時(shí)至今日,晶體學(xué)所測(cè)定的結(jié)構(gòu)細(xì)節(jié)和精度,從簡(jiǎn)單的金屬到大型膜蛋白,是任何其他方法都無(wú)法比擬的。然而,最大的挑戰(zhàn)——所謂的相位問題,仍然是從實(shí)驗(yàn)確定的振幅中檢索相位信息。丹麥哥本哈根大學(xué)研究人員,開發(fā)了一種解決晶體相問題的深度學(xué)習(xí)方法PhAI,利用數(shù)百萬(wàn)人工晶體結(jié)構(gòu)及其相應(yīng)的合成衍射數(shù)據(jù)訓(xùn)練的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),可以生成準(zhǔn)確的電子密度圖。研究表明,這種基于深度學(xué)習(xí)的從頭算結(jié)構(gòu)解決方案方法,可以以僅2埃的分辨率解決相位問題,該分辨率僅相當(dāng)于原子分辨率可用數(shù)據(jù)的10%到20%,而傳統(tǒng)的從頭算方

谷歌AI拿下IMO奧數(shù)銀牌,數(shù)學(xué)推理模型AlphaProof面世,強(qiáng)化學(xué)習(xí) is so back 谷歌AI拿下IMO奧數(shù)銀牌,數(shù)學(xué)推理模型AlphaProof面世,強(qiáng)化學(xué)習(xí) is so back Jul 26, 2024 pm 02:40 PM

對(duì)于AI來(lái)說(shuō),奧數(shù)不再是問題了。本周四,谷歌DeepMind的人工智能完成了一項(xiàng)壯舉:用AI做出了今年國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽IMO的真題,并且距拿金牌僅一步之遙。上周剛剛結(jié)束的IMO競(jìng)賽共有六道賽題,涉及代數(shù)、組合學(xué)、幾何和數(shù)論。谷歌提出的混合AI系統(tǒng)做對(duì)了四道,獲得28分,達(dá)到了銀牌水平。本月初,UCLA終身教授陶哲軒剛剛宣傳了百萬(wàn)美元獎(jiǎng)金的AI數(shù)學(xué)奧林匹克競(jìng)賽(AIMO進(jìn)步獎(jiǎng)),沒想到7月還沒過,AI的做題水平就進(jìn)步到了這種水平。IMO上同步做題,做對(duì)了最難題IMO是歷史最悠久、規(guī)模最大、最負(fù)

為大模型提供全新科學(xué)復(fù)雜問答基準(zhǔn)與測(cè)評(píng)體系,UNSW、阿貢、芝加哥大學(xué)等多家機(jī)構(gòu)聯(lián)合推出SciQAG框架 為大模型提供全新科學(xué)復(fù)雜問答基準(zhǔn)與測(cè)評(píng)體系,UNSW、阿貢、芝加哥大學(xué)等多家機(jī)構(gòu)聯(lián)合推出SciQAG框架 Jul 25, 2024 am 06:42 AM

編輯|ScienceAI問答(QA)數(shù)據(jù)集在推動(dòng)自然語(yǔ)言處理(NLP)研究發(fā)揮著至關(guān)重要的作用。高質(zhì)量QA數(shù)據(jù)集不僅可以用于微調(diào)模型,也可以有效評(píng)估大語(yǔ)言模型(LLM)的能力,尤其是針對(duì)科學(xué)知識(shí)的理解和推理能力。盡管當(dāng)前已有許多科學(xué)QA數(shù)據(jù)集,涵蓋了醫(yī)學(xué)、化學(xué)、生物等領(lǐng)域,但這些數(shù)據(jù)集仍存在一些不足。其一,數(shù)據(jù)形式較為單一,大多數(shù)為多項(xiàng)選擇題(multiple-choicequestions),它們易于進(jìn)行評(píng)估,但限制了模型的答案選擇范圍,無(wú)法充分測(cè)試模型的科學(xué)問題解答能力。相比之下,開放式問答

PRO | 為什么基于 MoE 的大模型更值得關(guān)注? PRO | 為什么基于 MoE 的大模型更值得關(guān)注? Aug 07, 2024 pm 07:08 PM

2023年,幾乎AI的每個(gè)領(lǐng)域都在以前所未有的速度進(jìn)化,同時(shí),AI也在不斷地推動(dòng)著具身智能、自動(dòng)駕駛等關(guān)鍵賽道的技術(shù)邊界。多模態(tài)趨勢(shì)下,Transformer作為AI大模型主流架構(gòu)的局面是否會(huì)撼動(dòng)?為何探索基于MoE(專家混合)架構(gòu)的大模型成為業(yè)內(nèi)新趨勢(shì)?大型視覺模型(LVM)能否成為通用視覺的新突破?...我們從過去的半年發(fā)布的2023年本站PRO會(huì)員通訊中,挑選了10份針對(duì)以上領(lǐng)域技術(shù)趨勢(shì)、產(chǎn)業(yè)變革進(jìn)行深入剖析的專題解讀,助您在新的一年里為大展宏圖做好準(zhǔn)備。本篇解讀來(lái)自2023年Week50

準(zhǔn)確率達(dá)60.8%,浙大基于Transformer的化學(xué)逆合成預(yù)測(cè)模型,登Nature子刊 準(zhǔn)確率達(dá)60.8%,浙大基于Transformer的化學(xué)逆合成預(yù)測(cè)模型,登Nature子刊 Aug 06, 2024 pm 07:34 PM

編輯|KX逆合成是藥物發(fā)現(xiàn)和有機(jī)合成中的一項(xiàng)關(guān)鍵任務(wù),AI越來(lái)越多地用于加快這一過程?,F(xiàn)有AI方法性能不盡人意,多樣性有限。在實(shí)踐中,化學(xué)反應(yīng)通常會(huì)引起局部分子變化,反應(yīng)物和產(chǎn)物之間存在很大重疊。受此啟發(fā),浙江大學(xué)侯廷軍團(tuán)隊(duì)提出將單步逆合成預(yù)測(cè)重新定義為分子串編輯任務(wù),迭代細(xì)化目標(biāo)分子串以生成前體化合物。并提出了基于編輯的逆合成模型EditRetro,該模型可以實(shí)現(xiàn)高質(zhì)量和多樣化的預(yù)測(cè)。大量實(shí)驗(yàn)表明,模型在標(biāo)準(zhǔn)基準(zhǔn)數(shù)據(jù)集USPTO-50?K上取得了出色的性能,top-1準(zhǔn)確率達(dá)到60.8%。

See all articles