亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

首頁 科技週邊 人工智慧 PRO | 為什麼基於 MoE 的大模型更值得關注?

PRO | 為什麼基於 MoE 的大模型更值得關注?

Aug 07, 2024 pm 07:08 PM
理論 moe 機器之心Pro

2023年,幾乎 AI 的每個領域都在以前所未有的速度進化,同時,AI也在不斷地推動著具身智慧、自動駕駛等關鍵賽道的技術邊界。在多模態(tài)趨勢下,Transformer 作為 AI 大模型主流架構(gòu)的局面是否會撼動?為何探索基於 MoE (專家混合)架構(gòu)的大模型成為業(yè)界新趨勢?大型視覺模型 (LVM)能否成為通用視覺的新突破? ……我們從過去的半年發(fā)布的2023年本站PRO會員通訊中,挑選了10 份針對以上領域技術趨勢、產(chǎn)業(yè)變革進行深入剖析的專題解讀,助您在新的一年裡為大展宏圖做好準備。這篇解讀來自2023年 Week50 業(yè)內(nèi)通訊??

PRO | 為什么基于 MoE 的大模型更值得關注?

專題解讀?為什麼基於 MoE 的大模型更值得關注?

日期:12 月12 日

事件:Mistral AI 開源了基於MoE(Mixture-of-Experts,專家混合)架構(gòu)的模型Mixtral 8x7B,其效能達到Llama 2 70B 和GPT -3.5 的水平"的事件進行延展解讀。

首先,弄清楚MoE 是什麼及其來龍去脈

1、概念:

MoEEEEEEEE (Mixture of Experts)是一種混合模型,由多個子模型(即專家)組成,每個子模型都是局部模型,專門處理輸入空間的子集。決定每個資料應該被哪個模型去訓練,從而減輕不同類型樣本之間的干擾。門控模型組成稀疏門控制的深度學習技術。 ??>

① 在門控網(wǎng)路的訓練中,每個樣本都會被分配到一個或多個專家中;

② 在專家網(wǎng)路的訓練中,每個專家都會被訓練以最小化其分配給它的樣本的誤差。整合學習是透過訓練練多個模型(基學習器)未解決相同問題,並且將它們的預測結(jié)果簡單組合(例如投票或平均)。整合學習的主要目標是透過減少過度擬合,提高泛化能力,以提高預測效能。常見的整合學習方法包括 Bagging,Boosting 和 Stacking。

4、MoE 歷史來源:

① MoE 的根源可以追溯到 1991 年的論文《 Adaptive Mixture of Local Experts》。這個想法與整合方法類似,目的是為由不同子網(wǎng)路組成的系統(tǒng)提供一種監(jiān)督過程,每個單獨的網(wǎng)路或?qū)<叶紝iT處理輸入空間的不同區(qū)域。透過門控網(wǎng)路確定每個專家的權(quán)重。在訓練過程中,專家和門控都會被訓練。

② 在2010 年至2015 年期間,兩個不同的研究領域?qū)oE 的進一步發(fā)展做出了貢獻:

一是專家作為組件:在傳統(tǒng)的MoE 設定中,整個系統(tǒng)包括一個門控網(wǎng)路和多個專家。 MoEs 作為整個模型已經(jīng)在支援向量機、高斯過程和其他方法中進行了探索。 《Learning Factored Representations in a Deep Mixture of Experts》工作探討了 MoEs 作為更深層網(wǎng)路元件的可能性。這使得模型可以同時變得龐大和高效。

另一個是條件計算:傳統(tǒng)的網(wǎng)路透過每一層處理所有輸入資料。在這個時期,Yoshua Bengio 研究了根據(jù)輸入 token 動態(tài)啟動或停用元件的方法。

③ 由此,人們開始在自然語言處理的脈絡下探索專家混合模型。在論文《Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer》中透過引入稀疏性,將其擴展到了一個 137B LSTM,從而實現(xiàn)了高規(guī)模下的快速推理。

為什麼基於 MoE 的大模型值得關注?

1、通常來講,模型規(guī)模的擴展會導致訓練成本顯著增加,計算資源的限製成為了大規(guī)模密集模型訓練的瓶頸。為了解決這個問題,基於稀疏 MoE 層的深度學習模型架構(gòu)被提出。

2、稀疏混合專家模型(MoE)是一種特殊的神經(jīng)網(wǎng)路架構(gòu),可以在不增加推理成本的情況下,為大型語言模型(LLM)增加可學習的參數(shù),而指令調(diào)優(yōu)(instruction tuning)則是一種訓練LLM 遵循指令的技術。

3、MoE+指令微調(diào)技術的結(jié)合,可大幅提升語言模型的效能。 2023 年7 月,Google、UC 柏克萊和MIT 等機構(gòu)的研究者發(fā)表了論文《Mixture-of-Experts Meets Instruction Tuning: A Winning Combination for Large Language Models》,證明了混合專家模型(MoE)與指令調(diào)優(yōu)的結(jié)合能夠讓大型語言模型(LLM)的效能大幅提升。

① 具體來說,研究者在一組經(jīng)過指令微調(diào)的稀疏混合專家模型FLAN-MOE 中,使用稀疏激活MoE,並用MoE 層替換Transformer 層的前饋組件,以提供更優(yōu)的模型容量與運算彈性;其次,在FLAN 集合資料集的基礎上對FLAN-MOE 進行微調(diào)。

② 研究者基於上述方法研究在沒有指令調(diào)優(yōu)的情況下在單一下游任務進行直接微調(diào),在指令調(diào)優(yōu)後對下游任務進行in-context 少樣本或零樣本泛化,以及在指令調(diào)優(yōu)後對單一下游任務進行進一步微調(diào)等三種實驗設定下LLM 的效能差異。

③ 實驗結(jié)果表明,如果不使用指令調(diào)優(yōu),MoE 模型的性能通常不如與之計算能能力相當?shù)拿芗P?。但當結(jié)合指令調(diào)優(yōu)時,情況發(fā)生了變化。指令調(diào)優(yōu)後的 MoE 模型(Flan-MoE)在多個任務上的表現(xiàn)超越了更大的密集模型,即使 MoE 模型的計算成本只是密集模型的三分之一。與密集模型相比。 MoE 模型從指令調(diào)優(yōu)所獲得的效能提升更為顯著,因此當考慮計算效率與效能時,MoE 將成為大型語言模型訓練的有力工具。

4、此次,發(fā)布的 Mixtral 8x7B 模型同樣採用了稀疏混合專家網(wǎng)路。

① Mixtral 8x7B 是 decoder-only 的模型。前饋模組從 8 組不同的參數(shù)中進行選擇。在每一層網(wǎng)路中,對於每個 token,路由器網(wǎng)路選擇 8 組中的兩組(專家),來處理 token 並將其輸出累積組合。

② Mixtral 8x7B 模型在大多數(shù)基準測試中均匹配或優(yōu)於 Llama 2 70B 以及 GPT3.5,推理速度快了 6 倍。

MoE 的重要優(yōu)勢:稀疏性是什麼?

1、在傳統(tǒng)的密集模型中,對於每一個輸入都需要在完整的模型中進行計算。在稀疏混合專家模型中,處理輸入資料時只有少數(shù)專家模型被激活成者使用,而大部分專家模型處於未被激活狀態(tài),這種狀態(tài)便是「稀疏」。而稀疏性是混合專家模型的重要優(yōu)點,也是提升模型訓練和推理過程的效率的關鍵。

以上是PRO | 為什麼基於 MoE 的大模型更值得關注?的詳細內(nèi)容。更多資訊請關注PHP中文網(wǎng)其他相關文章!

本網(wǎng)站聲明
本文內(nèi)容由網(wǎng)友自願投稿,版權(quán)歸原作者所有。本站不承擔相應的法律責任。如發(fā)現(xiàn)涉嫌抄襲或侵權(quán)的內(nèi)容,請聯(lián)絡admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅(qū)動的應用程序,用於創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網(wǎng)頁開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

全球最強開源 MoE 模型來了,中文能力比肩 GPT-4,價格僅 GPT-4-Turbo 的近百分之一 全球最強開源 MoE 模型來了,中文能力比肩 GPT-4,價格僅 GPT-4-Turbo 的近百分之一 May 07, 2024 pm 04:13 PM

想像一下,一個人工智慧模型,不僅擁有超越傳統(tǒng)運算的能力,還能以更低的成本實現(xiàn)更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經(jīng)濟、推理高效的特點。它由236B個參數(shù)組成,其中21B個參數(shù)用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節(jié)省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

突破傳統(tǒng)缺陷檢測的界限,\'Defect Spectrum\'首次實現(xiàn)超高精度豐富語意的工業(yè)缺陷檢測。 突破傳統(tǒng)缺陷檢測的界限,\'Defect Spectrum\'首次實現(xiàn)超高精度豐富語意的工業(yè)缺陷檢測。 Jul 26, 2024 pm 05:38 PM

在現(xiàn)代製造業(yè)中,精準的缺陷檢測不僅是確保產(chǎn)品品質(zhì)的關鍵,更是提升生產(chǎn)效率的核心。然而,現(xiàn)有的缺陷檢測資料集常常缺乏實際應用所需的精確度和語意豐富性,導致模型無法辨識特定的缺陷類別或位置。為了解決這個難題,由香港科技大學廣州和思謀科技組成的頂尖研究團隊,創(chuàng)新地開發(fā)了「DefectSpectrum」資料集,為工業(yè)缺陷提供了詳盡、語義豐富的大規(guī)模標註。如表一所示,相較於其他工業(yè)資料集,「DefectSpectrum」資料集提供了最多的缺陷標註(5438張缺陷樣本),最細緻的缺陷分類(125個缺陷類別

英偉達對話模式ChatQA進化到2.0版本,上下文長度提到128K 英偉達對話模式ChatQA進化到2.0版本,上下文長度提到128K Jul 26, 2024 am 08:40 AM

開放LLM社群正是百花齊放、競相爭鳴的時代,你能看到Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1等許多表現(xiàn)優(yōu)良的模型。但是,相較於以GPT-4-Turbo為代表的專有大模型,開放模型在許多領域仍有明顯差距。在通用模型之外,也有一些專精關鍵領域的開放模型已被開發(fā)出來,例如用於程式設計和數(shù)學的DeepSeek-Coder-V2、用於視覺-語言任務的InternVL

數(shù)百萬晶體資料訓練,解決晶體學相位問題,深度學習方法PhAI登Science 數(shù)百萬晶體資料訓練,解決晶體學相位問題,深度學習方法PhAI登Science Aug 08, 2024 pm 09:22 PM

編輯|KX時至今日,晶體學所測定的結(jié)構(gòu)細節(jié)和精度,從簡單的金屬到大型膜蛋白,是任何其他方法都無法比擬的。然而,最大的挑戰(zhàn)——所謂的相位問題,仍然是從實驗確定的振幅中檢索相位資訊。丹麥哥本哈根大學研究人員,開發(fā)了一種解決晶體相問題的深度學習方法PhAI,利用數(shù)百萬人工晶體結(jié)構(gòu)及其相應的合成衍射數(shù)據(jù)訓練的深度學習神經(jīng)網(wǎng)絡,可以產(chǎn)生準確的電子密度圖。研究表明,這種基於深度學習的從頭算結(jié)構(gòu)解決方案方法,可以以僅2埃的分辨率解決相位問題,該分辨率僅相當於原子分辨率可用數(shù)據(jù)的10%到20%,而傳統(tǒng)的從頭算方

GoogleAI拿下IMO奧數(shù)銀牌,數(shù)學推理模型AlphaProof面世,強化學習 is so back GoogleAI拿下IMO奧數(shù)銀牌,數(shù)學推理模型AlphaProof面世,強化學習 is so back Jul 26, 2024 pm 02:40 PM

對AI來說,奧數(shù)不再是問題了。本週四,GoogleDeepMind的人工智慧完成了一項壯舉:用AI做出了今年國際數(shù)學奧林匹克競賽IMO的真題,並且距拿金牌僅一步之遙。上週剛結(jié)束的IMO競賽共有六道賽題,涉及代數(shù)、組合學、幾何和數(shù)論。谷歌提出的混合AI系統(tǒng)做對了四道,獲得28分,達到了銀牌水準。本月初,UCLA終身教授陶哲軒剛剛宣傳了百萬美元獎金的AI數(shù)學奧林匹克競賽(AIMO進步獎),沒想到7月還沒過,AI的做題水平就進步到了這種水平。 IMO上同步做題,做對了最難題IMO是歷史最悠久、規(guī)模最大、最負

為大模型提供全新科學複雜問答基準與評估體系,UNSW、阿貢、芝加哥大學等多家機構(gòu)共同推出SciQAG框架 為大模型提供全新科學複雜問答基準與評估體系,UNSW、阿貢、芝加哥大學等多家機構(gòu)共同推出SciQAG框架 Jul 25, 2024 am 06:42 AM

編輯|ScienceAI問答(QA)資料集在推動自然語言處理(NLP)研究中發(fā)揮著至關重要的作用。高品質(zhì)QA資料集不僅可以用於微調(diào)模型,也可以有效評估大語言模型(LLM)的能力,尤其是針對科學知識的理解和推理能力。儘管目前已有許多科學QA數(shù)據(jù)集,涵蓋了醫(yī)學、化學、生物等領域,但這些數(shù)據(jù)集仍有一些不足之處。其一,資料形式較為單一,大多數(shù)為多項選擇題(multiple-choicequestions),它們易於進行評估,但限制了模型的答案選擇範圍,無法充分測試模型的科學問題解答能力。相比之下,開放式問答

PRO | 為什麼基於 MoE 的大模型更值得關注? PRO | 為什麼基於 MoE 的大模型更值得關注? Aug 07, 2024 pm 07:08 PM

2023年,幾乎AI的每個領域都在以前所未有的速度進化,同時,AI也不斷地推動著具身智慧、自動駕駛等關鍵賽道的技術邊界。在多模態(tài)趨勢下,Transformer作為AI大模型主流架構(gòu)的局面是否會撼動?為何探索基於MoE(專家混合)架構(gòu)的大模型成為業(yè)界新趨勢?大型視覺模型(LVM)能否成為通用視覺的新突破? ……我們從過去的半年發(fā)布的2023年本站PRO會員通訊中,挑選了10份針對以上領域技術趨勢、產(chǎn)業(yè)變革進行深入剖析的專題解讀,助您在新的一年裡為大展宏圖做好準備。本篇解讀來自2023年Week50

準確率達60.8%,浙大基於Transformer的化學逆合成預測模型,登Nature子刊 準確率達60.8%,浙大基於Transformer的化學逆合成預測模型,登Nature子刊 Aug 06, 2024 pm 07:34 PM

編輯|KX逆合成是藥物發(fā)現(xiàn)和有機合成中的關鍵任務,AI越來越多地用於加快這一過程?,F(xiàn)有AI方法性能不盡人意,多樣性有限。在實踐中,化學反應通常會引起局部分子變化,反應物和產(chǎn)物之間存在很大重疊。受此啟發(fā),浙江大學侯廷軍團隊提出將單步逆合成預測重新定義為分子串編輯任務,迭代細化目標分子串以產(chǎn)生前驅(qū)化合物。並提出了基於編輯的逆合成模型EditRetro,該模型可以實現(xiàn)高品質(zhì)和多樣化的預測。大量實驗表明,模型在標準基準資料集USPTO-50?K上取得了出色的性能,top-1準確率達到60.8%。

See all articles