亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

ホームページ テクノロジー周辺機(jī)器 AI PRO | なぜ MoE に基づく大規(guī)模モデルがより注目に値するのでしょうか?

PRO | なぜ MoE に基づく大規(guī)模モデルがより注目に値するのでしょうか?

Aug 07, 2024 pm 07:08 PM
理論 moe マシンハートプロ

Im Jahr 2023 entwickeln sich fast alle Bereiche der KI in beispielloser Geschwindigkeit weiter. Gleichzeitig verschiebt die KI st?ndig die technologischen Grenzen wichtiger Bereiche wie der verk?rperten Intelligenz und des autonomen Fahrens. Wird Transformer angesichts des multimodalen Trends als Mainstream-Architektur für gro?e KI-Modelle ins Wanken geraten? Warum ist die Erforschung gro?er Modelle auf Basis der MoE-Architektur (Mixture of Experts) zu einem neuen Trend in der Branche geworden? Kann das Large Vision Model (LVM) ein neuer Durchbruch im allgemeinen Sehverm?gen werden? ...Aus dem PRO-Mitglieder-Newsletter 2023 dieser Website, der in den letzten sechs Monaten ver?ffentlicht wurde, haben wir 10 spezielle Interpretationen ausgew?hlt, die eine detaillierte Analyse der technologischen Trends und industriellen Ver?nderungen in den oben genannten Bereichen bieten, um Ihnen dabei zu helfen, Ihre Ziele in der Zukunft zu erreichen Jahr vorbereitet sein. Diese Interpretation stammt aus dem Branchennewsletter Week50 2023.

PRO | 為什么基于 MoE 的大模型更值得關(guān)注?

Spezielle Interpretation Warum verdienen gro?e Modelle, die auf MoE basieren, mehr Aufmerksamkeit?

Datum: 12. Dezember

Ereignis: Mistral AI hat das Modell Mixtral 8x7B auf Basis der MoE-Architektur (Mixture-of-Experts, Mix of Experts) als Open Source bereitgestellt und seine Leistung erreichte das Niveau von Llama 2 70B und GPT-3.5" Die Veranstaltung fand statt. Erweiterte Interpretation.

Erkl?ren Sie zun?chst, was MoE ist und welche Vor- und Nachteile es hat

1 Konzept:

MoE (Mixture of Experts) ist ein Hybridmodell, das aus mehreren Untermodellen (d. h. Experten) besteht. Jedes Untermodell ist ein lokales Modell, das auf die Verarbeitung einer Teilmenge des Eingaberaums spezialisiert ist. Die Kernidee von MoE besteht darin, mithilfe eines Gating-Netzwerks zu entscheiden, welches Modell anhand der einzelnen Daten trainiert werden soll, wodurch die Interferenz zwischen verschiedenen Modellen verringert wird Arten von Proben.

2. Hauptkomponenten:

Mixed Expert Model Technology (MoE) ist eine Deep-Learning-Technologie, die aus Expertenmodellen und Gated-Modellen besteht und die Verteilung von Aufgaben/Trainingsdaten auf verschiedene Experten realisiert Modelle über das Gated-Netzwerk, sodass sich jedes Modell auf die Aufgaben konzentrieren kann, die es am besten beherrscht, wodurch die Sparsit?t des Modells erreicht wird.

① Beim Training des Gated-Netzwerks wird jede Stichprobe einem oder mehreren Experten zugewiesen.
② Bei der Schulung des Expertennetzwerks wird jeder Experte geschult, um die Fehler der ihm zugewiesenen Proben zu minimieren.

Der ?Vorg?nger“ von MoE ist Ensemble Learning. Beim Ensemble-Lernen werden mehrere Modelle (Basislerner) trainiert, um dasselbe Problem zu l?sen, und ihre Vorhersagen einfach kombiniert (z. B. durch Abstimmung oder Mittelung). Das Hauptziel des Ensemble-Lernens besteht darin, die Vorhersageleistung durch Reduzierung der überanpassung und Verbesserung der Generalisierungsf?higkeiten zu verbessern. Zu den g?ngigen Ensemble-Lernmethoden geh?ren Bagging, Boosting und Stacking.

4. Historische Quelle des MoE:

① Die Wurzeln des MoE lassen sich auf das Papier ?Adaptive Mixture of Local Experts“ aus dem Jahr 1991 zurückführen. Die Idee ?hnelt Ensemble-Ans?tzen, da sie darauf abzielt, einen überwachungsprozess für ein System bereitzustellen, das aus verschiedenen Teilnetzwerken besteht, wobei jedes einzelne Netzwerk oder jeder einzelne Experte auf einen anderen Bereich des Eingaberaums spezialisiert ist. Das Gewicht jedes Experten wird über ein geschlossenes Netzwerk bestimmt. W?hrend des Schulungsprozesses werden sowohl Experten als auch Gatekeeper geschult.

② Zwischen 2010 und 2015 trugen zwei verschiedene Forschungsbereiche zur Weiterentwicklung von MoE bei:

Einer sind Experten als Komponenten: In einem traditionellen MoE-Aufbau besteht das gesamte System aus einem geschlossenen Netzwerk und mehreren Experten. MoEs als ganze Modelle wurden in Support-Vektor-Maschinen, Gau?schen Prozessen und anderen Methoden untersucht. Die Arbeit ?Learning Factored Representations in a Deep Mixture of Experts“ untersucht die M?glichkeit von MoEs als Komponenten tieferer Netzwerke. Dadurch kann das Modell gleichzeitig gro? und effizient sein.

Das andere ist die bedingte Berechnung: Herk?mmliche Netzwerke verarbeiten alle Eingabedaten über jede Ebene. W?hrend dieser Zeit untersuchte Yoshua Bengio M?glichkeiten, Komponenten basierend auf Eingabe-Tokens dynamisch zu aktivieren oder zu deaktivieren.

③ Infolgedessen begannen die Menschen, Expertenmischungsmodelle im Kontext der Verarbeitung natürlicher Sprache zu erforschen. In dem Artikel ?Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer“ wurde es durch die Einführung von Sparsity auf ein 137B LSTM erweitert, wodurch schnelles Denken in gro?em Ma?stab erreicht wurde.

Warum verdienen MoE-basierte gro?e Modelle Aufmerksamkeit?

1. Im Allgemeinen wird die Erweiterung des Modellma?stabs zu einem erheblichen Anstieg der Trainingskosten führen, und die Begrenzung der Rechenressourcen ist zu einem Engpass für das intensive Modelltraining in gro?em Ma?stab geworden. Um dieses Problem zu l?sen, wird eine Deep-Learning-Modellarchitektur vorgeschlagen, die auf dünn besetzten MoE-Schichten basiert.

2. Das Sparse Mixed Expert Model (MoE) ist eine spezielle neuronale Netzwerkarchitektur, die lernbare Parameter zu gro?en Sprachmodellen (LLM) hinzufügen kann, ohne die Inferenzkosten zu erh?hen, w?hrend Instruction Tuning eine Technik zum Trainieren von LLM ist, um Anweisungen zu befolgen .

3. Die Kombination der MoE+-Anweisungs-Feinabstimmungstechnologie kann die Leistung von Sprachmodellen erheblich verbessern. Im Juli 2023 ver?ffentlichten Forscher von Google, der UC Berkeley, dem MIT und anderen Institutionen das Papier ?Mixture-of-Experts Meets Instruction Tuning: A Winning Combination for Large Language Models“, das bewies, dass das hybride Expertenmodell (MoE) und die Instruction Tuning Die Kombination kann die Leistung gro?er Sprachmodelle (LLM) erheblich verbessern.

① 具體的には、研究者らは、命令によって微調(diào)整された一連のスパース ハイブリッド エキスパート モデル FLAN-MOE でスパース アクティベーション MoE を使用し、Transformer レイヤーのフィードフォワード コンポーネントを MoE レイヤーに置き換えて、より優(yōu)れたモデル容量とコンピューティングの柔軟性を提供しました。 . パフォーマンス; 次に、FLAN 集合データセットに基づいて FLAN-MOE を微調(diào)整します。

② 上記の方法に基づいて、研究者らは、命令チューニングを行わない単一の下流タスクに対する直接微調(diào)整、命令チューニング後の下流タスクに対するコンテキスト內(nèi)の少數(shù)ショットまたはゼロショット一般化、および命令チューニングを研究しました。単一の下流タスクをさらに微調(diào)整し、3 つの実験設(shè)定の下で LLM のパフォーマンスの違いを比較します。

③ 実験結(jié)果は、命令チューニングを使用しない場(chǎng)合、MoE モデルは同等の計(jì)算能力を持つ高密度モデルよりもパフォーマンスが劣ることが多いことを示しています。しかし、ディレクティブチューニングと組み合わせると狀況は変わります。命令調(diào)整された MoE モデル (Flan-MoE) は、MoE モデルの計(jì)算コストが密モデルの 3 分の 1 しかないにもかかわらず、複數(shù)のタスクで大規(guī)模な密モデルよりも優(yōu)れたパフォーマンスを発揮します。高密度モデルとの比較。 MoE モデルは命令チューニングにより大幅なパフォーマンス向上が得られるため、コンピューティングの効率とパフォーマンスを考慮すると、MoE は大規(guī)模な言語(yǔ)モデルのトレーニング用の強(qiáng)力なツールになります。

4. 今回リリースされたMixtral 8x7Bモデルもスパース混合エキスパートネットワークを使用しています。

① Mixtral 8x7Bはデコーダー専用モデルです。フィードフォワード モジュールは、8 つの異なるパラメータ セットから選択します。ネットワークの各層で、トークンごとに、ルーター ネットワークは 8 つのグループ (エキスパート) のうち 2 つを選択して、トークンを処理し、その出力を集約します。

② Mixtral 8x7B モデルは、ほとんどのベンチマークで Llama 2 70B および GPT3.5 と同等またはそれを上回り、推論速度が 6 倍高速です。

MoE の重要な利點(diǎn): スパース性とは何ですか?

1. 従來(lái)の高密度モデルでは、各入力を完全なモデルで計(jì)算する必要があります。スパース混合エキスパート モデルでは、入力データを処理するときに少數(shù)のエキスパート モデルのみがアクティブ化されて使用されますが、ほとんどのエキスパート モデルは非アクティブな狀態(tài)にあり、スパース性は混合エキスパートの重要な側(cè)面です。モデルの利點(diǎn)は、モデルのトレーニングと推論プロセスの効率を向上させる鍵でもあります

PRO | 為什么基于 MoE 的大模型更值得關(guān)注?

以上がPRO | なぜ MoE に基づく大規(guī)模モデルがより注目に値するのでしょうか?の詳細(xì)內(nèi)容です。詳細(xì)については、PHP 中國(guó)語(yǔ) Web サイトの他の関連記事を參照してください。

このウェブサイトの聲明
この記事の內(nèi)容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰屬します。このサイトは、それに相當(dāng)する法的責(zé)任を負(fù)いません。盜作または侵害の疑いのあるコンテンツを見(jiàn)つけた場(chǎng)合は、admin@php.cn までご連絡(luò)ください。

ホットAIツール

Undress AI Tool

Undress AI Tool

脫衣畫(huà)像を無(wú)料で

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード寫(xiě)真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

寫(xiě)真から衣服を削除するオンライン AI ツール。

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無(wú)料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡(jiǎn)単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無(wú)料のコードエディター

SublimeText3 中國(guó)語(yǔ)版

SublimeText3 中國(guó)語(yǔ)版

中國(guó)語(yǔ)版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強(qiáng)力な PHP 統(tǒng)合開(kāi)発環(huán)境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開(kāi)発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

世界で最も強(qiáng)力なオープンソース MoE モデルが登場(chǎng)。GPT-4 に匹敵する中國(guó)語(yǔ)機(jī)能を備え、価格は GPT-4-Turbo のわずか 1% 近くです 世界で最も強(qiáng)力なオープンソース MoE モデルが登場(chǎng)。GPT-4 に匹敵する中國(guó)語(yǔ)機(jī)能を備え、価格は GPT-4-Turbo のわずか 1% 近くです May 07, 2024 pm 04:13 PM

従來(lái)のコンピューティングを超える能力を備えているだけでなく、より低コストでより効率的なパフォーマンスを?qū)g現(xiàn)する人工知能モデルを想像してみてください。これは SF ではありません。世界で最も強(qiáng)力なオープンソース MoE モデルである DeepSeek-V2[1] が登場(chǎng)しました。 DeepSeek-V2 は、経済的なトレーニングと効率的な推論の特徴を備えた強(qiáng)力な専門家混合 (MoE) 言語(yǔ)モデルです。これは 236B のパラメータで構(gòu)成されており、そのうち 21B は各マーカーをアクティブにするために使用されます。 DeepSeek67B と比較して、DeepSeek-V2 はパフォーマンスが優(yōu)れていると同時(shí)に、トレーニング コストを 42.5% 節(jié)約し、KV キャッシュを 93.3% 削減し、最大生成スループットを 5.76 倍に高めます。 DeepSeek は一般的な人工知能を研究する會(huì)社です

「Defect Spectrum」は、従來(lái)の欠陥検出の限界を打ち破り、超高精度かつ豊富なセマンティックな産業(yè)用欠陥検出を初めて実現(xiàn)します。 「Defect Spectrum」は、従來(lái)の欠陥検出の限界を打ち破り、超高精度かつ豊富なセマンティックな産業(yè)用欠陥検出を初めて実現(xiàn)します。 Jul 26, 2024 pm 05:38 PM

現(xiàn)代の製造において、正確な欠陥検出は製品の品??質(zhì)を確保するための鍵であるだけでなく、生産効率を向上させるための核心でもあります。ただし、既存の欠陥検出データセットには、実際のアプリケーションに必要な精度や意味論的な豊富さが欠けていることが多く、その結(jié)果、モデルが特定の欠陥カテゴリや位置を識(shí)別できなくなります。この問(wèn)題を解決するために、広州香港科技大學(xué)と Simou Technology で構(gòu)成されるトップの研究チームは、産業(yè)欠陥に関する詳細(xì)かつ意味的に豊富な大規(guī)模なアノテーションを提供する「DefectSpectrum」データセットを革新的に開(kāi)発しました。表 1 に示すように、他の産業(yè)データ セットと比較して、「DefectSpectrum」データ セットは最も多くの欠陥注釈 (5438 個(gè)の欠陥サンプル) と最も詳細(xì)な欠陥分類 (125 個(gè)の欠陥カテゴリ) を提供します。

NVIDIA 対話モデル ChatQA はバージョン 2.0 に進(jìn)化し、コンテキストの長(zhǎng)さは 128K と記載されています NVIDIA 対話モデル ChatQA はバージョン 2.0 に進(jìn)化し、コンテキストの長(zhǎng)さは 128K と記載されています Jul 26, 2024 am 08:40 AM

オープンな LLM コミュニティは百花繚亂の時(shí)代です Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1 などがご覧いただけます。優(yōu)秀なパフォーマーモデル。しかし、GPT-4-Turboに代表される獨(dú)自の大型モデルと比較すると、オープンモデルには依然として多くの分野で大きなギャップがあります。一般的なモデルに加えて、プログラミングと數(shù)學(xué)用の DeepSeek-Coder-V2 や視覚言語(yǔ)タスク用の InternVL など、主要な領(lǐng)域に特化したいくつかのオープン モデルが開(kāi)発されています。

結(jié)晶相問(wèn)題を解決するための數(shù)百萬(wàn)の結(jié)晶データを使用したトレーニング、深層學(xué)習(xí)手法 PhAI が Science 誌に掲載 結(jié)晶相問(wèn)題を解決するための數(shù)百萬(wàn)の結(jié)晶データを使用したトレーニング、深層學(xué)習(xí)手法 PhAI が Science 誌に掲載 Aug 08, 2024 pm 09:22 PM

編集者 |KX 今日に至るまで、単純な金屬から大きな膜タンパク質(zhì)に至るまで、結(jié)晶學(xué)によって決定される構(gòu)造の詳細(xì)と精度は、他のどの方法にも匹敵しません。しかし、最大の課題、いわゆる位相問(wèn)題は、実験的に決定された振幅から位相情報(bào)を取得することのままです。デンマークのコペンハーゲン大學(xué)の研究者らは、結(jié)晶相の問(wèn)題を解決するための PhAI と呼ばれる深層學(xué)習(xí)手法を開(kāi)発しました。數(shù)百萬(wàn)の人工結(jié)晶構(gòu)造とそれに対応する合成回折データを使用して訓(xùn)練された深層學(xué)習(xí)ニューラル ネットワークは、正確な電子密度マップを生成できます。この研究では、この深層學(xué)習(xí)ベースの非経験的構(gòu)造解法は、従來(lái)の非経験的計(jì)算法とは異なり、わずか 2 オングストロームの解像度で位相問(wèn)題を解決できることが示されています。これは、原子解像度で利用可能なデータのわずか 10% ~ 20% に相當(dāng)します。

Google AI が IMO 數(shù)學(xué)オリンピック銀メダルを獲得、數(shù)理推論モデル AlphaProof が発売、強(qiáng)化學(xué)習(xí)が復(fù)活 Google AI が IMO 數(shù)學(xué)オリンピック銀メダルを獲得、數(shù)理推論モデル AlphaProof が発売、強(qiáng)化學(xué)習(xí)が復(fù)活 Jul 26, 2024 pm 02:40 PM

AI にとって、數(shù)學(xué)オリンピックはもはや問(wèn)題ではありません。木曜日、Google DeepMind の人工知能は、AI を使用して今年の國(guó)際數(shù)學(xué)オリンピック IMO の本當(dāng)の問(wèn)題を解決するという偉業(yè)を達(dá)成し、金メダル獲得まであと一歩のところまで迫りました。先週終了したばかりの IMO コンテストでは、代數(shù)、組合せ論、幾何學(xué)、數(shù)論を含む 6 つの問(wèn)題が出題されました。 Googleが提案したハイブリッドAIシステムは4問(wèn)正解で28點(diǎn)を獲得し、銀メダルレベルに達(dá)した。今月初め、UCLA 終身教授のテレンス?タオ氏が、100 萬(wàn)ドルの賞金をかけて AI 數(shù)學(xué)オリンピック (AIMO Progress Award) を宣伝したばかりだったが、予想外なことに、AI の問(wèn)題解決のレベルは 7 月以前にこのレベルまで向上していた。 IMO に関する質(zhì)問(wèn)を同時(shí)に行うのが最も難しいのは、最も歴史が長(zhǎng)く、規(guī)模が最も大きく、最も否定的な IMO です。

新しい科學(xué)的で複雑な質(zhì)問(wèn)応答ベンチマークと大規(guī)模モデルの評(píng)価システムを提供するために、UNSW、アルゴンヌ、シカゴ大學(xué)、およびその他の機(jī)関が共同で SciQAG フレームワークを立ち上げました。 新しい科學(xué)的で複雑な質(zhì)問(wèn)応答ベンチマークと大規(guī)模モデルの評(píng)価システムを提供するために、UNSW、アルゴンヌ、シカゴ大學(xué)、およびその他の機(jī)関が共同で SciQAG フレームワークを立ち上げました。 Jul 25, 2024 am 06:42 AM

編集者 |ScienceAI 質(zhì)問(wèn)応答 (QA) データセットは、自然言語(yǔ)処理 (NLP) 研究を促進(jìn)する上で重要な役割を果たします。高品質(zhì)の QA データ セットは、モデルの微調(diào)整に使用できるだけでなく、大規(guī)模言語(yǔ)モデル (LLM) の機(jī)能、特に科學(xué)的知識(shí)を理解し推論する能力を効果的に評(píng)価することもできます?,F(xiàn)在、醫(yī)學(xué)、化學(xué)、生物學(xué)、その他の分野をカバーする多くの科學(xué) QA データ セットがありますが、これらのデータ セットにはまだいくつかの欠點(diǎn)があります。まず、データ形式は比較的単純で、そのほとんどが多肢選択式の質(zhì)問(wèn)であり、評(píng)価は簡(jiǎn)単ですが、モデルの回答選択範(fàn)囲が制限され、科學(xué)的な質(zhì)問(wèn)に回答するモデルの能力を完全にテストすることはできません。対照的に、自由回答型の Q&A

PRO | なぜ MoE に基づく大規(guī)模モデルがより注目に値するのでしょうか? PRO | なぜ MoE に基づく大規(guī)模モデルがより注目に値するのでしょうか? Aug 07, 2024 pm 07:08 PM

2023 年には、AI のほぼすべての分野が前例のない速度で進(jìn)化しています。同時(shí)に、AI は身體化されたインテリジェンスや自動(dòng)運(yùn)転などの主要な分野の技術(shù)的限界を押し広げています。マルチモーダルの流れのもと、AI大型モデルの主流アーキテクチャとしてのTransformerの狀況は揺るがされるだろうか? MoE (専門家混合) アーキテクチャに基づく大規(guī)模モデルの検討が業(yè)界の新しいトレンドになっているのはなぜですか?ラージ ビジョン モデル (LVM) は、一般的な視覚における新たなブレークスルーとなる可能性がありますか? ...過(guò)去 6 か月間にリリースされたこのサイトの 2023 PRO メンバー ニュースレターから、上記の分野の技術(shù)トレンドと業(yè)界の変化を詳細(xì)に分析し、新しい分野での目標(biāo)を達(dá)成するのに役立つ 10 の特別な解釈を選択しました。準(zhǔn)備してください。この解釈は 2023 年の Week50 からのものです

Transformer に基づく浙江大學(xué)の化學(xué)逆合成予測(cè)モデルは、Nature サブジャーナルで 60.8% に達(dá)しました。 Transformer に基づく浙江大學(xué)の化學(xué)逆合成予測(cè)モデルは、Nature サブジャーナルで 60.8% に達(dá)しました。 Aug 06, 2024 pm 07:34 PM

編集者 | KX 逆合成は創(chuàng)薬や有機(jī)合成において重要なタスクであり、そのプロセスを高速化するために AI の使用が増えています。既存の AI 手法はパフォーマンスが不十分で、多様性が限られています。実際には、化學(xué)反応は多くの場(chǎng)合、反応物と生成物の間にかなりの重複を伴??う局所的な分子変化を引き起こします。これに觸発されて、浙江大學(xué)のHou Tingjun氏のチームは、単一ステップの逆合成予測(cè)を分子列編集タスクとして再定義し、標(biāo)的分子列を反復(fù)的に改良して前駆體化合物を生成することを提案した。そして、高品質(zhì)かつ多様な予測(cè)を?qū)g現(xiàn)できる編集ベースの逆合成モデルEditRetroを提案する。広範(fàn)な実験により、このモデルが標(biāo)準(zhǔn)ベンチマーク データ セット USPTO-50 K で優(yōu)れたパフォーマンスを達(dá)成し、トップ 1 の精度が 60.8% であることが示されました。

See all articles