欧美日韩国产成人在线观看,国产成人精品综合在线观看 ,精品人妻av一区二区三区

首頁

科技週邊

人工智慧

此「錯」並非真的錯：從四篇經(jīng)典論文入手，理解Transformer架構(gòu)圖「錯」在何處

王林

Jun 14, 2023 pm 01:43 PM

架構(gòu) ai

前段時間，一則指出Google大腦團(tuán)隊論文《Attention Is All You Need》中 Transformer 架構(gòu)圖與程式碼不一致的推文引發(fā)了大量的討論。

對於 Sebastian 的這項發(fā)現(xiàn)，有人認(rèn)為屬於無心之過，但同時也會令人感到奇怪。畢竟，考慮到 Transformer 論文的流行程度，這個不一致問題早就應(yīng)該被提及 1000 次。

Sebastian Raschka 在回答網(wǎng)友評論時說，「最最原始」的程式碼確實(shí)與架構(gòu)圖一致，但2017 年提交的程式碼版本進(jìn)行了修改，但同時沒有更新架構(gòu)圖。這也是造成「不一致」討論的根本原因。

隨後，Sebastian 在 Ahead of AI 發(fā)布文章專門講述了為什麼最初的 Transformer 架構(gòu)圖與程式碼不一致，並引用了多篇論文簡要說明了 Transformer 的發(fā)展變化。

此「錯」並非真的錯：從四篇經(jīng)典論文入手，理解Transformer架構(gòu)圖「錯」在何處

以下為文章原文，讓我們一起看看文章到底講述了什麼：

幾個月前，我分享了《Understanding Large Language Models: A Cross-Section of the Most Relevant Literature To Get Up to Speed》，正面的回饋非常鼓舞人心！因此，我添加了一些論文，以保持清單的新鮮感和相關(guān)性。

同時，保持清單簡潔扼要是至關(guān)重要的，這樣大家就可以用合理的時間就跟上進(jìn)度。還有一些論文，資訊量很大，想來也應(yīng)該包括在內(nèi)。

我想分享四篇有用的論文，從歷史的角度來理解 Transformer。雖然我只是直接將它們添加到理解大型語言模型的文章中，但我也在這篇文章中單獨(dú)來分享它們，以便那些之前已經(jīng)閱讀過理解大型語言模型的人更容易找到它們。

On Layer Normalization in the Transformer Architecture (2020)

雖然下圖（左）的Transformer 原始圖（https://arxiv.org/abs/1706.03762）是對原始編碼器- 解碼器架構(gòu)的有用總結(jié)，但該圖有一個小小的差異。例如，它在殘差區(qū)塊之間進(jìn)行了層歸一化，這與原始 Transformer 論文附帶的官方 (更新後的）程式碼實(shí)作不符。下圖（中）所示的變體稱為 Post-LN Transformer。

Transformer 架構(gòu)論文中的層歸一化表明，Pre-LN 工作得更好，可以解決梯度問題，如下所示。許多體系架構(gòu)在實(shí)踐中採用了這種方法，但它可能導(dǎo)致表徵的崩潰。

因此，雖然仍然有關(guān)於使用Post-LN 或前Pre-LN 的討論，也有一篇新論文提出了將兩個一起應(yīng)用：《 ResiDual: Transformer with Dual Residual Connections》（https://arxiv.org/abs/2304.14802），但它在實(shí)踐中是否有用還有待觀察。

此「錯」並非真的錯：從四篇經(jīng)典論文入手，理解Transformer架構(gòu)圖「錯」在何處

#圖示：圖源https://arxiv.org/abs/1706.03762 (左& 中) and https://arxiv.org/abs/2002.04745 (右）?

##Learning to Control Fast-Weight Memories: An Alternative to Dynamic Recurrent Neural Networks (1991)

這篇文章推薦給那些對歷史花絮和早期方法感興趣的人，這些方法基本上類似於現(xiàn)代Transformer。

例如，在比Transformer 論文早25 年的1991 年，Juergen Schmidhuber 提出了一種遞歸神經(jīng)網(wǎng)路的替代方案（https://www.semanticscholar.org/paper/Learning-to-Control- Fast-Weight-Memories:-An-to-Schmidhuber/bc22e87a26d020215afe91c751e5bdaddd8e4922），稱為Fast Weight Programmers (FWP)。另一個實(shí)現(xiàn)快速權(quán)值變化的神經(jīng)網(wǎng)路是透過使用梯度下降演算法緩慢學(xué)習(xí)的 FWP 方法中所涉及的前饋神經(jīng)網(wǎng)路。

這篇部落格(https://people.idsia.ch//~juergen/fast-weight-programmer-1991-transformer.html#sec2) 將其與現(xiàn)代Transformer 進(jìn)行類比，如下所示:

在今天的Transformer 術(shù)語中，F(xiàn)ROM 和TO 分別稱為鍵(key) 和值(value)。應(yīng)用快速網(wǎng)路的輸入稱為查詢。本質(zhì)上，查詢由快速權(quán)重矩陣 (fast weight matrix) 處理，它是鍵和值的外積總和 (忽略歸一化和投影)。我們可以使用加法外積或二階張量積來實(shí)現(xiàn)端對端可微的主動控制權(quán)值快速變化，因為兩個網(wǎng)路的所有操作都支援微分。在序列處理期間，梯度下降可以用於快速調(diào)整快速網(wǎng)絡(luò)，從而應(yīng)對慢速網(wǎng)絡(luò)的問題。這在數(shù)學(xué)上等同於 (除了歸一化之外) 後來被稱為具有線性化自註意的 Transformer (或線性 Transformer)。

如上文摘錄所提到的，這種方法現(xiàn)在被稱為線性 Transformer 或具有線性化自註意的 Transformer。它們來自於2020 年出現(xiàn)在arXiv 上的論文《Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention 》（https://arxiv.org/abs/2006.16236）以及《Rethinking Attention with Performers》（https://arxiv. org/abs/2009.14794）。

2021 年，論文《Linear Transformers Are Secretly Fast Weight Programmers》（https://arxiv.org/abs/2102.11174）明確表明了線性化自註意力和20 世紀(jì)90年代的快速權(quán)重編程器之間的等價性。

此「錯」並非真的錯：從四篇經(jīng)典論文入手，理解Transformer架構(gòu)圖「錯」在何處

#圖表來源：https://people.idsia.ch// ~juergen/fast-weight-programmer-1991-transformer.html#sec2

##Universal Language Model Fine-tuning for Text Classification (2018)

這是另一篇從歷史角度來看非常有趣的論文。它是在原版《Attention Is All You Need》發(fā)布一年後寫的，並沒有涉及 transformer，而是專注於循環(huán)神經(jīng)網(wǎng)絡(luò)，但它仍然值得關(guān)注。因為它有效地提出了預(yù)訓(xùn)練語言模型和遷移學(xué)習(xí)的下游任務(wù)。雖然遷移學(xué)習(xí)已經(jīng)在電腦視覺中確立，但在自然語言處理 (NLP) 領(lǐng)域還沒有普及。 ULMFit（https://arxiv.org/abs/1801.06146）是第一批表明預(yù)訓(xùn)練語言模型在特定任務(wù)上微調(diào)後，可以在許多 NLP 任務(wù)中產(chǎn)生 SOTA 結(jié)果的論文之一。

ULMFit 建議的語言模型微調(diào)過程分為三個階段:

1. 在大量的文字語料庫上訓(xùn)練語言模型;
2. 根據(jù)任務(wù)特定的資料對預(yù)訓(xùn)練的語言模型進(jìn)行微調(diào)，使其能夠適應(yīng)文本的特定風(fēng)格和詞??；
3. 微調(diào)特定任務(wù)資料上的分類器，透過逐步解凍各層來避免災(zāi)難性遺忘。

在大型語料庫上訓(xùn)練語言模型，然後在下游任務(wù)上對其進(jìn)行微調(diào)的這種方法，是基於Transformer 的模型和基礎(chǔ)模型(如BERT、GPT -2/3/4、RoBERTa 等) 所使用的核心方法。

然而，作為 ULMFiT 的關(guān)鍵部分，逐步解凍通常在實(shí)踐中不進(jìn)行，因為 Transformer 架構(gòu)通常一次對所有層進(jìn)行微調(diào)。

此「錯」並非真的錯：從四篇經(jīng)典論文入手，理解Transformer架構(gòu)圖「錯」在何處 #

Gopher 是一篇特別好的論文（https://arxiv.org/abs/2112.11446），包括大量的分析來理解 LLM 訓(xùn)練。研究人員在 3000 億個 token 上訓(xùn)練了一個 80 層的 2800 億個參數(shù)模型。其中包括一些有趣的架構(gòu)修改，例如使用 RMSNorm (均方根歸一化) 而不是 LayerNorm (層歸一化)。 LayerNorm 和 RMSNorm 都優(yōu)於 BatchNorm，因為它們不局限於批次大小，也不需要同步，這在批次大小較小的分散式設(shè)定中是一個優(yōu)勢。 RMSNorm 通常被認(rèn)為在更深的體系架構(gòu)中會穩(wěn)定訓(xùn)練。

除了上述這些有趣的花絮之外，本文的主要重點(diǎn)是分析不同規(guī)模下的任務(wù)效能分析。對 152 個不同任務(wù)的評估顯示，增加模型大小對理解、事實(shí)查核和識別有毒語言等任務(wù)最有利，而架構(gòu)擴(kuò)展對與邏輯和數(shù)學(xué)推理相關(guān)的任務(wù)從益處不大。

此「錯」並非真的錯：從四篇經(jīng)典論文入手，理解Transformer架構(gòu)圖「錯」在何處

圖註：圖源 https://arxiv.org/abs/2112.11446

以上是此「錯」並非真的錯：從四篇經(jīng)典論文入手，理解Transformer架構(gòu)圖「錯」在何處的詳細(xì)內(nèi)容。更多資訊請關(guān)注PHP中文網(wǎng)其他相關(guān)文章！

本網(wǎng)站聲明

本文內(nèi)容由網(wǎng)友自願投稿，版權(quán)歸原作者所有。本站不承擔(dān)相應(yīng)的法律責(zé)任。如發(fā)現(xiàn)涉嫌抄襲或侵權(quán)的內(nèi)容，請聯(lián)絡(luò)admin@php.cn

熱AI工具

Undress AI Tool

免費(fèi)脫衣圖片

Undresser.AI Undress

人工智慧驅(qū)動的應(yīng)用程序，用於創(chuàng)建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io

AI脫衣器

Video Face Swap

使用我們完全免費(fèi)的人工智慧換臉工具，輕鬆在任何影片中換臉！

熱工具

記事本++7.3.1

好用且免費(fèi)的程式碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

強(qiáng)大的PHP整合開發(fā)環(huán)境

Dreamweaver CS6

視覺化網(wǎng)頁開發(fā)工具

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Laravel 教程

1597

PHP教程

1488

Related knowledge

如何用PHP搭建社交分享功能 PHP分享接口集成實(shí)戰(zhàn) Jul 25, 2025 pm 08:51 PM

在PHP中搭建社交分享功能的核心方法是通過動態(tài)生成符合各平臺要求的分享鏈接。 1.首先獲取當(dāng)前頁面或指定的URL及文章信息；2.使用urlencode對參數(shù)進(jìn)行編碼；3.根據(jù)各平臺協(xié)議拼接生成分享鏈接；4.在前端展示鏈接供用戶點(diǎn)擊分享；5.動態(tài)生成頁面OG標(biāo)籤優(yōu)化分享內(nèi)容展示；6.務(wù)必對用戶輸入進(jìn)行轉(zhuǎn)義以防止XSS攻擊。該方法無需複雜認(rèn)證，維護(hù)成本低，適用於大多數(shù)內(nèi)容分享需求。

PHP調(diào)用AI智能語音助手 PHP語音交互系統(tǒng)搭建 Jul 25, 2025 pm 08:45 PM

用戶語音輸入通過前端JavaScript的MediaRecorderAPI捕獲並發(fā)送至PHP後端；2.PHP將音頻保存為臨時文件後調(diào)用STTAPI（如Google或百度語音識別）轉(zhuǎn)換為文本；3.PHP將文本發(fā)送至AI服務(wù)（如OpenAIGPT）獲取智能回復(fù)；4.PHP再調(diào)用TTSAPI（如百度或Google語音合成）將回復(fù)轉(zhuǎn)為語音文件；5.PHP將語音文件流式返回前端播放，完成交互。整個流程由PHP主導(dǎo)數(shù)據(jù)流轉(zhuǎn)與錯誤處理，確保各環(huán)節(jié)無縫銜接。

如何用PHP結(jié)合AI實(shí)現(xiàn)文本糾錯 PHP語法檢測與優(yōu)化 Jul 25, 2025 pm 08:57 PM

要實(shí)現(xiàn)PHP結(jié)合AI進(jìn)行文本糾錯與語法優(yōu)化，需按以下步驟操作：1.選擇適合的AI模型或API，如百度、騰訊API或開源NLP庫；2.通過PHP的curl或Guzzle調(diào)用API並處理返回結(jié)果；3.在應(yīng)用中展示糾錯信息並允許用戶選擇是否採納；4.使用php-l和PHP_CodeSniffer進(jìn)行語法檢測與代碼優(yōu)化；5.持續(xù)收集反饋並更新模型或規(guī)則以提升效果。選擇AIAPI時應(yīng)重點(diǎn)評估準(zhǔn)確率、響應(yīng)速度、價格及對PHP的支持。代碼優(yōu)化應(yīng)遵循PSR規(guī)範(fàn)、合理使用緩存、避免循環(huán)查詢、定期審查代碼，並藉助X

如何用PHP結(jié)合AI做圖像生成 PHP自動生成藝術(shù)作品 Jul 25, 2025 pm 07:21 PM

PHP不直接進(jìn)行AI圖像處理，而是通過API集成，因為它擅長Web開發(fā)而非計算密集型任務(wù)，API集成能實(shí)現(xiàn)專業(yè)分工、降低成本、提升效率；2.整合關(guān)鍵技術(shù)包括使用Guzzle或cURL發(fā)送HTTP請求、JSON數(shù)據(jù)編解碼、API密鑰安全認(rèn)證、異步隊列處理耗時任務(wù)、健壯錯誤處理與重試機(jī)制、圖像存儲與展示；3.常見挑戰(zhàn)有API成本失控、生成結(jié)果不可控、用戶體驗差、安全風(fēng)險和數(shù)據(jù)管理難，應(yīng)對策略分別為設(shè)置用戶配額與緩存、提供prompt指導(dǎo)與多圖選擇、異步通知與進(jìn)度提示、密鑰環(huán)境變量存儲與內(nèi)容審核、雲(yún)存

PHP實(shí)現(xiàn)商品庫存管理變現(xiàn) PHP庫存同步與報警機(jī)制 Jul 25, 2025 pm 08:30 PM

PHP通過數(shù)據(jù)庫事務(wù)與FORUPDATE行鎖確保庫存扣減原子性，防止高並發(fā)超賣；2.多平臺庫存一致性需依賴中心化管理與事件驅(qū)動同步，結(jié)合API/Webhook通知及消息隊列保障數(shù)據(jù)可靠傳遞；3.報警機(jī)制應(yīng)分場景設(shè)置低庫存、零/負(fù)庫存、滯銷、補(bǔ)貨週期和異常波動策略，並按緊急程度選擇釘釘、短信或郵件通知責(zé)任人，且報警信息需完整明確，以實(shí)現(xiàn)業(yè)務(wù)適配與快速響應(yīng)。

PHP集成AI語音識別與轉(zhuǎn)寫 PHP會議記錄自動生成方案 Jul 25, 2025 pm 07:06 PM

選擇合適AI語音識別服務(wù)並集成PHPSDK；2.用PHP調(diào)用ffmpeg將錄音轉(zhuǎn)為API要求格式（如wav）；3.上傳文件至雲(yún)存儲並調(diào)用API異步識別；4.解析JSON結(jié)果並用NLP技術(shù)整理文本；5.生成Word或Markdown文檔完成會議記錄自動化，全過程需確保數(shù)據(jù)加密、訪問控制與合規(guī)性以保障隱私安全。

如何用PHP搭建在線客服機(jī)器人 PHP智能客服實(shí)現(xiàn)技術(shù) Jul 25, 2025 pm 06:57 PM

PHP在智能客服中扮演連接器和大腦中樞角色，負(fù)責(zé)串聯(lián)前端輸入、數(shù)據(jù)庫存儲與外部AI服務(wù)；2.實(shí)現(xiàn)時需構(gòu)建多層架構(gòu)：前端接收用戶消息，PHP後端預(yù)處理並路由請求，先匹配本地知識庫，未命中則調(diào)用外部AI服務(wù)如OpenAI或Dialogflow獲取智能回復(fù)；3.會話管理由PHP寫入MySQL等數(shù)據(jù)庫，保障上下文連續(xù)性；4.集成AI服務(wù)需用Guzzle發(fā)送HTTP請求，安全存儲APIKey，做好錯誤處理與響應(yīng)解析；5.數(shù)據(jù)庫設(shè)計需包含會話、消息、知識庫、用戶表，合理建索引、保障安全與性能，支撐機(jī)器人記憶

如何用PHP調(diào)用AI寫作輔助工具 PHP提升內(nèi)容產(chǎn)出效率 Jul 25, 2025 pm 08:18 PM

選擇AI寫作API需考察穩(wěn)定性、價格、功能匹配度及是否有免費(fèi)試用；2.PHP用Guzzle發(fā)送POST請求並用json_decode處理返回的JSON數(shù)據(jù)，注意捕獲異常和錯誤碼；3.將AI內(nèi)容融入項目需建立審核機(jī)制並支持個性化定制；4.優(yōu)化性能可採用緩存、異步隊列和限流技術(shù)，避免高並發(fā)下瓶頸。

See all articles

亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

此「錯」並非真的錯：從四篇經(jīng)典論文入手，理解Transformer架構(gòu)圖「錯」在何處