亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

首頁 科技週邊 人工智慧 此「錯」並非真的錯:從四篇經(jīng)典論文入手,理解Transformer架構(gòu)圖「錯」在何處

此「錯」並非真的錯:從四篇經(jīng)典論文入手,理解Transformer架構(gòu)圖「錯」在何處

Jun 14, 2023 pm 01:43 PM
架構(gòu) ai

前段時間,一則指出Google大腦團(tuán)隊論文《Attention Is All You Need》中 Transformer 架構(gòu)圖與程式碼不一致的推文引發(fā)了大量的討論。

對於 Sebastian 的這項發(fā)現(xiàn),有人認(rèn)為屬於無心之過,但同時也會令人感到奇怪。畢竟,考慮到 Transformer 論文的流行程度,這個不一致問題早就應(yīng)該被提及 1000 次。

Sebastian Raschka 在回答網(wǎng)友評論時說,「最最原始」的程式碼確實(shí)與架構(gòu)圖一致,但2017 年提交的程式碼版本進(jìn)行了修改,但同時沒有更新架構(gòu)圖。這也是造成「不一致」討論的根本原因。

隨後,Sebastian 在 Ahead of AI 發(fā)布文章專門講述了為什麼最初的 Transformer 架構(gòu)圖與程式碼不一致,並引用了多篇論文簡要說明了 Transformer 的發(fā)展變化。

此「錯」並非真的錯:從四篇經(jīng)典論文入手,理解Transformer架構(gòu)圖「錯」在何處

以下為文章原文,讓我們一起看看文章到底講述了什麼:

幾個月前,我分享了《Understanding Large Language Models: A Cross-Section of the Most Relevant Literature To Get Up to Speed》,正面的回饋非常鼓舞人心!因此,我添加了一些論文,以保持清單的新鮮感和相關(guān)性。

同時,保持清單簡潔扼要是至關(guān)重要的,這樣大家就可以用合理的時間就跟上進(jìn)度。還有一些論文,資訊量很大,想來也應(yīng)該包括在內(nèi)。

我想分享四篇有用的論文,從歷史的角度來理解 Transformer。雖然我只是直接將它們添加到理解大型語言模型的文章中,但我也在這篇文章中單獨(dú)來分享它們,以便那些之前已經(jīng)閱讀過理解大型語言模型的人更容易找到它們。

On Layer Normalization in the Transformer Architecture (2020)

雖然下圖(左)的Transformer 原始圖(https://arxiv.org/abs/1706.03762)是對原始編碼器- 解碼器架構(gòu)的有用總結(jié),但該圖有一個小小的差異。例如,它在殘差區(qū)塊之間進(jìn)行了層歸一化,這與原始 Transformer 論文附帶的官方 (更新後的) 程式碼實(shí)作不符。下圖(中)所示的變體稱為 Post-LN Transformer。

Transformer 架構(gòu)論文中的層歸一化表明,Pre-LN 工作得更好,可以解決梯度問題,如下所示。許多體系架構(gòu)在實(shí)踐中採用了這種方法,但它可能導(dǎo)致表徵的崩潰。

因此,雖然仍然有關(guān)於使用Post-LN 或前Pre-LN 的討論,也有一篇新論文提出了將兩個一起應(yīng)用:《 ResiDual: Transformer with Dual Residual Connections》(https://arxiv.org/abs/2304.14802),但它在實(shí)踐中是否有用還有待觀察。


此「錯」並非真的錯:從四篇經(jīng)典論文入手,理解Transformer架構(gòu)圖「錯」在何處

#圖示:圖源https://arxiv.org/abs/1706.03762 (左& 中) and https://arxiv.org/abs/2002.04745 (右)?

##Learning to Control Fast-Weight Memories: An Alternative to Dynamic Recurrent Neural Networks (1991)

這篇文章推薦給那些對歷史花絮和早期方法感興趣的人,這些方法基本上類似於現(xiàn)代Transformer。

例如,在比Transformer 論文早25 年的1991 年,Juergen Schmidhuber 提出了一種遞歸神經(jīng)網(wǎng)路的替代方案(https://www.semanticscholar.org/paper/Learning-to-Control- Fast-Weight-Memories:-An-to-Schmidhuber/bc22e87a26d020215afe91c751e5bdaddd8e4922),稱為Fast Weight Programmers (FWP)。另一個實(shí)現(xiàn)快速權(quán)值變化的神經(jīng)網(wǎng)路是透過使用梯度下降演算法緩慢學(xué)習(xí)的 FWP 方法中所涉及的前饋神經(jīng)網(wǎng)路。

這篇部落格(https://people.idsia.ch//~juergen/fast-weight-programmer-1991-transformer.html#sec2) 將其與現(xiàn)代Transformer 進(jìn)行類比,如下所示:

在今天的Transformer 術(shù)語中,F(xiàn)ROM 和TO 分別稱為鍵(key) 和值(value)。應(yīng)用快速網(wǎng)路的輸入稱為查詢。本質(zhì)上,查詢由快速權(quán)重矩陣 (fast weight matrix) 處理,它是鍵和值的外積總和 (忽略歸一化和投影)。我們可以使用加法外積或二階張量積來實(shí)現(xiàn)端對端可微的主動控制權(quán)值快速變化,因為兩個網(wǎng)路的所有操作都支援微分。在序列處理期間,梯度下降可以用於快速調(diào)整快速網(wǎng)絡(luò),從而應(yīng)對慢速網(wǎng)絡(luò)的問題。這在數(shù)學(xué)上等同於 (除了歸一化之外) 後來被稱為具有線性化自註意的 Transformer (或線性 Transformer)。

如上文摘錄所提到的,這種方法現(xiàn)在被稱為線性 Transformer 或具有線性化自註意的 Transformer。它們來自於2020 年出現(xiàn)在arXiv 上的論文《Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention 》(https://arxiv.org/abs/2006.16236)以及《Rethinking Attention with Performers》(https://arxiv. org/abs/2009.14794)。

2021 年,論文《Linear Transformers Are Secretly Fast Weight Programmers》(https://arxiv.org/abs/2102.11174)明確表明了線性化自註意力和20 世紀(jì)90年代的快速權(quán)重編程器之間的等價性。


此「錯」並非真的錯:從四篇經(jīng)典論文入手,理解Transformer架構(gòu)圖「錯」在何處

#圖表來源:https://people.idsia.ch// ~juergen/fast-weight-programmer-1991-transformer.html#sec2

##Universal Language Model Fine-tuning for Text Classification (2018)

這是另一篇從歷史角度來看非常有趣的論文。它是在原版《Attention Is All You Need》發(fā)布一年後寫的,並沒有涉及 transformer,而是專注於循環(huán)神經(jīng)網(wǎng)絡(luò),但它仍然值得關(guān)注。因為它有效地提出了預(yù)訓(xùn)練語言模型和遷移學(xué)習(xí)的下游任務(wù)。雖然遷移學(xué)習(xí)已經(jīng)在電腦視覺中確立,但在自然語言處理 (NLP) 領(lǐng)域還沒有普及。 ULMFit(https://arxiv.org/abs/1801.06146)是第一批表明預(yù)訓(xùn)練語言模型在特定任務(wù)上微調(diào)後,可以在許多 NLP 任務(wù)中產(chǎn)生 SOTA 結(jié)果的論文之一。

ULMFit 建議的語言模型微調(diào)過程分為三個階段:

  • 1. 在大量的文字語料庫上訓(xùn)練語言模型;
  • 2. 根據(jù)任務(wù)特定的資料對預(yù)訓(xùn)練的語言模型進(jìn)行微調(diào),使其能夠適應(yīng)文本的特定風(fēng)格和詞??;
  • 3. 微調(diào)特定任務(wù)資料上的分類器,透過逐步解凍各層來避免災(zāi)難性遺忘。

在大型語料庫上訓(xùn)練語言模型,然後在下游任務(wù)上對其進(jìn)行微調(diào)的這種方法,是基於Transformer 的模型和基礎(chǔ)模型(如BERT、GPT -2/3/4、RoBERTa 等) 所使用的核心方法。

然而,作為 ULMFiT 的關(guān)鍵部分,逐步解凍通常在實(shí)踐中不進(jìn)行,因為 Transformer 架構(gòu)通常一次對所有層進(jìn)行微調(diào)。


此「錯」並非真的錯:從四篇經(jīng)典論文入手,理解Transformer架構(gòu)圖「錯」在何處#

Gopher 是一篇特別好的論文(https://arxiv.org/abs/2112.11446),包括大量的分析來理解 LLM 訓(xùn)練。研究人員在 3000 億個 token 上訓(xùn)練了一個 80 層的 2800 億個參數(shù)模型。其中包括一些有趣的架構(gòu)修改,例如使用 RMSNorm (均方根歸一化) 而不是 LayerNorm (層歸一化)。 LayerNorm 和 RMSNorm 都優(yōu)於 BatchNorm,因為它們不局限於批次大小,也不需要同步,這在批次大小較小的分散式設(shè)定中是一個優(yōu)勢。 RMSNorm 通常被認(rèn)為在更深的體系架構(gòu)中會穩(wěn)定訓(xùn)練。

除了上述這些有趣的花絮之外,本文的主要重點(diǎn)是分析不同規(guī)模下的任務(wù)效能分析。對 152 個不同任務(wù)的評估顯示,增加模型大小對理解、事實(shí)查核和識別有毒語言等任務(wù)最有利,而架構(gòu)擴(kuò)展對與邏輯和數(shù)學(xué)推理相關(guān)的任務(wù)從益處不大。

此「錯」並非真的錯:從四篇經(jīng)典論文入手,理解Transformer架構(gòu)圖「錯」在何處

圖註:圖源 https://arxiv.org/abs/2112.11446

#

以上是此「錯」並非真的錯:從四篇經(jīng)典論文入手,理解Transformer架構(gòu)圖「錯」在何處的詳細(xì)內(nèi)容。更多資訊請關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本網(wǎng)站聲明
本文內(nèi)容由網(wǎng)友自願投稿,版權(quán)歸原作者所有。本站不承擔(dān)相應(yīng)的法律責(zé)任。如發(fā)現(xiàn)涉嫌抄襲或侵權(quán)的內(nèi)容,請聯(lián)絡(luò)admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費(fèi)脫衣圖片

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅(qū)動的應(yīng)用程序,用於創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費(fèi)的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費(fèi)的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強(qiáng)大的PHP整合開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網(wǎng)頁開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Laravel 教程
1597
29
PHP教程
1488
72
如何用PHP搭建社交分享功能 PHP分享接口集成實(shí)戰(zhàn) 如何用PHP搭建社交分享功能 PHP分享接口集成實(shí)戰(zhàn) Jul 25, 2025 pm 08:51 PM

在PHP中搭建社交分享功能的核心方法是通過動態(tài)生成符合各平臺要求的分享鏈接。 1.首先獲取當(dāng)前頁面或指定的URL及文章信息;2.使用urlencode對參數(shù)進(jìn)行編碼;3.根據(jù)各平臺協(xié)議拼接生成分享鏈接;4.在前端展示鏈接供用戶點(diǎn)擊分享;5.動態(tài)生成頁面OG標(biāo)籤優(yōu)化分享內(nèi)容展示;6.務(wù)必對用戶輸入進(jìn)行轉(zhuǎn)義以防止XSS攻擊。該方法無需複雜認(rèn)證,維護(hù)成本低,適用於大多數(shù)內(nèi)容分享需求。

PHP調(diào)用AI智能語音助手 PHP語音交互系統(tǒng)搭建 PHP調(diào)用AI智能語音助手 PHP語音交互系統(tǒng)搭建 Jul 25, 2025 pm 08:45 PM

用戶語音輸入通過前端JavaScript的MediaRecorderAPI捕獲並發(fā)送至PHP後端;2.PHP將音頻保存為臨時文件後調(diào)用STTAPI(如Google或百度語音識別)轉(zhuǎn)換為文本;3.PHP將文本發(fā)送至AI服務(wù)(如OpenAIGPT)獲取智能回復(fù);4.PHP再調(diào)用TTSAPI(如百度或Google語音合成)將回復(fù)轉(zhuǎn)為語音文件;5.PHP將語音文件流式返回前端播放,完成交互。整個流程由PHP主導(dǎo)數(shù)據(jù)流轉(zhuǎn)與錯誤處理,確保各環(huán)節(jié)無縫銜接。

如何用PHP結(jié)合AI實(shí)現(xiàn)文本糾錯 PHP語法檢測與優(yōu)化 如何用PHP結(jié)合AI實(shí)現(xiàn)文本糾錯 PHP語法檢測與優(yōu)化 Jul 25, 2025 pm 08:57 PM

要實(shí)現(xiàn)PHP結(jié)合AI進(jìn)行文本糾錯與語法優(yōu)化,需按以下步驟操作:1.選擇適合的AI模型或API,如百度、騰訊API或開源NLP庫;2.通過PHP的curl或Guzzle調(diào)用API並處理返回結(jié)果;3.在應(yīng)用中展示糾錯信息並允許用戶選擇是否採納;4.使用php-l和PHP_CodeSniffer進(jìn)行語法檢測與代碼優(yōu)化;5.持續(xù)收集反饋並更新模型或規(guī)則以提升效果。選擇AIAPI時應(yīng)重點(diǎn)評估準(zhǔn)確率、響應(yīng)速度、價格及對PHP的支持。代碼優(yōu)化應(yīng)遵循PSR規(guī)範(fàn)、合理使用緩存、避免循環(huán)查詢、定期審查代碼,並藉助X

如何用PHP結(jié)合AI做圖像生成 PHP自動生成藝術(shù)作品 如何用PHP結(jié)合AI做圖像生成 PHP自動生成藝術(shù)作品 Jul 25, 2025 pm 07:21 PM

PHP不直接進(jìn)行AI圖像處理,而是通過API集成,因為它擅長Web開發(fā)而非計算密集型任務(wù),API集成能實(shí)現(xiàn)專業(yè)分工、降低成本、提升效率;2.整合關(guān)鍵技術(shù)包括使用Guzzle或cURL發(fā)送HTTP請求、JSON數(shù)據(jù)編解碼、API密鑰安全認(rèn)證、異步隊列處理耗時任務(wù)、健壯錯誤處理與重試機(jī)制、圖像存儲與展示;3.常見挑戰(zhàn)有API成本失控、生成結(jié)果不可控、用戶體驗差、安全風(fēng)險和數(shù)據(jù)管理難,應(yīng)對策略分別為設(shè)置用戶配額與緩存、提供prompt指導(dǎo)與多圖選擇、異步通知與進(jìn)度提示、密鑰環(huán)境變量存儲與內(nèi)容審核、雲(yún)存

PHP實(shí)現(xiàn)商品庫存管理變現(xiàn) PHP庫存同步與報警機(jī)制 PHP實(shí)現(xiàn)商品庫存管理變現(xiàn) PHP庫存同步與報警機(jī)制 Jul 25, 2025 pm 08:30 PM

PHP通過數(shù)據(jù)庫事務(wù)與FORUPDATE行鎖確保庫存扣減原子性,防止高並發(fā)超賣;2.多平臺庫存一致性需依賴中心化管理與事件驅(qū)動同步,結(jié)合API/Webhook通知及消息隊列保障數(shù)據(jù)可靠傳遞;3.報警機(jī)制應(yīng)分場景設(shè)置低庫存、零/負(fù)庫存、滯銷、補(bǔ)貨週期和異常波動策略,並按緊急程度選擇釘釘、短信或郵件通知責(zé)任人,且報警信息需完整明確,以實(shí)現(xiàn)業(yè)務(wù)適配與快速響應(yīng)。

PHP集成AI語音識別與轉(zhuǎn)寫 PHP會議記錄自動生成方案 PHP集成AI語音識別與轉(zhuǎn)寫 PHP會議記錄自動生成方案 Jul 25, 2025 pm 07:06 PM

選擇合適AI語音識別服務(wù)並集成PHPSDK;2.用PHP調(diào)用ffmpeg將錄音轉(zhuǎn)為API要求格式(如wav);3.上傳文件至雲(yún)存儲並調(diào)用API異步識別;4.解析JSON結(jié)果並用NLP技術(shù)整理文本;5.生成Word或Markdown文檔完成會議記錄自動化,全過程需確保數(shù)據(jù)加密、訪問控制與合規(guī)性以保障隱私安全。

如何用PHP搭建在線客服機(jī)器人 PHP智能客服實(shí)現(xiàn)技術(shù) 如何用PHP搭建在線客服機(jī)器人 PHP智能客服實(shí)現(xiàn)技術(shù) Jul 25, 2025 pm 06:57 PM

PHP在智能客服中扮演連接器和大腦中樞角色,負(fù)責(zé)串聯(lián)前端輸入、數(shù)據(jù)庫存儲與外部AI服務(wù);2.實(shí)現(xiàn)時需構(gòu)建多層架構(gòu):前端接收用戶消息,PHP後端預(yù)處理並路由請求,先匹配本地知識庫,未命中則調(diào)用外部AI服務(wù)如OpenAI或Dialogflow獲取智能回復(fù);3.會話管理由PHP寫入MySQL等數(shù)據(jù)庫,保障上下文連續(xù)性;4.集成AI服務(wù)需用Guzzle發(fā)送HTTP請求,安全存儲APIKey,做好錯誤處理與響應(yīng)解析;5.數(shù)據(jù)庫設(shè)計需包含會話、消息、知識庫、用戶表,合理建索引、保障安全與性能,支撐機(jī)器人記憶

如何用PHP調(diào)用AI寫作輔助工具 PHP提升內(nèi)容產(chǎn)出效率 如何用PHP調(diào)用AI寫作輔助工具 PHP提升內(nèi)容產(chǎn)出效率 Jul 25, 2025 pm 08:18 PM

選擇AI寫作API需考察穩(wěn)定性、價格、功能匹配度及是否有免費(fèi)試用;2.PHP用Guzzle發(fā)送POST請求並用json_decode處理返回的JSON數(shù)據(jù),注意捕獲異常和錯誤碼;3.將AI內(nèi)容融入項目需建立審核機(jī)制並支持個性化定制;4.優(yōu)化性能可採用緩存、異步隊列和限流技術(shù),避免高並發(fā)下瓶頸。

See all articles