前段時間,一則指出Google大腦團(tuán)隊論文《Attention Is All You Need》中 Transformer 架構(gòu)圖與程式碼不一致的推文引發(fā)了大量的討論。
對於 Sebastian 的這項發(fā)現(xiàn),有人認(rèn)為屬於無心之過,但同時也會令人感到奇怪。畢竟,考慮到 Transformer 論文的流行程度,這個不一致問題早就應(yīng)該被提及 1000 次。
Sebastian Raschka 在回答網(wǎng)友評論時說,「最最原始」的程式碼確實(shí)與架構(gòu)圖一致,但2017 年提交的程式碼版本進(jìn)行了修改,但同時沒有更新架構(gòu)圖。這也是造成「不一致」討論的根本原因。
隨後,Sebastian 在 Ahead of AI 發(fā)布文章專門講述了為什麼最初的 Transformer 架構(gòu)圖與程式碼不一致,並引用了多篇論文簡要說明了 Transformer 的發(fā)展變化。
以下為文章原文,讓我們一起看看文章到底講述了什麼:
幾個月前,我分享了《Understanding Large Language Models: A Cross-Section of the Most Relevant Literature To Get Up to Speed》,正面的回饋非常鼓舞人心!因此,我添加了一些論文,以保持清單的新鮮感和相關(guān)性。
同時,保持清單簡潔扼要是至關(guān)重要的,這樣大家就可以用合理的時間就跟上進(jìn)度。還有一些論文,資訊量很大,想來也應(yīng)該包括在內(nèi)。
我想分享四篇有用的論文,從歷史的角度來理解 Transformer。雖然我只是直接將它們添加到理解大型語言模型的文章中,但我也在這篇文章中單獨(dú)來分享它們,以便那些之前已經(jīng)閱讀過理解大型語言模型的人更容易找到它們。
On Layer Normalization in the Transformer Architecture (2020)
雖然下圖(左)的Transformer 原始圖(https://arxiv.org/abs/1706.03762)是對原始編碼器- 解碼器架構(gòu)的有用總結(jié),但該圖有一個小小的差異。例如,它在殘差區(qū)塊之間進(jìn)行了層歸一化,這與原始 Transformer 論文附帶的官方 (更新後的) 程式碼實(shí)作不符。下圖(中)所示的變體稱為 Post-LN Transformer。
Transformer 架構(gòu)論文中的層歸一化表明,Pre-LN 工作得更好,可以解決梯度問題,如下所示。許多體系架構(gòu)在實(shí)踐中採用了這種方法,但它可能導(dǎo)致表徵的崩潰。
因此,雖然仍然有關(guān)於使用Post-LN 或前Pre-LN 的討論,也有一篇新論文提出了將兩個一起應(yīng)用:《 ResiDual: Transformer with Dual Residual Connections》(https://arxiv.org/abs/2304.14802),但它在實(shí)踐中是否有用還有待觀察。
#圖示:圖源https://arxiv.org/abs/1706.03762 (左& 中) and https://arxiv.org/abs/2002.04745 (右)?
##Learning to Control Fast-Weight Memories: An Alternative to Dynamic Recurrent Neural Networks (1991)
這篇文章推薦給那些對歷史花絮和早期方法感興趣的人,這些方法基本上類似於現(xiàn)代Transformer。
例如,在比Transformer 論文早25 年的1991 年,Juergen Schmidhuber 提出了一種遞歸神經(jīng)網(wǎng)路的替代方案(https://www.semanticscholar.org/paper/Learning-to-Control- Fast-Weight-Memories:-An-to-Schmidhuber/bc22e87a26d020215afe91c751e5bdaddd8e4922),稱為Fast Weight Programmers (FWP)。另一個實(shí)現(xiàn)快速權(quán)值變化的神經(jīng)網(wǎng)路是透過使用梯度下降演算法緩慢學(xué)習(xí)的 FWP 方法中所涉及的前饋神經(jīng)網(wǎng)路。
這篇部落格(https://people.idsia.ch//~juergen/fast-weight-programmer-1991-transformer.html#sec2) 將其與現(xiàn)代Transformer 進(jìn)行類比,如下所示:
在今天的Transformer 術(shù)語中,F(xiàn)ROM 和TO 分別稱為鍵(key) 和值(value)。應(yīng)用快速網(wǎng)路的輸入稱為查詢。本質(zhì)上,查詢由快速權(quán)重矩陣 (fast weight matrix) 處理,它是鍵和值的外積總和 (忽略歸一化和投影)。我們可以使用加法外積或二階張量積來實(shí)現(xiàn)端對端可微的主動控制權(quán)值快速變化,因為兩個網(wǎng)路的所有操作都支援微分。在序列處理期間,梯度下降可以用於快速調(diào)整快速網(wǎng)絡(luò),從而應(yīng)對慢速網(wǎng)絡(luò)的問題。這在數(shù)學(xué)上等同於 (除了歸一化之外) 後來被稱為具有線性化自註意的 Transformer (或線性 Transformer)。
如上文摘錄所提到的,這種方法現(xiàn)在被稱為線性 Transformer 或具有線性化自註意的 Transformer。它們來自於2020 年出現(xiàn)在arXiv 上的論文《Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention 》(https://arxiv.org/abs/2006.16236)以及《Rethinking Attention with Performers》(https://arxiv. org/abs/2009.14794)。
2021 年,論文《Linear Transformers Are Secretly Fast Weight Programmers》(https://arxiv.org/abs/2102.11174)明確表明了線性化自註意力和20 世紀(jì)90年代的快速權(quán)重編程器之間的等價性。
#圖表來源:https://people.idsia.ch// ~juergen/fast-weight-programmer-1991-transformer.html#sec2
##Universal Language Model Fine-tuning for Text Classification (2018)
這是另一篇從歷史角度來看非常有趣的論文。它是在原版《Attention Is All You Need》發(fā)布一年後寫的,並沒有涉及 transformer,而是專注於循環(huán)神經(jīng)網(wǎng)絡(luò),但它仍然值得關(guān)注。因為它有效地提出了預(yù)訓(xùn)練語言模型和遷移學(xué)習(xí)的下游任務(wù)。雖然遷移學(xué)習(xí)已經(jīng)在電腦視覺中確立,但在自然語言處理 (NLP) 領(lǐng)域還沒有普及。 ULMFit(https://arxiv.org/abs/1801.06146)是第一批表明預(yù)訓(xùn)練語言模型在特定任務(wù)上微調(diào)後,可以在許多 NLP 任務(wù)中產(chǎn)生 SOTA 結(jié)果的論文之一。
ULMFit 建議的語言模型微調(diào)過程分為三個階段:
- 1. 在大量的文字語料庫上訓(xùn)練語言模型;
- 2. 根據(jù)任務(wù)特定的資料對預(yù)訓(xùn)練的語言模型進(jìn)行微調(diào),使其能夠適應(yīng)文本的特定風(fēng)格和詞??;
- 3. 微調(diào)特定任務(wù)資料上的分類器,透過逐步解凍各層來避免災(zāi)難性遺忘。
在大型語料庫上訓(xùn)練語言模型,然後在下游任務(wù)上對其進(jìn)行微調(diào)的這種方法,是基於Transformer 的模型和基礎(chǔ)模型(如BERT、GPT -2/3/4、RoBERTa 等) 所使用的核心方法。
然而,作為 ULMFiT 的關(guān)鍵部分,逐步解凍通常在實(shí)踐中不進(jìn)行,因為 Transformer 架構(gòu)通常一次對所有層進(jìn)行微調(diào)。
#
Gopher 是一篇特別好的論文(https://arxiv.org/abs/2112.11446),包括大量的分析來理解 LLM 訓(xùn)練。研究人員在 3000 億個 token 上訓(xùn)練了一個 80 層的 2800 億個參數(shù)模型。其中包括一些有趣的架構(gòu)修改,例如使用 RMSNorm (均方根歸一化) 而不是 LayerNorm (層歸一化)。 LayerNorm 和 RMSNorm 都優(yōu)於 BatchNorm,因為它們不局限於批次大小,也不需要同步,這在批次大小較小的分散式設(shè)定中是一個優(yōu)勢。 RMSNorm 通常被認(rèn)為在更深的體系架構(gòu)中會穩(wěn)定訓(xùn)練。
除了上述這些有趣的花絮之外,本文的主要重點(diǎn)是分析不同規(guī)模下的任務(wù)效能分析。對 152 個不同任務(wù)的評估顯示,增加模型大小對理解、事實(shí)查核和識別有毒語言等任務(wù)最有利,而架構(gòu)擴(kuò)展對與邏輯和數(shù)學(xué)推理相關(guān)的任務(wù)從益處不大。
圖註:圖源 https://arxiv.org/abs/2112.11446
#以上是此「錯」並非真的錯:從四篇經(jīng)典論文入手,理解Transformer架構(gòu)圖「錯」在何處的詳細(xì)內(nèi)容。更多資訊請關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

熱AI工具

Undress AI Tool
免費(fèi)脫衣圖片

Undresser.AI Undress
人工智慧驅(qū)動的應(yīng)用程序,用於創(chuàng)建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費(fèi)的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費(fèi)的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強(qiáng)大的PHP整合開發(fā)環(huán)境

Dreamweaver CS6
視覺化網(wǎng)頁開發(fā)工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

在PHP中搭建社交分享功能的核心方法是通過動態(tài)生成符合各平臺要求的分享鏈接。 1.首先獲取當(dāng)前頁面或指定的URL及文章信息;2.使用urlencode對參數(shù)進(jìn)行編碼;3.根據(jù)各平臺協(xié)議拼接生成分享鏈接;4.在前端展示鏈接供用戶點(diǎn)擊分享;5.動態(tài)生成頁面OG標(biāo)籤優(yōu)化分享內(nèi)容展示;6.務(wù)必對用戶輸入進(jìn)行轉(zhuǎn)義以防止XSS攻擊。該方法無需複雜認(rèn)證,維護(hù)成本低,適用於大多數(shù)內(nèi)容分享需求。

用戶語音輸入通過前端JavaScript的MediaRecorderAPI捕獲並發(fā)送至PHP後端;2.PHP將音頻保存為臨時文件後調(diào)用STTAPI(如Google或百度語音識別)轉(zhuǎn)換為文本;3.PHP將文本發(fā)送至AI服務(wù)(如OpenAIGPT)獲取智能回復(fù);4.PHP再調(diào)用TTSAPI(如百度或Google語音合成)將回復(fù)轉(zhuǎn)為語音文件;5.PHP將語音文件流式返回前端播放,完成交互。整個流程由PHP主導(dǎo)數(shù)據(jù)流轉(zhuǎn)與錯誤處理,確保各環(huán)節(jié)無縫銜接。

要實(shí)現(xiàn)PHP結(jié)合AI進(jìn)行文本糾錯與語法優(yōu)化,需按以下步驟操作:1.選擇適合的AI模型或API,如百度、騰訊API或開源NLP庫;2.通過PHP的curl或Guzzle調(diào)用API並處理返回結(jié)果;3.在應(yīng)用中展示糾錯信息並允許用戶選擇是否採納;4.使用php-l和PHP_CodeSniffer進(jìn)行語法檢測與代碼優(yōu)化;5.持續(xù)收集反饋並更新模型或規(guī)則以提升效果。選擇AIAPI時應(yīng)重點(diǎn)評估準(zhǔn)確率、響應(yīng)速度、價格及對PHP的支持。代碼優(yōu)化應(yīng)遵循PSR規(guī)範(fàn)、合理使用緩存、避免循環(huán)查詢、定期審查代碼,並藉助X

PHP不直接進(jìn)行AI圖像處理,而是通過API集成,因為它擅長Web開發(fā)而非計算密集型任務(wù),API集成能實(shí)現(xiàn)專業(yè)分工、降低成本、提升效率;2.整合關(guān)鍵技術(shù)包括使用Guzzle或cURL發(fā)送HTTP請求、JSON數(shù)據(jù)編解碼、API密鑰安全認(rèn)證、異步隊列處理耗時任務(wù)、健壯錯誤處理與重試機(jī)制、圖像存儲與展示;3.常見挑戰(zhàn)有API成本失控、生成結(jié)果不可控、用戶體驗差、安全風(fēng)險和數(shù)據(jù)管理難,應(yīng)對策略分別為設(shè)置用戶配額與緩存、提供prompt指導(dǎo)與多圖選擇、異步通知與進(jìn)度提示、密鑰環(huán)境變量存儲與內(nèi)容審核、雲(yún)存

PHP通過數(shù)據(jù)庫事務(wù)與FORUPDATE行鎖確保庫存扣減原子性,防止高並發(fā)超賣;2.多平臺庫存一致性需依賴中心化管理與事件驅(qū)動同步,結(jié)合API/Webhook通知及消息隊列保障數(shù)據(jù)可靠傳遞;3.報警機(jī)制應(yīng)分場景設(shè)置低庫存、零/負(fù)庫存、滯銷、補(bǔ)貨週期和異常波動策略,並按緊急程度選擇釘釘、短信或郵件通知責(zé)任人,且報警信息需完整明確,以實(shí)現(xiàn)業(yè)務(wù)適配與快速響應(yīng)。

選擇合適AI語音識別服務(wù)並集成PHPSDK;2.用PHP調(diào)用ffmpeg將錄音轉(zhuǎn)為API要求格式(如wav);3.上傳文件至雲(yún)存儲並調(diào)用API異步識別;4.解析JSON結(jié)果並用NLP技術(shù)整理文本;5.生成Word或Markdown文檔完成會議記錄自動化,全過程需確保數(shù)據(jù)加密、訪問控制與合規(guī)性以保障隱私安全。

PHP在智能客服中扮演連接器和大腦中樞角色,負(fù)責(zé)串聯(lián)前端輸入、數(shù)據(jù)庫存儲與外部AI服務(wù);2.實(shí)現(xiàn)時需構(gòu)建多層架構(gòu):前端接收用戶消息,PHP後端預(yù)處理並路由請求,先匹配本地知識庫,未命中則調(diào)用外部AI服務(wù)如OpenAI或Dialogflow獲取智能回復(fù);3.會話管理由PHP寫入MySQL等數(shù)據(jù)庫,保障上下文連續(xù)性;4.集成AI服務(wù)需用Guzzle發(fā)送HTTP請求,安全存儲APIKey,做好錯誤處理與響應(yīng)解析;5.數(shù)據(jù)庫設(shè)計需包含會話、消息、知識庫、用戶表,合理建索引、保障安全與性能,支撐機(jī)器人記憶

選擇AI寫作API需考察穩(wěn)定性、價格、功能匹配度及是否有免費(fèi)試用;2.PHP用Guzzle發(fā)送POST請求並用json_decode處理返回的JSON數(shù)據(jù),注意捕獲異常和錯誤碼;3.將AI內(nèi)容融入項目需建立審核機(jī)制並支持個性化定制;4.優(yōu)化性能可採用緩存、異步隊列和限流技術(shù),避免高並發(fā)下瓶頸。
