亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

目錄
1. 全連接網絡(FCN)
2. 卷積神經網絡(CNN)
2.1 CNN的架構特點
2.2 CNN的用例
2.3 CNN對比FCN的優(yōu)勢
3. 循環(huán)神經網絡(RNN)
3.1 RNN 的架構特點
3.2 RNN的典型用例
3.3 RNN 與CNN 的對比優(yōu)勢
4. 長短記憶神經網絡(LSTM)
LSTM對比于GRU和RNN的優(yōu)缺點
5. 門控循環(huán)單元 (GRU)
GRU對比 LSTM 和RNN的優(yōu)缺點
6.Transformer
6.1 Transformer的架構特點
6.2 Transformer的用例
6.2.1 語言領域
6.2.2 視覺領域
6.2.3 多模態(tài)任務
6.3 Transformer對比RNN/GRU/LSTM的優(yōu)缺點
7. 推理偏差
8. 小結
首頁 科技周邊 人工智能 深度學習架構的對比分析

深度學習架構的對比分析

May 17, 2023 pm 04:34 PM
架構 數據 深度學習

深度學習的概念源于人工神經網絡的研究,含有多個隱藏層的多層感知器是一種深度學習結構。深度學習通過組合低層特征形成更加抽象的高層表示,以表征數據的類別或特征。它能夠發(fā)現數據的分布式特征表示。深度學習是機器學習的一種,而機器學習是實現人工智能的必經之路。

那么,各種深度學習的系統架構之間有哪些差別呢?

1. 全連接網絡(FCN)

完全連接網絡(FCN)由一系列完全連接的層組成,每個層中的每個神經元都連接到另一層中的每個神經元。其主要優(yōu)點是“結構不可知”,即不需要對輸入做出特殊的假設。雖然這種結構不可知使得完全連接網絡非常廣泛適用,但是這樣的網絡傾向于比專門針對問題空間結構調整的特殊網絡表現更弱。

下圖顯示了一個多層深度的完全連接網絡:

深度學習架構的對比分析

2. 卷積神經網絡(CNN)

卷積神經網絡(CNN)是一種多層神經網絡架構,主要用于圖像處理應用。CNN架構明確假定輸入具有空間維度(以及可選的深度維度),例如圖像,這允許將某些屬性編碼到模型架構中。Yann LeCun創(chuàng)建了第一個CNN,該架構最初用于識別手寫字符。

2.1 CNN的架構特點

分解一下使用CNN的計算機視覺模型的技術細節(jié):

  • 模型的輸入:CNN模型的輸入通常是圖像或文本。CNN也可用于文本,但通常不怎么使用。

圖像在這里被表示為像素網格,就是由正整數組成的網格,每個數字都被分配一種顏色。

  • 模型的輸出:模型的輸出取決于它試圖預測什么,下面的示例表示一些常見的任務:
  • 深度學習架構的對比分析

一個簡單的卷積神經網絡由一系列層構成,每一層通過可微分函數將一個激活的體積塊轉換為另一個表達。卷積神經網絡的架構主要使用三種類型的層:卷積層、池化層和全連接層。下圖展示了卷積神經網絡層的不同部分:

  • 卷積:?卷積過濾器掃描圖像,使用加法和乘法操作。CNN試圖學習卷積過濾器中的值以預測所需的輸出。
  • 非線性:?這是應用于卷積過濾器的方程,它允許CNN學習輸入和輸出圖像之間的復雜關系。
  • 池化:?也稱為“最大池化”,它只選擇一系列數字中的最大數字。這有助于減小表達的大小并減少CNN必須進行的計算量,用于提升效率。

這三種操作的結合組成了完全卷積網絡。

2.2 CNN的用例

CNN(卷積神經網絡)是一種常用于解決與空間數據相關的問題的神經網絡,通常用于圖像(2D CNN)和音頻(1D CNN)等領域。CNN的廣泛應用包括人臉識別、醫(yī)學分析和分類等。通過CNN,可以在圖像或音頻數據中捕捉到更加細致的特征,從而實現更加精準的識別和分析。此外,CNN也可以應用于其他領域,如自然語言處理和時間序列數據等??傊?,CNN是可以幫助我們更好地理解和分析各種類型的數據。

2.3 CNN對比FCN的優(yōu)勢

參數共享/計算可行性:

由于CNN使用參數共享,所以CNN與FCN架構的權重數量通常相差幾個數量級。

對于全連接神經網絡,有一個形狀為(Hin×Win×Cin)的輸入和一個形狀為(Hout×Wout×Cout)的輸出。這意味著輸出特征的每個像素顏色都與輸入特征的每個像素顏色連接。對于輸入圖像和輸出圖像的每個像素,都有一個獨立的可學習參數。因此,參數數量為(Hin×Hout×Win×Wout×Cin×Cout)。

在卷積層中,輸入是形狀為(Hin,Win,Cin)的圖像,權重考慮給定像素的鄰域大小為K×K。輸出是給定像素及其鄰域的加權和。輸入通道和輸出通道的每個對(Cin,Cout)都有一個單獨的內核,但內核的權重形狀為(K,K,Cin,Cout)的張量與位置無關。實際上,該層可以接受任何分辨率的圖像,而全連接層只能使用固定分辨率。最后,該層參數為(K,K,Cin,Cout),對于內核大小K遠小于輸入分辨率的情況,變量數量會顯著減少。

自從AlexNet贏得ImageNet比賽以來,每個贏得比賽的神經網絡都使用了CNN組件,這一事實證明CNN對于圖像數據更有效。很可能找不到任何有意義的比較,因為僅使用FC層處理圖像數據是不可行的,而CNN可以處理這些數據。為什么呢?

FC層中有1000個神經元的權重數量對于圖像而言大約為1.5億。?這僅僅是一個層的權重數量。?而現代的CNN體系結構具有50-100層,同時具有總共幾十萬個參數(例如,ResNet50具有23M個參數,Inception V3具有21M個參數)。

從數學角度來看,比較CNN和FCN(具有100個隱藏單元)之間的權重數量,輸入圖像為500×500×3的話:

  • FC layer 的 Wx =?100×(500×500×3)=100×750000=75M
  • CNN layer =?
<code>((shape of width of the filter * shape of height of the filter * number of filters in the previous layer+1)*number of filters)( +1 是為了偏置) = (Fw×Fh×D+1)×F=(5×5×3+1)?2=152</code>

平移不變性

不變性指的是一個對象即使位置發(fā)生了改變,仍然能夠被正確地識別。這通常是一個積極的特性,因為它維護了對象的身份(或類別)。這里的“平移”是指在幾何學中的特定含義。下圖顯示了相同的對象在不同的位置上,由于平移不變性,CNN能夠正確地識別它們都是貓。

3. 循環(huán)神經網絡(RNN)

RNN是構建其他深度學習架構的基礎網絡體系結構之一。一個關鍵的不同之處在于,與正常的前饋網絡不同,RNN可以具有反饋到其先前或同一層的連接。從某種意義上說,RNN在先前的計算中具有“記憶”,并將這些信息用于當前處理。

深度學習架構的對比分析

3.1 RNN 的架構特點

“Recurrent”這個術語適用于網絡在每個序列實例上執(zhí)行相同的任務,因此輸出取決于先前的計算和結果。

RNN自然適用于許多NLP任務,如語言建模。它們能夠捕捉“狗”和“熱狗”之間的含義差異,因此RNN是為建模語言和類似序列建模任務中的這種上下文依賴而量身定制的,這成為在這些領域使用RNN而不是CNN的主要原因。RNN的另一個優(yōu)點是模型大小不隨輸入大小而增加,因此有可能處理任意長度的輸入。

此外,與CNN不同的是,RNN具有靈活的計算步驟,提供更好的建模能力,并創(chuàng)造了捕捉無限上下文的可能性,因為它考慮了歷史信息,并且其權重在時間上是共享的。然而,循環(huán)神經網絡會面臨梯度消失問題。梯度變得很小,因此使得反向傳播的更新權重非常小。由于每個標記需要順序處理以及存在梯度消失/爆炸,RNN訓練速度慢并且有時很難收斂。

下圖斯坦福大學是RNN架構示例。

深度學習架構的對比分析

另一個需要注意的是,CNN與RNN具有不同的架構。CNN是一種前饋神經網絡,它使用過濾器和池化層,而RNN則通過自回歸的方式將結果反饋到網絡中。

3.2 RNN的典型用例

RNN是一種專門用于分析時間序列數據的神經網絡。其中,時間序列數據是指按時間順序排列的數據,例如文本或視頻。RNN在文本翻譯、自然語言處理、情感分析和語音分析等方面具有廣泛的應用。例如,它可以用于分析音頻記錄,以便識別說話人的語音并將其轉換為文本。另外,RNN還可以用于文本生成,例如為電子郵件或社交媒體發(fā)布創(chuàng)建文本。?

3.3 RNN 與CNN 的對比優(yōu)勢

在CNN中,輸入和輸出的大小是固定的。這意味著CNN接收固定大小的圖像,并將其輸出到適當的級別,同時伴隨其預測的置信度。然而,在RNN中,輸入和輸出的大小可能會有所變化。這個特性適用于需要可變大小輸入和輸出的應用,例如生成文本。

門控循環(huán)單元(GRU)和長短時記憶單元(LSTM)都提供了解決循環(huán)神經網絡(RNN)遇到的梯度消失問題的解決方案。

4. 長短記憶神經網絡(LSTM)

長短記憶神經網絡(LSTM)是一種特殊的RNN。它通過學習長期依賴關系,使RNN更容易在許多時間戳上保留信息。下圖是LSTM架構的可視化表示。

深度學習架構的對比分析

深度學習架構的對比分析

LSTM無處不在,可以在許多應用程序或產品中找到,例如智能手機。其強大之處在于它擺脫了典型的基于神經元的架構,而是采用了記憶單元的概念。這個記憶單元根據其輸入的函數保留其值,可以短時間或長時間保持其值。這允許單元記住重要的內容,而不僅僅是最后計算的值。

LSTM 記憶單元包含三個門,控制其單元內的信息流入或流出。

  • 輸入門:控制何時可以將信息流入內存。

深度學習架構的對比分析

遺忘門:負責跟蹤哪些信息可以“遺忘”,為處理單元騰出空間記住新數據。

深度學習架構的對比分析

輸出門:決定處理單元內存儲的信息何時可以用作細胞的輸出。

深度學習架構的對比分析

LSTM對比于GRU和RNN的優(yōu)缺點

相較于GRU和尤其是RNN,LSTM可以學習更長期的依賴關系。由于有三個門(GRU中為兩個,RNN中為零),因此與RNN和GRU相比,LSTM具有更多的參數。這些額外的參數允許LSTM模型更好地處理復雜的序列數據,如自然語言或時間序列數據。此外,LSTM還可以處理變長的輸入序列,因為它們的門結構允許它們忽略不必要的輸入。因此,LSTM在許多應用中都表現出色,包括語音識別、機器翻譯和股票市場預測等。

5. 門控循環(huán)單元 (GRU)

GRU有兩個門:更新門和重置門(本質上是兩個向量),以決定應該傳遞什么信息到輸出。

深度學習架構的對比分析

  • 重置門(Reset gate):?幫助模型決定可以忘記多少過去的信息。
  • 更新門(Update gate):?幫助模型確定過去信息(之前的時間步驟)中有多少需要傳遞到未來。

GRU對比 LSTM 和RNN的優(yōu)缺點

與RNN類似,GRU也是一種遞歸神經網絡,它可以有效地長時間保留信息并捕捉比RNN更長的依賴關系。然而,GRU相比較于LSTM更為簡單,訓練速度更快。

盡管GRU在實現上比RNN更為復雜,但由于其僅包含兩個門控機制,因此其參數數量較少,通常不能像LSTM那樣捕捉更長范圍的依賴關系。因此,GRU在某些情況下可能需要更多的訓練數據以達到與LSTM相同的性能水平。

此外,由于GRU相對較為簡單,其計算成本也較低,因此在資源有限的環(huán)境下,如移動設備或嵌入式系統,使用GRU可能更為合適。另一方面,如果模型的準確性對應用至關重要,則LSTM可能是更好的選擇。

6.Transformer

有關 Transformers 的論文?“Attention is All You Need”?幾乎是 Arxiv 上有史以來排名第一的論文。變形金剛是一種大型編碼器-解碼器模型,能夠使用復雜的注意力機制處理整個序列。

深度學習架構的對比分析

通常,在自然語言處理應用中,首先使用嵌入算法將每個輸入單詞轉換為向量。嵌入只在最底層的編碼器中發(fā)生。所有編碼器共享的抽象是,它們接收一個大小為512的向量列表,這將是詞嵌入,但在其他編碼器中,它將是直接位于下面的編碼器輸出中。

注意力提供了解決瓶頸問題的方法。對于這些類型的模型,上下文向量成為了一個瓶頸,這使得模型難以處理長句子。注意力允許模型根據需要集中關注輸入序列的相關部分,并將每個單詞的表示視為一個查詢,以訪問和合并一組值中的信息。

6.1 Transformer的架構特點

通常,在Transformer架構中,編碼器能夠將所有隱藏狀態(tài)傳遞給解碼器。但是,在生成輸出之前,解碼器使用注意力進行了額外的步驟。解碼器通過其softmax得分乘以每個隱藏狀態(tài),從而放大得分更高的隱藏狀態(tài)并淹沒其他隱藏狀態(tài)。這使得模型能夠集中關注與輸出相關的輸入部分。

自我注意力位于編碼器中,第一步是從每個編碼器輸入向量(每個單詞的嵌入)創(chuàng)建3個向量:Key、Query和Value向量,這些向量是通過將嵌入乘以在訓練過程中訓練的3個矩陣來創(chuàng)建的。K、V、Q維度為64,而嵌入和編碼器輸入/輸出向量的維度為512。下圖來自Jay Alammar的 Illustrated Transformer,這可能是網上最好的可視化解讀。

深度學習架構的對比分析

這個列表的大小是可以設置的超參數,基本上將是訓練數據集中最長句子的長度。

  • 注意力:

深度學習架構的對比分析

什么是query、key和value向量?它們是在計算和思考注意力時有用的抽象概念。在解碼器中的交叉注意力除了輸入之外,計算與自注意力的計算相同。交叉注意力不對稱地組合了兩個維度相同的獨立嵌入序列,而自注意力的輸入是一個單獨的嵌入序列。

為了討論Transformer,還必須討論兩個預訓練模型,即BERT和GPT,因為它們導致了Transformer的成功。

GPT?的預訓練解碼器有12層,其中包括768維隱藏狀態(tài),3072維前饋隱藏層,采用40,000個合并的字節(jié)對編碼。主要應用在自然語言的推理中,將句子對標記為蘊含、矛盾或中性。

BERT是預訓練編碼器,使用掩碼語言建模,將輸入中的一部分單詞替換為特殊的[MASK]標記,然后嘗試預測這些單詞。因此,只需要在預測的掩碼單詞上計算損失。兩種BERT模型大小都有大量的編碼器層(該論文稱為Transformer塊)-Base版本有12個,Large版本有24個。這些也具有比初始論文中Transformer參考實現中的默認配置(6個編碼器層,512個隱藏單元和8個注意頭)更大的前饋網絡(分別為768和1024個隱藏單元)和更多的注意頭(分別為12和16)。BERT模型很容易進行微調,通??梢栽趩蝹€GPU上完成。BERT可以用在NLP中進行翻譯,特別是低資源語言翻譯。

Transformer的一個性能缺點是,它們在自我關注方面的計算時間是二次的,而RNN只是線性增長。

6.2 Transformer的用例

6.2.1 語言領域

在傳統的語言模型中,相鄰的單詞會首先被分組在一起,而Transformer則能夠并行處理,使得輸入數據中的每個元素都能夠連接或關注到每個其他元素。這被稱為“自我注意力”。這意味著Transformer一開始訓練時就可以看到整個數據集的內容。

在Transformer出現之前,AI語言任務的進展在很大程度上落后于其他領域的發(fā)展。實際上,在過去的10年左右的深度學習革命中,自然語言處理是后來者,而NLP在某種程度上落后于計算機視覺。然而,隨著Transformers的出現,NLP領域得到了極大的推動,并且推出了一系列在各種NLP任務中取得佳績的模型。

例如,為了理解基于傳統語言模型(基于遞歸架構,如RNN、LSTM或GRU)與Transformer之間的區(qū)別,我們可以舉個例子:“The owl spied a squirrel. It tried to grab it with its talons but only got the end of its tail.”第二個句子的結構很令人困惑:那個“it”是指什么?僅關注“it”周圍單詞的傳統語言模型會遇到困難,但是將每個單詞與每個其他單詞相連的Transformer可以分辨出貓頭鷹抓住了松鼠,而松鼠失去了部分尾巴。

6.2.2 視覺領域

在CNN中,我們從局部開始,逐漸獲得全局視角。CNN通過從局部到全局的方式構建特征,逐像素識別圖像,以識別例如角落或線條等特征。然而,在transformer中,通過自我注意力,即使在信息處理的第一層上,也會建立遠程圖像位置之間的連接(就像語言一樣)。如果CNN的方法就像從單個像素開始縮放,那么transformer會逐漸將整個模糊的圖像聚焦。

深度學習架構的對比分析

CNN通過反復應用輸入數據的局部補丁上的濾鏡,生成局部特征表示,并逐步增加它們的感受視野并構建全局特征表示。正是因為卷積,照片應用程序才能將梨與云彩區(qū)分開來。在transformer架構之前,CNN被認為是視覺任務不可或缺的。

Vision Transformer模型的架構與2017年提出的第一個transformer幾乎相同,只有一些微小的變化使其能夠分析圖像而不是單詞。由于語言往往是離散的,因此需要將輸入圖像離散化,以使transformer能夠處理視覺輸入。在每個像素上完全模仿語言方法并執(zhí)行自我關注將計算時間變得極為昂貴。因此,ViT將更大的圖像分成方形單元或補?。愃朴贜LP中的令牌)。大小是任意的,因為根據原始圖像的分辨率,token可以變大或變?。J為16x16像素)。但是通過處理組中的像素并對每個像素應用自我注意力,ViT可以快速處理巨大的訓練數據集,輸出越來越準確的分類。

6.2.3 多模態(tài)任務

與 Transformer 相比,其他深度學習架構只會一種技巧,而多模態(tài)學習需要在一個流暢的架構中處理具有不同模式的模態(tài),并具有相當高的關系歸納偏差,才能達到人類智能的水平。換句話說,需要一個單一多用途的架構,可以無縫地在閱讀/觀看、說話和聽取等感官之間轉換。

對于多模態(tài)任務,需要同時處理多種類型的數據,如原始圖像、視頻和語言等,而 Transformer 提供了通用架構的潛力。

深度學習架構的對比分析

由于早期架構中采用的分立方法,每種類型的數據都有自己特定的模型,因此這是一項難以完成的任務。然而,Transformer 提供了一種簡單的方法來組合多個輸入來源。例如,多模態(tài)網絡可以為系統提供動力,讀取人的嘴唇動作并同時使用語言和圖像信息的豐富表示來監(jiān)聽他們的聲音。通過交叉注意力,Transformer 能夠從不同來源派生查詢、鍵和值向量,成為多模態(tài)學習的有力工具。

因此,Transformer 是實現神經網絡架構“融合”的一大步,從而可以幫助實現對多種模態(tài)數據的通用處理。

6.3 Transformer對比RNN/GRU/LSTM的優(yōu)缺點

與RNN/GRU/LSTM相比,Transformer可以學習比RNN和其變體(如GRU和LSTM)更長的依賴關系。

然而,最大的好處來自于Transformer如何適用于并行化。與在每個時間步驟處理一個單詞的RNN不同,Transformer的一個關鍵屬性是每個位置上的單詞都通過自己的路徑流經編碼器。在自我注意力層中,由于自我注意層計算每個輸入序列中的其他單詞對該單詞的重要性,這些路徑之間存在依賴關系。但是,一旦生成了自我注意力輸出,前饋層就沒有這些依賴關系,因此各個路徑可以在通過前饋層時并行執(zhí)行。這在Transformer編碼器的情況下是一個特別有用的特性,它可以在自我注意力層后與其他單詞并行處理每個輸入單詞。然而,這個特性對于解碼器并不是非常重要,因為它一次只生成一個單詞,不使用并行單詞路徑。

Transformer架構的運行時間與輸入序列的長度呈二次方關系,這意味著當處理長文檔或將字符作為輸入時,處理速度可能會很慢。換句話說,在進行自我注意力形成期間,需要計算所有交互對,這意味著計算隨著序列長度呈二次增長,即O(T^2?d),其中T序列長度,D是維度。例如,對應一個簡單的句子d=1000,T≤30?T^2≤900?T^2d≈900K。而對于循環(huán)神經,它僅以線性方式增長。

如果Transformer不需要在句子中的每一對單詞之間計算成對的交互作用,那豈不是很好?有研究表明可以在不計算所有單詞對之間的交互作用(例如通過近似成對關注)的情況下實現相當高的性能水平。

與CNN相比,Transformer的數據需求極高。CNN仍然具有樣本效率,這使它們成為低資源任務的絕佳選擇。這對于圖像/視頻生成任務尤其如此,即使對于CNN架構,需要大量數據(因此暗示Transformer架構需要極高的數據需求)。例如,Radford等人最近提出的CLIP架構是使用基于CNN的ResNets作為視覺骨干進行訓練的(而不是類似ViT的Transformer架構)。雖然Transformer在滿足其數據需求后提供了準確性提升,但CNN則提供了一種在可用數據量不是異常高的任務中提供良好準確性表現的方式。因此,兩種架構都有其用途。

由于Transformer 架構的運行時間與輸入序列的長度呈二次方關系。也就是說,在所有單詞對上計算注意力需要圖中邊的數量隨節(jié)點數呈二次方增長,即在一個 n 個單詞的句子中,Transformer 需要計算 n^2 個單詞對。這意味著參數數量巨大(即內存占用高),從而導致計算復雜度高。高計算要求對電源和電池壽命都會產生負面影響,特別是對于可移動設備而言??傮w而言,為了提供更好的性能(例如準確性),Transformer需要更高的計算能力、更多的數據、電源/電池壽命和內存占用。

7. 推理偏差

實踐中使用的每個機器學習算法,從最近鄰到梯度提升,都帶有自己關于哪些分類更容易學習的歸納偏差。幾乎所有學習算法都有一個偏差,即學習那些相似的項(在某些特征空間中“接近”彼此)更可能屬于同一類。線性模型,例如邏輯回歸,還假設類別可以通過線性邊界分離,這是一個“硬”偏差,因為模型無法學習其他內容。即便對于正則化回歸,這幾乎是機器學習中經常使用的類型,也還存在一種偏差,即傾向于學習涉及少數特征,具有低特征權重的邊界,這是“軟”偏差,因為模型可以學習涉及許多具有高權重功能的類別邊界,但這更困難/需要更多數據。

即使是深度學習模型也同樣具有推理偏差,例如,LSTM神經網絡對自然語言處理任務非常有效,因為它偏向于在長序列上保留上下文信息。

深度學習架構的對比分析

了解領域知識和問題難度可以幫助我們選擇適當的算法應用。例如,從臨床記錄中提取相關術語以確定患者是否被診斷為癌癥的問題。在這種情況下,邏輯回歸表現良好,因為有很多獨立有信息量的術語。對于其他問題,例如從復雜的PDF報告中提取遺傳測試的結果,使用LSTM可以更好地處理每個單詞的長程上下文,從而獲得更好的性能。一旦選擇了基礎算法,了解其偏差也可以幫助我們執(zhí)行特征工程,即選擇要輸入到學習算法中的信息的過程。

每個模型結構都有一種內在的推理偏差,幫助理解數據中的模式,從而實現學習。例如,CNN表現出空間參數共享、平移/空間不變性,而RNN表現出時間參數共享。

8. 小結

老碼農嘗試對比分析了深度學習架構中的Transformer、CNN、RNN/GRU/LSTM,理解到Transformer可以學習更長的依賴關系,但需要更高的數據需求和計算能力;Transformer適用于多模態(tài)任務,可以無縫地在閱讀/觀看、說話和聽取等感官之間轉換;每個模型結構都有一種內在的推理偏差,幫助理解數據中的模式,從而實現學習。

【參考資料】

  • CNN vs fully connected network for image recognition?,https://stats.stackexchange.com/questions/341863/cnn-vs-fully-connected-network-for-image-recognition
  • https://web.stanford.edu/class/archive/cs/cs224n/cs224n.1184/lectures/lecture12.pdf
  • Introduction to LSTM Units in RNN,https://www.pluralsight.com/guides/introduction-to-lstm-units-in-rnn
  • Learning Transferable Visual Models From Natural Language Supervision,https://arxiv.org/abs/2103.00020
  • Linformer: Self-Attention with Linear Complexity,https://arxiv.org/abs/2006.04768
  • Rethinking Attention with Performers,https://arxiv.org/abs/2009.14794
  • Big Bird: Transformers for Longer Sequences,https://arxiv.org/abs/2007.14062
  • Synthesizer: Rethinking Self-Attention in Transformer Models,https://arxiv.org/abs/2005.00743
  • Do Vision Transformers See Like Convolutional Neural Networks?,https://arxiv.org/abs/2108.08810
  • Illustrated Transformer,https://jalammar.github.io/illustrated-transformer/

以上是深度學習架構的對比分析的詳細內容。更多信息請關注PHP中文網其他相關文章!

本站聲明
本文內容由網友自發(fā)貢獻,版權歸原作者所有,本站不承擔相應法律責任。如您發(fā)現有涉嫌抄襲侵權的內容,請聯系admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費脫衣服圖片

Undresser.AI Undress

Undresser.AI Undress

人工智能驅動的應用程序,用于創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用于從照片中去除衣服的在線人工智能工具。

Clothoff.io

Clothoff.io

AI脫衣機

Video Face Swap

Video Face Swap

使用我們完全免費的人工智能換臉工具輕松在任何視頻中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的代碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

功能強大的PHP集成開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級代碼編輯軟件(SublimeText3)

熱門話題

Laravel 教程
1597
29
PHP教程
1488
72
使用ddrescue在Linux上恢復數據 使用ddrescue在Linux上恢復數據 Mar 20, 2024 pm 01:37 PM

DDREASE是一種用于從文件或塊設備(如硬盤、SSD、RAM磁盤、CD、DVD和USB存儲設備)恢復數據的工具。它將數據從一個塊設備復制到另一個塊設備,留下損壞的數據塊,只移動好的數據塊。ddreasue是一種強大的恢復工具,完全自動化,因為它在恢復操作期間不需要任何干擾。此外,由于有了ddasue地圖文件,它可以隨時停止和恢復。DDREASE的其他主要功能如下:它不會覆蓋恢復的數據,但會在迭代恢復的情況下填補空白。但是,如果指示工具顯式執(zhí)行此操作,則可以將其截斷。將數據從多個文件或塊恢復到單

開源!超越ZoeDepth! DepthFM:快速且精確的單目深度估計! 開源!超越ZoeDepth! DepthFM:快速且精確的單目深度估計! Apr 03, 2024 pm 12:04 PM

0.這篇文章干了啥?提出了DepthFM:一個多功能且快速的最先進的生成式單目深度估計模型。除了傳統的深度估計任務外,DepthFM還展示了在深度修復等下游任務中的最先進能力。DepthFM效率高,可以在少數推理步驟內合成深度圖。下面一起來閱讀一下這項工作~1.論文信息標題:DepthFM:FastMonocularDepthEstimationwithFlowMatching作者:MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

超越ORB-SLAM3!SL-SLAM:低光、嚴重抖動和弱紋理場景全搞定 超越ORB-SLAM3!SL-SLAM:低光、嚴重抖動和弱紋理場景全搞定 May 30, 2024 am 09:35 AM

寫在前面今天我們探討下深度學習技術如何改善在復雜環(huán)境中基于視覺的SLAM(同時定位與地圖構建)性能。通過將深度特征提取和深度匹配方法相結合,這里介紹了一種多功能的混合視覺SLAM系統,旨在提高在諸如低光條件、動態(tài)光照、弱紋理區(qū)域和嚴重抖動等挑戰(zhàn)性場景中的適應性。我們的系統支持多種模式,包括拓展單目、立體、單目-慣性以及立體-慣性配置。除此之外,還分析了如何將視覺SLAM與深度學習方法相結合,以啟發(fā)其他研究。通過在公共數據集和自采樣數據上的廣泛實驗,展示了SL-SLAM在定位精度和跟蹤魯棒性方面優(yōu)

iPhone上的蜂窩數據互聯網速度慢:修復 iPhone上的蜂窩數據互聯網速度慢:修復 May 03, 2024 pm 09:01 PM

在iPhone上面臨滯后,緩慢的移動數據連接?通常,手機上蜂窩互聯網的強度取決于幾個因素,例如區(qū)域、蜂窩網絡類型、漫游類型等。您可以采取一些措施來獲得更快、更可靠的蜂窩互聯網連接。修復1–強制重啟iPhone有時,強制重啟設備只會重置許多內容,包括蜂窩網絡連接。步驟1–只需按一次音量調高鍵并松開即可。接下來,按降低音量鍵并再次釋放它。步驟2–該過程的下一部分是按住右側的按鈕。讓iPhone完成重啟。啟用蜂窩數據并檢查網絡速度。再次檢查修復2–更改數據模式雖然5G提供了更好的網絡速度,但在信號較弱

谷歌狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理訓練最快選擇 谷歌狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理訓練最快選擇 Apr 01, 2024 pm 07:46 PM

谷歌力推的JAX在最近的基準測試中性能已經超過Pytorch和TensorFlow,7項指標排名第一。而且測試并不是在JAX性能表現最好的TPU上完成的。雖然現在在開發(fā)者中,Pytorch依然比Tensorflow更受歡迎。但未來,也許有更多的大模型會基于JAX平臺進行訓練和運行。模型最近,Keras團隊為三個后端(TensorFlow、JAX、PyTorch)與原生PyTorch實現以及搭配TensorFlow的Keras2進行了基準測試。首先,他們?yōu)樯墒胶头巧墒饺斯ぶ悄苋蝿者x擇了一組主流

特斯拉機器人進廠打工,馬斯克:手的自由度今年將達到22個! 特斯拉機器人進廠打工,馬斯克:手的自由度今年將達到22個! May 06, 2024 pm 04:13 PM

特斯拉機器人Optimus最新視頻出爐,已經可以在廠子里打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的“工位”上,揀啊揀啊揀:這次放出的視頻亮點之一在于Optimus在廠子里完成這項工作,是完全自主的,全程沒有人為的干預。并且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對于Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人里最靈巧的之一。它的手不僅有觸覺

Spring Data JPA 的架構和工作原理是什么? Spring Data JPA 的架構和工作原理是什么? Apr 17, 2024 pm 02:48 PM

SpringDataJPA基于JPA架構,通過映射、ORM和事務管理與數據庫交互。其存儲庫提供CRUD操作,派生查詢簡化了數據庫訪問。此外,它使用延遲加載,僅在必要時檢索數據,從而提高了性能。

美國空軍高調展示首個AI戰(zhàn)斗機!部長親自試駕全程未干預,10萬行代碼試飛21次 美國空軍高調展示首個AI戰(zhàn)斗機!部長親自試駕全程未干預,10萬行代碼試飛21次 May 07, 2024 pm 05:00 PM

最近,軍事圈被這個消息刷屏了:美軍的戰(zhàn)斗機,已經能由AI完成全自動空戰(zhàn)了。是的,就在最近,美軍的AI戰(zhàn)斗機首次公開,揭開了神秘面紗。這架戰(zhàn)斗機的全名是可變穩(wěn)定性飛行模擬器測試飛機(VISTA),由美空軍部長親自搭乘,模擬了一對一的空戰(zhàn)。5月2日,美國空軍部長FrankKendall在Edwards空軍基地駕駛X-62AVISTA升空注意,在一小時的飛行中,所有飛行動作都由AI自主完成!Kendall表示——在過去的幾十年中,我們一直在思考自主空對空作戰(zhàn)的無限潛力,但它始終顯得遙不可及。然而如今,

See all articles