亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

目錄
聯(lián)邦學(xué)習(xí)
微調(diào)
知識蒸餾
基礎(chǔ)模型/LLMs的模型融合
首頁 科技週邊 人工智慧 綜述!深度模型融合(LLM/基礎(chǔ)模型/聯(lián)邦學(xué)習(xí)/微調(diào)等)

綜述!深度模型融合(LLM/基礎(chǔ)模型/聯(lián)邦學(xué)習(xí)/微調(diào)等)

Apr 18, 2024 pm 09:43 PM
git 科技 模型 排列

23年9月國防科大、京東和北理工的論文「Deep Model Fusion: A Survey」。

深度模型整合/合併是一種新興技術(shù),它將多個深度學(xué)習(xí)模型的參數(shù)或預(yù)測合併為一個模型。它結(jié)合了不同模型的能力來彌補(bǔ)單一模型的偏差和錯誤,以獲得更好的性能。而大規(guī)模深度學(xué)習(xí)模型(例如LLM和基礎(chǔ)模型)上的深度模型整合面臨一些挑戰(zhàn),包括高運(yùn)算成本、高維度參數(shù)空間、不同異質(zhì)模型之間的干擾等。本文將現(xiàn)有的深度模型融合方法分為四類:(1)“模式連接”,透過一條損失減少的路徑將權(quán)重空間中的解連接起來,以獲得更好的模型融合初始化;(2)“對齊”,匹配神經(jīng)網(wǎng)路之間的單元,為融合創(chuàng)建更好的條件;(3)“權(quán)重平均”是一種經(jīng)典的模型融合方法,將多個模型的權(quán)重進(jìn)行平均,以獲得更接近最優(yōu)解、更準(zhǔn)確的結(jié)果;(4)「整合學(xué)習(xí)」結(jié)合了不同模型的輸出,這是提高最終模型準(zhǔn)確性和穩(wěn)健性的基礎(chǔ)技術(shù)。此外,分析深度模型融合面臨的挑戰(zhàn),並提出了未來模型融合可能的研究方向。

由於資料隱私和實(shí)際資料節(jié)省問題,深度模型融合引起了越來越多的興趣。儘管深度模型融合的發(fā)展帶來了許多技術(shù)突破,但也產(chǎn)生了一系列挑戰(zhàn),例如計(jì)算負(fù)載高、模型異構(gòu)性以及組合優(yōu)化對齊速度慢等。這激發(fā)了科學(xué)家研究不同情況下模型融合的原理。

有些工作只關(guān)注單一視角(例如特徵融合等)[45,195]和特定場景[213]的模型融合,而不是參數(shù)的融合。加上最近的進(jìn)展和代表性應(yīng)用,例如聯(lián)邦學(xué)習(xí)(FL)[160]和微調(diào)[29]等,本文根據(jù)內(nèi)部機(jī)制和目的的分為四類。圖示整個模型融合流程示意圖,??以及各種方法的分類與連結(jié)。

針對獨(dú)立訓(xùn)練且彼此不相鄰的模型,「模式連接」和「對齊」使解決方案更加接近,從而獲得更好的平均原始條件。對於權(quán)重空間存在一定差異的相似模型,「權(quán)重平均(WA)」傾向於直接對模型進(jìn)行平均,在損失函數(shù)值較低的參數(shù)空間區(qū)域中獲得更接近最優(yōu)點(diǎn)的解決方案。此外,對於現(xiàn)有模型的預(yù)測,「整合學(xué)習(xí)」整合了模型的不同形式的預(yù)測,以獲得更好的結(jié)果。

綜述!深度模型融合(LLM/基礎(chǔ)模型/聯(lián)邦學(xué)習(xí)/微調(diào)等)

「模型融合作為一種提高深度模型精度和穩(wěn)健性的技術(shù),促進(jìn)了許多應(yīng)用領(lǐng)域的改進(jìn)。'聯(lián)邦學(xué)習(xí)[160]'是一種在中央伺服器上聚合客戶端模型的模型精度和魯棒性的應(yīng)用程序,使各方能夠?yàn)楹瘮?shù)的計(jì)算(例如各種統(tǒng)計(jì)數(shù)據(jù)、分類器[177])貢獻(xiàn)數(shù)據(jù),而不會帶來隱私?jīng)兜娘L(fēng)險(xiǎn)。 (教師)的軟目標(biāo)知識,訓(xùn)練一個小型的模型(學(xué)生)來適應(yīng)特定需求。 79],GPT[17]等。

為了確定訓(xùn)練網(wǎng)路的結(jié)果對於SGD 雜訊是否穩(wěn)定,損失屏障(誤差屏障)被定義為兩點(diǎn)損失線性內(nèi)插法與兩點(diǎn)線性連接損失之間的最大差[ 50]。損失屏障說明,沿著 W1 和 W2 之間的路徑優(yōu)化圖 [56, 61] ,誤差是恆定的還是增加的。如果兩個網(wǎng)路之間存在一條隧道,其屏障約等於0,則相當(dāng)於模式連接[46,59,60]。也就是說,SGD得到的局部極小值可以透過一條最大損失最小化的路徑 φ 連接起來。

基於梯度的最佳化所得到的解可以在權(quán)重空間中透過沒有屏障的路徑(連接器)連接起來,稱為模式連接[46, 50]??梢匝刂蛽p失路徑獲得更適合模型融合的其他模型。根據(jù)路徑的數(shù)學(xué)形式和連接器所在的空間,分為三個部分「線性模式連接(LMC)[66]」、「非線性模式連接」和「子空間的模式連接」」。

模式連接可以解決訓(xùn)練過程中的局部最佳化問題。模式連接路徑的幾何關(guān)係 [61, 162] 也可用於加速隨機(jī)梯度下降(SGD)等最佳化過程的收斂性、穩(wěn)定性和準(zhǔn)確性。總之,模式連結(jié)為解釋和理解模型融合的行為提供了新的視角[66]。然而計(jì)算複雜度和參數(shù)調(diào)整的困難應(yīng)該要解決,特別是在大型資料集上訓(xùn)練模型時。下表是線性模式連結(jié)(LMC)和非線性模式連結(jié)的標(biāo)準(zhǔn)訓(xùn)練流程總結(jié)。

綜述!深度模型融合(LLM/基礎(chǔ)模型/聯(lián)邦學(xué)習(xí)/微調(diào)等)

如圖是二維損失圖和其他維度子空間中的模式連結(jié)示意圖。左:兩個盆地最小值的線性內(nèi)插導(dǎo)致高損失屏障[46]。較低的兩個最佳值遵循接近恆定的低損失路徑(例如貝塞爾曲線、多邊框鍊等)[66]。 π(W2)是W2的排列對稱性的等價模型,與W1位於同一盆地。 Re-Basin 透過為各個流域提供解決方案來合併模型 [3]。右圖:低損失路徑連接子空間中的多個最小值(例如,由 d-維 楔形組成的低損失流形 [56])等)。

綜述!深度模型融合(LLM/基礎(chǔ)模型/聯(lián)邦學(xué)習(xí)/微調(diào)等)

下表是在不同局部最小值之間尋找隧道的方法。

綜述!深度模型融合(LLM/基礎(chǔ)模型/聯(lián)邦學(xué)習(xí)/微調(diào)等)

總之,模式連結(jié)為深度模型融合提供了更新、更靈活的視角。神經(jīng)網(wǎng)路的訓(xùn)練容易陷入局部最優(yōu),導(dǎo)致效能下降。在模型連接的基礎(chǔ)上,可以找到其他性能更好的模型,並將其作為進(jìn)一步優(yōu)化和融合的起點(diǎn)??梢岳靡呀?jīng)訓(xùn)練的模型在參數(shù)空間中移動來達(dá)到新的目標(biāo)模型,這樣可以節(jié)省時間和計(jì)算開銷,適合資料有限的情況。然而,在連接不同模型時,可能會引入額外的複雜性和靈活性,從而增加過度擬合的風(fēng)險(xiǎn)。因此,應(yīng)仔細(xì)控制相關(guān)的超參數(shù)和變化程度。此外,模式連接需要微調(diào)或參數(shù)更改,這可能會增加訓(xùn)練時間和資源消耗。綜上所述,模型連通性在模型融合方面具有許多優(yōu)勢,包括幫助克服局部最優(yōu)問題、提供解釋網(wǎng)路行為的新觀點(diǎn)等。未來,模式連結(jié)有望幫助理解神經(jīng)網(wǎng)路的內(nèi)部機(jī)制並提供指導(dǎo) 以便將來進(jìn)行更有效率的深度模型融合設(shè)計(jì)。

由於來自不同網(wǎng)路的通道和元件的隨機(jī)性,網(wǎng)路的活動元件會互相干擾[204]。因此,未對齊的加權(quán)平均值可能會忽略不同模型中單位之間的對應(yīng)關(guān)係並損壞有用資訊。例如,不同模型中的兩個神經(jīng)元之間存在一種關(guān)係,它們可能完全不同但功能相似。對齊是將不同模型的單元進(jìn)行匹配,從而為深度模型融合獲得更好的初始條件。其目的是使多個模型的差異更小,從而增強(qiáng)深度模型融合效果。此外,對齊本質(zhì)上可以被視為組合最佳化問題。一種代表性機(jī)制“Re-basin”,它為各個流域提供解決方案,合併具有更好原始條件的模型。根據(jù)對齊目標(biāo)是否是資料驅(qū)動的,對齊分為「啟動匹配」和「權(quán)重匹配」兩種類型,如表所示。

綜述!深度模型融合(LLM/基礎(chǔ)模型/聯(lián)邦學(xué)習(xí)/微調(diào)等)

一般來說,即使對於淺層神經(jīng)網(wǎng)絡(luò),鞍點(diǎn)和局部最優(yōu)的數(shù)量也會隨著參數(shù)數(shù)量呈指數(shù)增長[10, 66]。研究發(fā)現(xiàn),訓(xùn)練中存在不變性,導(dǎo)致這些局部最優(yōu)中的某些點(diǎn)具有相同的表示形式 [22,81,140]。具體來說,如果透過排列交換隱藏層的單元,則網(wǎng)路的功能不會改變,這稱為排列對稱性[43, 50]。

這些不變性所帶來的排列對稱性有助於更好地理解損失圖的結(jié)構(gòu) [22, 66]。不變性也可以被視為損失圖中鞍點(diǎn)的來源[14]。 [68]研究神經(jīng)網(wǎng)路中對稱性的代數(shù)結(jié)構(gòu)以及這種結(jié)構(gòu)如何在損失圖幾何中表現(xiàn)出來。 [14]在高維度平臺引入排列點(diǎn),在該點(diǎn)可以交換神經(jīng)元,而不會增加損失或參數(shù)跳躍。對損失進(jìn)行梯度下降,調(diào)整神經(jīng)元m和n的參數(shù)向量θm和θn,直到向量到達(dá)排列點(diǎn)。

基於排列對稱性,權(quán)空間中不同區(qū)域的解可以產(chǎn)生等價解。等效解位於與原始解相同的區(qū)域,具有低損失屏障(盆地),稱為“Re-basin”[3]。與模式連接相比,Re-basin傾向於透過排列而不是低損失隧道的方式將點(diǎn)傳輸?shù)脚璧刂小D壳?,對齊是Re-basin的代表性方法[3, 178]。然而,如何有效率地搜尋排列對稱性的所有可能性,使得所有解都指向同一個盆地是當(dāng)前的挑戰(zhàn)。

如圖是【14】引入排列點(diǎn)交換神經(jīng)元的示意圖。左:一般對齊過程,模型A參考模型B轉(zhuǎn)換為模型Ap,然後Ap和B的線性組合產(chǎn)生C。右:調(diào)整不同隱藏層兩個神經(jīng)元的參數(shù)向量θm和θn接近排列點(diǎn),在排列點(diǎn)[14]θ′m = θ′n,兩個神經(jīng)元計(jì)算相同的函數(shù),這表示兩個神經(jīng)元可以交換。

綜述!深度模型融合(LLM/基礎(chǔ)模型/聯(lián)邦學(xué)習(xí)/微調(diào)等)

對齊透過調(diào)整模型的參數(shù)使模型更加相似,可以提高模型之間的資訊共享,從而提高融合模型的泛化能力。此外,對齊有助於提高模型在複雜任務(wù)上的表現(xiàn)和穩(wěn)健性。然而,對齊方法面臨著組合優(yōu)化速度慢的問題。對齊需要額外的計(jì)算開銷來調(diào)整模型的參數(shù),這可能導(dǎo)致更複雜且耗時的訓(xùn)練過程,特別是在大深度模型中[142, 204]。

綜上所述,對齊可以提高不同模型之間的一致性和整體效果。隨著DL應(yīng)用場景的多樣化,對齊將成為優(yōu)化深度模型融合、提高泛化能力的關(guān)鍵方法之一。未來,對齊可以在遷移學(xué)習(xí)、領(lǐng)域自適應(yīng)[63]、知識蒸餾等領(lǐng)域發(fā)揮作用。例如,對齊可以減少遷移學(xué)習(xí)中源域和目標(biāo)域之間的差異,提高對新域的學(xué)習(xí) 。

由於神經(jīng)網(wǎng)路參數(shù)的高度冗餘,不同神經(jīng)網(wǎng)路的權(quán)值之間通常不存在一一對應(yīng)的關(guān)係。因此,通常不能保證權(quán)重平均(WA) 在預(yù)設(shè)情況下表現(xiàn)良好。對於權(quán)重差異較大的訓(xùn)練網(wǎng)絡(luò),普通平均值表現(xiàn)不佳[204]。從統(tǒng)計(jì)的角度來看,WA允許控制模型中的各個模型參數(shù),從而減少最終模型的方差,從而對正則化屬性和輸出結(jié)果產(chǎn)生可靠的影響[77, 166]。

下表是WA的代表性方法:

綜述!深度模型融合(LLM/基礎(chǔ)模型/聯(lián)邦學(xué)習(xí)/微調(diào)等)

快速幾何整合?( FGE) [66] 和檢查點(diǎn)平均[149] 的啟發(fā),[99]利用恆定或週期性學(xué)習(xí)率對SGD軌蹟?shù)亩鄠€點(diǎn)進(jìn)行平均,這被視為隨機(jī)權(quán)重平均(SWA)。 SWA 改進(jìn)了一系列重要基線的訓(xùn)練,提供了更好的時間可擴(kuò)展性。 SWA 不是訓(xùn)練一組收集的模型(如普通融合),而是訓(xùn)練單一模型來找到比 SGD 更平滑的解決方案。在下表中列出了與 SWA 相關(guān)的方法。此外,SWA 可以應(yīng)用於任何架構(gòu)或資料集,並展示比快照整合?(SSE) [91] 和 FGE 更好的效能。在每個週期結(jié)束時,對新獲得的權(quán)重與現(xiàn)有權(quán)重進(jìn)行平均來更新 SWA 模型。

綜述!深度模型融合(LLM/基礎(chǔ)模型/聯(lián)邦學(xué)習(xí)/微調(diào)等)

然而SWA只能對局部最優(yōu)點(diǎn)附近的點(diǎn)進(jìn)行平均,最後得到一個相對最小值,而無法準(zhǔn)確逼近最優(yōu)值。另外,由於某些因素(如前期收斂性差、學(xué)習(xí)率大、權(quán)重變化率快等),最終的輸入樣本偏差可能較大或不充分,導(dǎo)致整體效果不佳。大量工作往往會改變 SWA 的採樣方法。

如圖不同SWA相關(guān)方法的取樣與學(xué)習(xí)率安排比較。 (a) SWA:恆定學(xué)習(xí)率。 (b)SWA:週期性學(xué)習(xí)率。 (c)SWAD:密集採樣。 (d)HWA:利用線上和離線WA,以不同的同步週期取樣,滑動視窗長度為h。

綜述!深度模型融合(LLM/基礎(chǔ)模型/聯(lián)邦學(xué)習(xí)/微調(diào)等)

模型湯[239]是指以不同超參微調(diào)的模型進(jìn)行平均的方法。它簡單但有效,在 ImageNet-1K 上實(shí)現(xiàn)了 90.94% 的準(zhǔn)確率,超過了先前在 CoAtNet-7 (90.88%) [38] 和 ViT-G (90.45%) [255] 上的工作。如表總結(jié)了不同的模型湯方法。

綜述!深度模型融合(LLM/基礎(chǔ)模型/聯(lián)邦學(xué)習(xí)/微調(diào)等)

在 多任務(wù)學(xué)習(xí)(MTL )中,預(yù)訓(xùn)練模型和任務(wù)向量(即 τi = Wft ? Wpre,預(yù)訓(xùn)練模型和微調(diào)模型之間的差異)相結(jié)合,在所有任務(wù)上獲得更好的性能?;哆@個觀察,任務(wù)算術(shù)[94]透過加法和線性組合微調(diào)任務(wù)向量來提高模型在任務(wù)上的性能,這已成為直接編輯預(yù)訓(xùn)練模型的靈活高效的方法,如圖所示:採用任務(wù)算術(shù)和LoraHub(Low-rank adaptations Hub)。

綜述!深度模型融合(LLM/基礎(chǔ)模型/聯(lián)邦學(xué)習(xí)/微調(diào)等)

另外,子空間中的模型融合將訓(xùn)練軌跡限制在低維子空間中,可減少負(fù)載和難度。

WA 透過平均不同深度模型的權(quán)重來獲得最終模型,無需額外的計(jì)算複雜性或訓(xùn)練過程[109, 159]。一般來說,如果隨機(jī)模型在表示能力、結(jié)構(gòu)或訓(xùn)練資料方面有顯著差異,則融合的結(jié)果可能無法達(dá)到預(yù)期的表現(xiàn)。使用相同的超參配置但具有不同的資料順序從頭開始對模型進(jìn)行線性內(nèi)插甚至不如隨機(jī)模型有效[59]。因此,大量提出的方法旨在以其他數(shù)學(xué)方式最佳化 WA 過程。

此外,當(dāng)模型共享其最佳化軌跡的一部分(例如,檢查點(diǎn)平均、尾部平均、SWA [99, 149] 等)或在相同的預(yù)訓(xùn)練模型上進(jìn)行微調(diào)時(例如,模型湯[239] 等),內(nèi)插模型的準(zhǔn)確度表現(xiàn)較好[167]。此外,模型湯[239]對具有不同超參配置的模型進(jìn)行平均以獲得最終結(jié)果。此外,在模型平均值中選擇適當(dāng)?shù)臋?quán)重也可能是一個挑戰(zhàn),這通常充滿主觀性。更複雜的權(quán)重選擇機(jī)制可能需要大量複雜的試驗(yàn)和交叉驗(yàn)證。

WA是深度學(xué)習(xí)中一種很有前景的技術(shù),未來可以作為模型最佳化技術(shù),減少不同迭代之間的權(quán)值波動,提高穩(wěn)定性和收斂速度。 WA可以改進(jìn)聯(lián)邦學(xué)習(xí)(FL)的聚合階段,以更好地保護(hù)隱私並降低未來的通訊成本。此外,透過在終端設(shè)備上實(shí)施網(wǎng)路壓縮,可望減少模型在資源受限設(shè)備上的儲存空間和運(yùn)算開銷[250]。簡而言之,WA是一種有前途且具有成本效益的DL技術(shù),可以應(yīng)用於FL等領(lǐng)域,以提高效能並減少儲存開銷。

整合學(xué)習(xí),或稱為多分類器系統(tǒng),是一種整合多個單一模型來產(chǎn)生最終預(yù)測的技術(shù),包括投票、平均[195]等。它提高了整體性能並減少了模型的方差,解決了諸如過擬合、 不穩(wěn)定,數(shù)據(jù)量有限。

基於現(xiàn)有的預(yù)訓(xùn)練源模型,模型重用[266]提供了應(yīng)用於新任務(wù)所需的模型,而無需從頭開始重新訓(xùn)練新模型。它可以節(jié)省時間和計(jì)算資源,並在資源有限的情況下提供更好的效能[249]。另外,由於遷移學(xué)習(xí)的重點(diǎn)是解決目標(biāo)領(lǐng)域上的預(yù)測任務(wù),因此模型重複使用可以視為遷移學(xué)習(xí)的一種。但遷移學(xué)習(xí)需要源域和目標(biāo)域的標(biāo)記數(shù)據(jù),而在模型重用中,只能收集未標(biāo)記的數(shù)據(jù),而不能使用源域的數(shù)據(jù)[153]。

與多分類器整合學(xué)習(xí)不同,大多數(shù)當(dāng)前方法重複使用現(xiàn)有的特徵、標(biāo)籤或模態(tài)來獲得最終預(yù)測[176, 266],而不儲存大量訓(xùn)練資料[245]。模型重用的另一個關(guān)鍵挑戰(zhàn)是從一組針對給定學(xué)習(xí)任務(wù)的預(yù)訓(xùn)練模型中識別有用的模型。

使用單一模型進(jìn)行模型重複使用會產(chǎn)生過多的同質(zhì)資訊(例如,在一個領(lǐng)域訓(xùn)練的模型可能不適合另一個領(lǐng)域的資料),並且很難找到完全適合目標(biāo)領(lǐng)域的單一預(yù)訓(xùn)練模型。一般來說,用一組相似的模型來產(chǎn)生比單一模型更好的性能,這被表示為多模型重用(MMR)[153]。

下表比較不同複用方法的特點(diǎn),簡而言之,模型復(fù)用可以顯著減少使用預(yù)訓(xùn)練模型所需的資料量,解決不同端之間傳輸資料時消耗大量頻寬的問題。多模型復(fù)用也有廣泛的應(yīng)用,例如語音辨識、安全隱私互動系統(tǒng)、數(shù)位視網(wǎng)膜[64]等。

綜述!深度模型融合(LLM/基礎(chǔ)模型/聯(lián)邦學(xué)習(xí)/微調(diào)等)

與聯(lián)邦學(xué)習(xí)[88,89,160]等對模型參數(shù)和規(guī)模有一定要求的相關(guān)模型融合演算法相比,集成學(xué)習(xí)方法利用預(yù)測來組合多個異構(gòu)弱分類器,沒有這樣的限制。另外,集成方法中不同架構(gòu)的網(wǎng)路會比WA有更明顯的比較效果。然而,整合方法需要維護(hù)和運(yùn)行多個經(jīng)過訓(xùn)練的模型,並在測試時將它們一起運(yùn)行??紤]到深度學(xué)習(xí)模型的規(guī)模和複雜性,這種方法不適合計(jì)算資源和成本有限的應(yīng)用[204]。

由於整合學(xué)習(xí)框架的多樣性,可以實(shí)現(xiàn)模型多樣性並增強(qiáng)泛化能力。將來,這對於處理資料變化和對抗性攻擊非常重要。深度學(xué)習(xí)中的整合學(xué)習(xí)有望為模型預(yù)測提供置信度估計(jì)和不確定性測量,這對於決策支援系統(tǒng)、自動駕駛[74]、醫(yī)療診斷等的安全性和可靠性至關(guān)重要。

近年來,深度模型融合領(lǐng)域出現(xiàn)了大量的新研究,也推動了相關(guān)應(yīng)用領(lǐng)域的發(fā)展。

聯(lián)邦學(xué)習(xí)

為了解決資料儲存的安全性和集中化挑戰(zhàn),聯(lián)邦學(xué)習(xí)(FL) [160, 170]允許許多參與模型協(xié)作訓(xùn)練共享的全域模型,同時保護(hù)資料隱私,而無需將資料集集中在中央伺服器上。它也可以被視為多-方學(xué)習(xí)問題[177]。特別是,聚合是 FL 的一個重要過程,它包含了由各方(例如設(shè)備、組織或個人)訓(xùn)練的模型或參數(shù)更新。如圖示範(fàn)了集中式和分散式 FL 中的兩種不同聚合方法。 ,左:中央伺服器和客戶端終端之間的集中式聯(lián)邦學(xué)習(xí),遷移模型或梯度,最終聚合在伺服器上。右:分散式聯(lián)合學(xué)習(xí)在客戶端終端之間傳輸和聚合模型,無需中央伺服器。

綜述!深度模型融合(LLM/基礎(chǔ)模型/聯(lián)邦學(xué)習(xí)/微調(diào)等)

下表是聯(lián)邦學(xué)習(xí)的不同聚合方法:

綜述!深度模型融合(LLM/基礎(chǔ)模型/聯(lián)邦學(xué)習(xí)/微調(diào)等)

#簡而言之,F(xiàn)L 中聚合步驟的本質(zhì)是一種模型融合技術(shù)。選擇合理的模型融合方法可以減少特定參與者或個別資料對最終模型的影響,從而提高模型在全局範(fàn)圍內(nèi)的泛化能力和適應(yīng)性。今後良好的聚合方法有望有助於應(yīng)對聯(lián)邦學(xué)習(xí)中的一系列挑戰(zhàn)。高品質(zhì)且可擴(kuò)展的聚合方法預(yù)計(jì)將面臨FL的一系列挑戰(zhàn),例如客戶端異質(zhì)性、非獨(dú)立同分佈異質(zhì)資料、有限的計(jì)算資源[141]等。 FL可望展現(xiàn)其潛力在更多領(lǐng)域中,例如自然語言處理、推薦系統(tǒng)[146]、醫(yī)學(xué)影像分析[144]等。

微調(diào)

微調(diào)是一個基本模式(例如預(yù)訓(xùn)練模型),是調(diào)整模型以執(zhí)行下游任務(wù)的有效方法[23, 41],這可以使用更少的標(biāo)記數(shù)據(jù)獲得更好的泛化和更準(zhǔn)確的輸出。與隨機(jī)初始化相比,預(yù)訓(xùn)練模型是透過相對一組特定於任務(wù)的資料來訓(xùn)練的,這始終是更好的訓(xùn)練標(biāo)準(zhǔn)起點(diǎn)。儘管如此?,F(xiàn)有微調(diào)模型 [28, 29] 的平均值甚至是比普通預(yù)訓(xùn)練模型更好的基礎(chǔ)模型,用於對下游任務(wù)進(jìn)行微調(diào)。

此外,最近有大量將 WA 與微調(diào)結(jié)合的工作,如圖所示,例如 model soup [239]、DiWA [190] 等。微調(diào)提高了目標(biāo)分佈的準(zhǔn)確性,但往往導(dǎo)致分佈變化的穩(wěn)健性下降。將微調(diào)模型平均的策略可能很簡單,但它們沒有充分利用每個微調(diào)模型之間的連結(jié)。因此,在目標(biāo)任務(wù)訓(xùn)練之前先進(jìn)行中間任務(wù)訓(xùn)練可以探索基礎(chǔ)模型的能力[180,185,224]。受相互訓(xùn)練策略 [185] 的啟發(fā),[188]微調(diào)輔助任務(wù)的模型,利用不同的輔助任務(wù)並提高分佈外(OOD)泛化能力。

綜述!深度模型融合(LLM/基礎(chǔ)模型/聯(lián)邦學(xué)習(xí)/微調(diào)等)

微調(diào)模型的平均值減少了實(shí)現(xiàn)目標(biāo)所需的訓(xùn)練時間[28],並產(chǎn)生更準(zhǔn)確和更好的泛化模型。本質(zhì)上,不同的微調(diào)方式(例如,凍結(jié)層微調(diào)、頂層微調(diào)等)也會對最終的精度和分佈偏移產(chǎn)生一定的影響[240]。然而,WA和微調(diào)的結(jié)合是昂貴的開銷,對具體應(yīng)用有一定的限制。此外,它可能面臨保存檢查點(diǎn)爆炸或?yàn)?zāi)難性遺忘的問題[121],特別是應(yīng)用於遷移學(xué)習(xí)。

知識蒸餾

知識蒸餾(KD)[83]是整合多個模型的重要方法,涉及以下兩類模型。 教師模型是指在大規(guī)模資料上訓(xùn)練的大型且強(qiáng)大的模型,具有較高的預(yù)測能力和表達(dá)能力。 學(xué)生模型是一個相對較小的模型,具有較少的參數(shù)和計(jì)算資源 [18, 199]。利用教師的知識(例如輸出機(jī)率分佈、隱藏層表示等)指導(dǎo)訓(xùn)練,學(xué)生可以用更少的資源和更快的速度達(dá)到接近大型模型的預(yù)測能力[2, 119, 124 ,221]??紤]到多個教師或?qū)W生的表現(xiàn)預(yù)計(jì)比單一模型[6]更好,根據(jù)聚合目標(biāo)將 KD 分為兩類,如圖所示。

綜述!深度模型融合(LLM/基礎(chǔ)模型/聯(lián)邦學(xué)習(xí)/微調(diào)等)

第一類方法是合併多個教師模型並直接提取學(xué)生模型,如表所示。目前,最近的工作主要整合教師的產(chǎn)出(例如,logits [6,49,252]或特徵) 基礎(chǔ)知識 [143, 241] 等)。

綜述!深度模型融合(LLM/基礎(chǔ)模型/聯(lián)邦學(xué)習(xí)/微調(diào)等)

另一種方法是使用教師模型提取多個學(xué)生,然後合併這些學(xué)生模型。然而,合併多學(xué)生也存在一些問題,例如計(jì)算資源需求大、解釋性差、過度依賴原始模型等。

基礎(chǔ)模型/LLMs的模型融合

基礎(chǔ)模型在處理複雜任務(wù)時表現(xiàn)出強(qiáng)大的性能和突現(xiàn)能力,大型基礎(chǔ)模型的特徵是其龐大的規(guī)模,包含數(shù)十億個參數(shù),幫助學(xué)習(xí)數(shù)據(jù)中的複雜模式。特別是,隨著最近新的LLM [200, 264]的出現(xiàn),如GPT-3 [17, 172],T5 [187],BERT [41],Megatron-LM,WA的應(yīng)用[154, 212, 256 ] ] LLM引起了更多關(guān)注。

此外,最近的工作 [120, 256] 傾向於設(shè)計(jì)更好的框架和模組來適應(yīng)應(yīng)用LLM。由於高效能和低運(yùn)算資源,對大型基礎(chǔ)模型進(jìn)行微調(diào)可以提高分佈變化的穩(wěn)健性[240]。

#

以上是綜述!深度模型融合(LLM/基礎(chǔ)模型/聯(lián)邦學(xué)習(xí)/微調(diào)等)的詳細(xì)內(nèi)容。更多資訊請關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本網(wǎng)站聲明
本文內(nèi)容由網(wǎng)友自願投稿,版權(quán)歸原作者所有。本站不承擔(dān)相應(yīng)的法律責(zé)任。如發(fā)現(xiàn)涉嫌抄襲或侵權(quán)的內(nèi)容,請聯(lián)絡(luò)admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費(fèi)脫衣圖片

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅(qū)動的應(yīng)用程序,用於創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費(fèi)的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費(fèi)的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強(qiáng)大的PHP整合開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網(wǎng)頁開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Laravel 教程
1597
29
PHP教程
1488
72
我如何查看我的git存儲庫的提交歷史? 我如何查看我的git存儲庫的提交歷史? Jul 13, 2025 am 12:07 AM

要查看Git提交歷史,使用gitlog命令。 1.基本用法為gitlog,可顯示提交哈希、作者、日期和提交信息;2.使用gitlog--oneline獲取簡潔視圖;3.通過--author和--grep按作者或提交信息過濾;4.添加-p查看代碼變更,--stat查看變更統(tǒng)計(jì);5.使用--graph和--all查看分支歷史,或借助GitKraken、VSCode等可視化工具。

如何刪除git分支? 如何刪除git分支? Jul 13, 2025 am 12:02 AM

要刪除Git分支,首先確保已合併或無需保留,使用gitbranch-d刪除本地已合併分支,若需強(qiáng)制刪除未合併分支則用-D參數(shù)。遠(yuǎn)程分支刪除使用gitpushorigin--deletebranch-name命令,並可通過gitfetch--prune同步他人本地倉庫。 1.刪除本地分支需確認(rèn)是否已合併;2.遠(yuǎn)程分支刪除需使用--delete參數(shù);3.刪除後應(yīng)驗(yàn)證分支是否成功移除;4.與團(tuán)隊(duì)溝通避免誤刪共享分支;5.定期清理無用分支以保持倉庫整潔。

如何辨別假山寨幣?教你避免幣圈騙局 如何辨別假山寨幣?教你避免幣圈騙局 Jul 15, 2025 pm 10:36 PM

要辨別假山寨幣需從六個方面入手。一、查驗(yàn)證明材料與項(xiàng)目背景,包括白皮書、官網(wǎng)、代碼開源地址及團(tuán)隊(duì)透明度;二、觀察上線平臺,優(yōu)先選擇主流交易所;三、警惕高額回報(bào)與拉人頭模式,避免資金盤陷阱;四、分析合約代碼與代幣機(jī)制,檢查是否存在惡意函數(shù);五、審查社群與媒體運(yùn)營,識別虛假熱度;六、遵循防騙實(shí)戰(zhàn)建議,如不輕信推薦、使用專業(yè)錢包。通過以上步驟可有效規(guī)避騙局,保護(hù)資產(chǎn)安全。

如何將子樹添加到我的git存儲庫中? 如何將子樹添加到我的git存儲庫中? Jul 16, 2025 am 01:48 AM

要將子樹添加到Git倉庫,首先添加遠(yuǎn)程倉庫並獲取其歷史記錄,接著使用gitmerge和gitread-tree命令將其合併為子目錄。步驟如下:1.使用gitremoteadd-f命令添加遠(yuǎn)程倉庫;2.運(yùn)行g(shù)itmerge--srecursive--no-commit獲取分支內(nèi)容;3.使用gitread-tree--prefix=指定目錄將項(xiàng)目作為子樹合併;4.提交更改以完成添加;5.更新時先gitfetch再重複合併步驟提交更新。此方法保持外部項(xiàng)目歷史完整且便於維護(hù)。

什麼是Useless Coin(USELESS幣)? USELESS幣用途、突出特點(diǎn)及未來增長潛力概述 什麼是Useless Coin(USELESS幣)? USELESS幣用途、突出特點(diǎn)及未來增長潛力概述 Jul 24, 2025 pm 11:54 PM

目錄關(guān)鍵要點(diǎn)什麼是UselessCoin:概述和主要特徵USELESS的主要特點(diǎn)UselessCoin(USELESS)未來價格展望:2025年及以後什麼影響UselessCoin的價格?未來價格前景UselessCoin(USELESS)的核心功能及其重要性UselessCoin(USELESS)如何運(yùn)作以及它帶來的好處UselessCoin的工作原理主要優(yōu)點(diǎn)關(guān)於USELESSCoin的公司本組織的伙伴關(guān)係他們?nèi)绾螀f(xié)同工

成品python大片在線觀看入口 python免費(fèi)成品網(wǎng)站大全 成品python大片在線觀看入口 python免費(fèi)成品網(wǎng)站大全 Jul 23, 2025 pm 12:36 PM

本文為您精選了多個頂級的Python“成品”項(xiàng)目網(wǎng)站與高水平“大片”級學(xué)習(xí)資源入口。無論您是想尋找開發(fā)靈感、觀摩學(xué)習(xí)大師級的源代碼,還是系統(tǒng)性地提昇實(shí)戰(zhàn)能力,這些平臺都是不容錯過的寶庫,能幫助您快速成長為Python高手。

比特幣代號是什麼?比特幣是什麼樣式的代碼? 比特幣代號是什麼?比特幣是什麼樣式的代碼? Jul 22, 2025 pm 09:51 PM

比特幣作為數(shù)字世界的先驅(qū),其獨(dú)特的代號和底層技術(shù)一直是人們關(guān)注的焦點(diǎn)。它的標(biāo)準(zhǔn)代號是 BTC,在某些符合國際標(biāo)準(zhǔn)的平臺上也被稱為 XBT。從技術(shù)角度看,比特幣並非單一的代碼樣式,而是一個龐大且精密的開源軟件項(xiàng)目,其核心代碼主要由 C 語言編寫,並融合了密碼學(xué)、分佈式系統(tǒng)和經(jīng)濟(jì)學(xué)原理,任何人都可以查看、審查和貢獻(xiàn)其代碼。

如何在PHP環(huán)境中設(shè)置環(huán)境變量 PHP運(yùn)行環(huán)境變量添加說明 如何在PHP環(huán)境中設(shè)置環(huán)境變量 PHP運(yùn)行環(huán)境變量添加說明 Jul 25, 2025 pm 08:33 PM

PHP設(shè)置環(huán)境變量主要有三種方式:1.通過php.ini全局配置;2.通過Web服務(wù)器(如Apache的SetEnv或Nginx的fastcgi_param)傳遞;3.在PHP腳本中使用putenv()函數(shù)。其中,php.ini適用於全局且不常變的配置,Web服務(wù)器配置適用於需要隔離的場景,putenv()適用於臨時性的變量。持久化策略包括配置文件(如php.ini或Web服務(wù)器配置)、.env文件配合dotenv庫加載、CI/CD流程中動態(tài)注入變量。安全管理敏感信息應(yīng)避免硬編碼,推薦使用.en

See all articles