亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

目錄
(1)設(shè)計(jì)了一個(gè)微基準(zhǔn)來(lái)分離數(shù)值精度對(duì)數(shù)值偏差的影響。
(2)基於 Wasserstein Distance 度量進(jìn)行了資料驅(qū)動(dòng)的分析。
實(shí)驗(yàn)方法
透過(guò)微基準(zhǔn)量化數(shù)值偏差
透過(guò)權(quán)重差異來(lái)了解數(shù)值偏差
首頁(yè) 科技週邊 人工智慧 Flash Attention穩(wěn)定嗎? Meta、哈佛發(fā)現(xiàn)其模型權(quán)重偏差呈現(xiàn)數(shù)量級(jí)波動(dòng)

Flash Attention穩(wěn)定嗎? Meta、哈佛發(fā)現(xiàn)其模型權(quán)重偏差呈現(xiàn)數(shù)量級(jí)波動(dòng)

May 30, 2024 pm 01:24 PM
人工智慧 機(jī)器學(xué)習(xí) ai 模型

Meta FAIR 聯(lián)合哈佛優(yōu)化大規(guī)模機(jī)器學(xué)習(xí)時(shí)產(chǎn)生的資料偏差,提供了新的研究架構(gòu)。

據(jù)所周知,大語(yǔ)言模型的訓(xùn)練常常需要數(shù)月的時(shí)間,使用數(shù)百甚至上千個(gè)GPU。以LLaMA2 70B模型為例,其訓(xùn)練總共需要1,720,320個(gè)GPU小時(shí)。由於這些工作負(fù)載的規(guī)模和複雜性,導(dǎo)致訓(xùn)練大模型存在著獨(dú)特的系統(tǒng)性挑戰(zhàn)。

最近,許多機(jī)構(gòu)在訓(xùn)練SOTA生成式AI模型時(shí)報(bào)告了訓(xùn)練過(guò)程中的不穩(wěn)定情況,它們通常以損失尖峰的形式出現(xiàn),例如Google的PaLM模型訓(xùn)練過(guò)程中出現(xiàn)了多達(dá)20次的損失尖峰。

數(shù)值偏差是造成這種訓(xùn)練不準(zhǔn)確性的根因,由於大語(yǔ)言模型訓(xùn)練執(zhí)行成本極高,如何量化數(shù)值偏差儼然成為關(guān)鍵問(wèn)題。

在最新的一項(xiàng)工作中,來(lái)自 Meta、哈佛大學(xué)的研究者開(kāi)發(fā)了一個(gè)原則性定量方法來(lái)理解訓(xùn)練優(yōu)化中的數(shù)值偏差。以此評(píng)估不同的最新最佳化技術(shù),並確定它們?cè)谟渺队?xùn)練大模型時(shí)是否可能引入意外的不穩(wěn)定性。 研究者發(fā)現(xiàn),儘管現(xiàn)有的最佳化方法在一些任務(wù)上表現(xiàn)出色,但在大型模型上應(yīng)用時(shí),會(huì)出現(xiàn)一些數(shù)值偏差。這種數(shù)值偏差可能會(huì)在訓(xùn)練過(guò)程中產(chǎn)生不穩(wěn)定性,導(dǎo)致模型的表現(xiàn)下降。 為了解決這個(gè)問(wèn)題,研究者提出了一種基於原則性量化方法的最佳化

Flash Attention穩(wěn)定嗎?Meta、哈佛發(fā)現(xiàn)其模型權(quán)重偏差呈現(xiàn)數(shù)量級(jí)波動(dòng)


  • 論文標(biāo)題:Is Flash Attention Stable?
  • 論文連結(jié):https://arxiv.org/pdf/2405.02803

結(jié)果發(fā)現(xiàn),在單獨(dú)的前向傳遞過(guò)程中,F(xiàn)lash Attention 的數(shù)值偏差比BF16 的Baseline Attention 大一個(gè)數(shù)量級(jí)。

具體而言,該方法包括兩個(gè)階段,包括:

  • #開(kāi)發(fā)一個(gè)微基準(zhǔn)來(lái)擾動(dòng)給定最佳化中的數(shù)值精度;
  • 透過(guò)基於Wasserstein 距離的資料驅(qū)動(dòng)分析評(píng)估數(shù)值偏差如何轉(zhuǎn)換為模型權(quán)重的變化。

研究者分析了 SOTA 最佳化技術(shù) Flash Attention,並量化了可可能引入的數(shù)值偏差。 Flash Attention 是一種廣泛用於加速注意力機(jī)制的技術(shù),通常被認(rèn)為是 Transformer 模型中的系統(tǒng)瓶頸。 Flash Attention 在提高速度和減少記憶體存取量的同時(shí),也依賴(lài)演算法最佳化,而演算法最佳化有可能導(dǎo)致數(shù)值偏差的增加。

研究者假設(shè)添加重新縮放因子(rescaling factors )可能會(huì)引入無(wú)意的近似,導(dǎo)致數(shù)值折衷,這可能會(huì)在後續(xù)影響訓(xùn)練穩(wěn)定性。

他們?cè)诙嗄B(tài)文字到影像工作負(fù)載的背景下分析了 Flash Attention,以確定 Flash Attention 與其基準(zhǔn)之間數(shù)值偏差的潛在重要性。最終,他們引入了一個(gè)框架來(lái)量化訓(xùn)練優(yōu)化的數(shù)值偏差及其下游影響。

研究者在數(shù)值偏差量化上主要做出了以下兩點(diǎn)貢獻(xiàn):

(1)設(shè)計(jì)了一個(gè)微基準(zhǔn)來(lái)分離數(shù)值精度對(duì)數(shù)值偏差的影響。

研究者所設(shè)計(jì)的微基準(zhǔn)作為一種技術(shù),用於衡量和量化傳統(tǒng)黑盒最佳化(如 Flash Attention)所導(dǎo)致的數(shù)值偏差。透過(guò)擾動(dòng)通常在提供的內(nèi)核中不可用的方面,他們開(kāi)創(chuàng)性地發(fā)現(xiàn)在低數(shù)值精度(BF16)下,與 Baseline Attention 相比,F(xiàn)lash Attention 的數(shù)值偏差大約高出一個(gè)數(shù)量級(jí)。

(2)基於 Wasserstein Distance 度量進(jìn)行了資料驅(qū)動(dòng)的分析。

透過(guò)此分析,研究者將觀察到的數(shù)值偏差置於上下文,並為其對(duì)下游模型屬性的影響形成一個(gè)上限(upper bound)。在研究者的案例研究中,他們能夠限制觀察到的數(shù)值偏差的影響,並發(fā)現(xiàn):「Flash Attention 引入的模型權(quán)重偏差大約為低精度訓(xùn)練的1/2 至1/5 倍。」

這項(xiàng)研究強(qiáng)調(diào)了開(kāi)發(fā)一種原則性方法的重要性:「不僅要量化,而且要將訓(xùn)練優(yōu)化對(duì)數(shù)值偏差的影響置於上下文中?!雇高^(guò)建立代理(proxies)來(lái)將數(shù)值偏差置於上下文中,旨在推斷通常難以衡量的下游模型效果(即訓(xùn)練不穩(wěn)定性)的可能性。

實(shí)驗(yàn)方法

研究者首先發(fā)展了一個(gè)微基準(zhǔn)來(lái)分離並研究 Flash Attention 所造成的數(shù)值偏差。如圖 2 所示,他們透過(guò)對(duì) Flash Attention 進(jìn)行數(shù)值上的重新實(shí)現(xiàn),以分析不同的數(shù)值精度,並在演算法的每個(gè)步驟應(yīng)用潛在的最佳化措施。

Flash Attention穩(wěn)定嗎?Meta、哈佛發(fā)現(xiàn)其模型權(quán)重偏差呈現(xiàn)數(shù)量級(jí)波動(dòng)

圖 2: 微基準(zhǔn)設(shè)計(jì)摘要。

這是必要的,因?yàn)?Flash Attention 核心目前僅支援 FP16 和 BF16 數(shù)值格式。該核心也是 CUDA 程式碼的包裝 API 調(diào)用,這使得擾動(dòng)演算法以檢查數(shù)值偏差的影響變得具有挑戰(zhàn)性。

相比之下,他們的微基準(zhǔn)設(shè)計(jì)允許在演算法內(nèi)部進(jìn)行精度輸入和修改。研究者將微基準(zhǔn)與原始的 Flash Attention kernel 進(jìn)行了驗(yàn)證。

他們進(jìn)一步設(shè)計(jì)了一種技術(shù),以比較模型執(zhí)行過(guò)程中每個(gè)步驟的 Attention 矩陣的輸出。並修改了模型程式碼,每次呼叫注意力時(shí)都計(jì)算 Baseline Attention 和 Flash Attention,這允許對(duì)相同的輸入矩陣進(jìn)行精確的輸出矩陣比較。

為了將其置於上下文中,研究者也透過(guò)相同和獨(dú)立的訓(xùn)練運(yùn)行,使用 Max difference 和 Wasserstein Distance 度量來(lái)量化模型權(quán)重在整個(gè)訓(xùn)練過(guò)程中的差異。

對(duì)於訓(xùn)練實(shí)驗(yàn),研究者則使用一種將文字輸入轉(zhuǎn)換為圖像的生成式 AI workload(即文字到圖像模型)。他們使用 Shutterstock 資料集重新訓(xùn)練模型,並在一組英偉達(dá) 80GB A100 GPU 叢集上執(zhí)行此實(shí)驗(yàn)。

透過(guò)微基準(zhǔn)量化數(shù)值偏差

#研究者首先分析了 Flash Attention 在前向傳遞過(guò)程中的影響。他們利用微基準(zhǔn)測(cè)試,在隨機(jī)初始化查詢(xún)、鍵、值向量相同的情況下,檢驗(yàn)不同數(shù)值精確度對(duì) Attention 計(jì)算的輸出矩陣的影響。

如圖3 所示,當(dāng)研究者使用從BF16 到FP64 變化的不同數(shù)值格式時(shí),F(xiàn)lash Attention 和Baseline Attention 之間的數(shù)值偏差隨著尾數(shù)位數(shù)的增加而減小。這表明數(shù)值差異是由於較少的尾數(shù)位數(shù)所固有的近似造成的。

Flash Attention穩(wěn)定嗎?Meta、哈佛發(fā)現(xiàn)其模型權(quán)重偏差呈現(xiàn)數(shù)量級(jí)波動(dòng)

圖 3:數(shù)值格式對(duì)於 Flash Attention 的數(shù)值偏差所產(chǎn)生的效果。

之後,研究者為進(jìn)行標(biāo)準(zhǔn)比較,在FP64 數(shù)值格式下的Baseline Attention 設(shè)定了「黃金值」,然後將不同數(shù)值格式下的Attention 輸出與該值進(jìn)行了比較(如圖4 所示)。

Flash Attention穩(wěn)定嗎?Meta、哈佛發(fā)現(xiàn)其模型權(quán)重偏差呈現(xiàn)數(shù)量級(jí)波動(dòng)

圖 4:FP64 下 Baseline Attention「黃金值」的比較。

結(jié)果表明,F(xiàn)lash Attention 的數(shù)值偏差大約是 BF16 下 Baseline 的 10 倍。

為了進(jìn)一步分析這種觀察到的數(shù)值偏差,研究者保持 tile 大小和 SRAM 大小不變的同時(shí),掃描了矩陣的序列長(zhǎng)度(如圖 5 所示)。

Flash Attention穩(wěn)定嗎?Meta、哈佛發(fā)現(xiàn)其模型權(quán)重偏差呈現(xiàn)數(shù)量級(jí)波動(dòng)

圖 5: 序列長(zhǎng)度對(duì) Flash Attention 數(shù)值偏差的影響。

如圖所示,隨著序列長(zhǎng)度的增加,無(wú)論是透過(guò)(a)最大差異上限的測(cè)量,或是透過(guò)(b)差異的平均值和標(biāo)準(zhǔn)差的測(cè)量,F(xiàn)lash Attention和Baseline Attention 之間的數(shù)值偏差都在增加。

除此之外,研究者也利用微基準(zhǔn)設(shè)計(jì)進(jìn)行不同最佳化的實(shí)驗(yàn),以便更了解數(shù)值偏差的影響(如圖 6 所示)。

圖 6a 顯示了調(diào)換 block 維數(shù)的順序如何導(dǎo)致 Flash Attention 和 Baseline Attention 之間的數(shù)值差異增大。圖 6b 中的其他擾動(dòng),例如限制 tile 大小為正方形,不會(huì)對(duì)數(shù)值偏差產(chǎn)生影響。圖 6c 顯示了 block/tile 大小越大,數(shù)值偏差越小。

Flash Attention穩(wěn)定嗎?Meta、哈佛發(fā)現(xiàn)其模型權(quán)重偏差呈現(xiàn)數(shù)量級(jí)波動(dòng)

圖 6: 演算法的改變及其對(duì)觀察到的數(shù)值偏差的影響。

透過(guò)權(quán)重差異來(lái)了解數(shù)值偏差

雖然在前向傳遞過(guò)程中,F(xiàn)lash Attention 可能會(huì)導(dǎo)致Attention 輸出的數(shù)值偏差,但這項(xiàng)研究的最終目標(biāo)是確定這是否會(huì)在模型訓(xùn)練過(guò)程中產(chǎn)生任何影響,以研究它是否會(huì)導(dǎo)致訓(xùn)練的不穩(wěn)定性。

因此,研究者希望量化 Flash Attention 是否在訓(xùn)練過(guò)程中改變了模型,即上文觀察到的 Attention 輸出差異是否反映在訓(xùn)練過(guò)程中更新的模型權(quán)重中。

研究者利用兩個(gè)指標(biāo)來(lái)測(cè)量使用 Baseline Attention 訓(xùn)練的模型與使用 Flash Attention 訓(xùn)練的模型之間的模型權(quán)重差異。首先計(jì)算最大差異,即找出權(quán)重矩陣之間差異的絕對(duì)值並取最大值,從而得出偏差的上限,如下所示:

Flash Attention穩(wěn)定嗎?Meta、哈佛發(fā)現(xiàn)其模型權(quán)重偏差呈現(xiàn)數(shù)量級(jí)波動(dòng)

雖然最大差值提供了數(shù)值偏差的上限,但它沒(méi)有考慮到每個(gè)矩陣的分佈。因此,研究者透過(guò) Wasserstein Distance 來(lái)量化權(quán)重差異,這是衡量張量之間相似性的常用度量。雖然在計(jì)算上稍微複雜,但 Wasserstein Distance 包含了張量分佈的形狀資訊以衡量相似性。計(jì)算公式概述如下:

Flash Attention穩(wěn)定嗎?Meta、哈佛發(fā)現(xiàn)其模型權(quán)重偏差呈現(xiàn)數(shù)量級(jí)波動(dòng)

數(shù)值越低,表示矩陣之間的相似度越高。

利用這兩個(gè)指標(biāo),研究者隨後量化了在整個(gè)訓(xùn)練過(guò)程中與Baseline Attention 相比,F(xiàn)lash Attention 的模型權(quán)重是如何變化的:

Flash Attention穩(wěn)定嗎?Meta、哈佛發(fā)現(xiàn)其模型權(quán)重偏差呈現(xiàn)數(shù)量級(jí)波動(dòng)

#根據(jù)Wasserstein Distance 和Max Difference 這兩個(gè)指標(biāo),在整個(gè)訓(xùn)練過(guò)程中,F(xiàn)lash Attention 的加入確實(shí)改變了模型權(quán)重,而且隨著訓(xùn)練的繼續(xù),這種差異只會(huì)越來(lái)越大,這顯示了使用Flash Attention 訓(xùn)練的模型與使用Baseline Attention 訓(xùn)練的相同模型收斂到了不同的模型。

然而,訓(xùn)練是一個(gè)隨機(jī)過(guò)程,某些模型結(jié)構(gòu)的改變可能會(huì)在下游效應(yīng)和準(zhǔn)確性方面產(chǎn)生相似的結(jié)果。即使使用 Flash Attention 和 Baseline Attention 訓(xùn)練的模型權(quán)重不同,這也是值得關(guān)注的。

完全訓(xùn)練模型並評(píng)估準(zhǔn)確性是一項(xiàng)昂貴且資源密集的任務(wù),特別是對(duì)於訓(xùn)練需要數(shù)月的大模型來(lái)說(shuō)。

研究者透過(guò)配置一個(gè) proxy 來(lái)探索:

(a) 這些權(quán)重變化的意義有多大?

(b) 能否將其與其他廣泛採(cǎi)用的訓(xùn)練優(yōu)化中的標(biāo)準(zhǔn)權(quán)重變化聯(lián)繫起來(lái)?

為了實(shí)現(xiàn)這一目標(biāo),研究者設(shè)計(jì)了一系列實(shí)驗(yàn)來(lái)比較在不同場(chǎng)景下,訓(xùn)練過(guò)程中的權(quán)重差異是如何變化的。

除了對(duì)比使用 Flash Attention 和 Baseline Attention 的訓(xùn)練過(guò)程外,他們還量化了在訓(xùn)練開(kāi)始時(shí)權(quán)重被初始化為不同隨機(jī)值的相同訓(xùn)練過(guò)程中的權(quán)重差異。這提供了一個(gè)界限,因?yàn)殡S機(jī)權(quán)重初始化是一種常用的技術(shù),並且通常會(huì)產(chǎn)生等效的結(jié)果。

此外,研究者也測(cè)量了使用不同精度訓(xùn)練的模型權(quán)重的變化。數(shù)值精確度(即 FP16 與 FP32)有可能導(dǎo)致下游變化,這作為確定了 Flash Attention 權(quán)重重要性的一個(gè)上限。

如圖8 所示,可以發(fā)現(xiàn),使用Flash Attention 的模型權(quán)重偏差變化率與不同模型初始化的權(quán)重偏差變化率相當(dāng)或更?。ㄗ⒁饧t色和藍(lán)色曲線的斜率)。

此外,使用 FP16 與 FP32 時(shí)的權(quán)重變化率比不同模型初始化時(shí)的權(quán)重變化率更高,變化也更大。

這些結(jié)果提供了一個(gè)proxy,並表明:「雖然Flash Attention 會(huì)出現(xiàn)數(shù)值偏差,但它會(huì)被隨機(jī)模型初始化和低精度訓(xùn)練所限制。而且所引入的模型權(quán)重偏差大約是低精度訓(xùn)練時(shí)的1/2 至1/5 倍。相對(duì)權(quán)重差異。

更多研究細(xì)節(jié),可參考原文。 Flash Attention穩(wěn)定嗎?Meta、哈佛發(fā)現(xiàn)其模型權(quán)重偏差呈現(xiàn)數(shù)量級(jí)波動(dòng)

以上是Flash Attention穩(wěn)定嗎? Meta、哈佛發(fā)現(xiàn)其模型權(quán)重偏差呈現(xiàn)數(shù)量級(jí)波動(dòng)的詳細(xì)內(nèi)容。更多資訊請(qǐng)關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本網(wǎng)站聲明
本文內(nèi)容由網(wǎng)友自願(yuàn)投稿,版權(quán)歸原作者所有。本站不承擔(dān)相應(yīng)的法律責(zé)任。如發(fā)現(xiàn)涉嫌抄襲或侵權(quán)的內(nèi)容,請(qǐng)聯(lián)絡(luò)admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費(fèi)脫衣圖片

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅(qū)動(dòng)的應(yīng)用程序,用於創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費(fèi)的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費(fèi)的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強(qiáng)大的PHP整合開(kāi)發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺(jué)化網(wǎng)頁(yè)開(kāi)發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級(jí)程式碼編輯軟體(SublimeText3)

熱門(mén)話題

Laravel 教程
1597
29
PHP教程
1488
72
位元組跳動(dòng)剪映推出 SVIP 超級(jí)會(huì)員:連續(xù)包年 499 元,提供多種 AI 功能 位元組跳動(dòng)剪映推出 SVIP 超級(jí)會(huì)員:連續(xù)包年 499 元,提供多種 AI 功能 Jun 28, 2024 am 03:51 AM

本站6月27日訊息,剪映是由位元組跳動(dòng)旗下臉萌科技開(kāi)發(fā)的一款影片剪輯軟體,依託於抖音平臺(tái)且基本面向該平臺(tái)用戶製作短影片內(nèi)容,並相容於iOS、安卓、Windows 、MacOS等作業(yè)系統(tǒng)。剪映官方宣布會(huì)員體系升級(jí),推出全新SVIP,包含多種AI黑科技,例如智慧翻譯、智慧劃重點(diǎn)、智慧包裝、數(shù)位人合成等。價(jià)格方面,剪映SVIP月費(fèi)79元,年費(fèi)599元(本站註:折合每月49.9元),連續(xù)包月則為59元每月,連續(xù)包年為499元每年(折合每月41.6元) 。此外,剪映官方也表示,為提升用戶體驗(yàn),向已訂閱了原版VIP

使用Rag和Sem-Rag提供上下文增強(qiáng)AI編碼助手 使用Rag和Sem-Rag提供上下文增強(qiáng)AI編碼助手 Jun 10, 2024 am 11:08 AM

透過(guò)將檢索增強(qiáng)生成和語(yǔ)意記憶納入AI編碼助手,提升開(kāi)發(fā)人員的生產(chǎn)力、效率和準(zhǔn)確性。譯自EnhancingAICodingAssistantswithContextUsingRAGandSEM-RAG,作者JanakiramMSV。雖然基本AI程式設(shè)計(jì)助理自然有幫助,但由於依賴(lài)對(duì)軟體語(yǔ)言和編寫(xiě)軟體最常見(jiàn)模式的整體理解,因此常常無(wú)法提供最相關(guān)和正確的程式碼建議。這些編碼助手產(chǎn)生的代碼適合解決他們負(fù)責(zé)解決的問(wèn)題,但通常不符合各個(gè)團(tuán)隊(duì)的編碼標(biāo)準(zhǔn)、慣例和風(fēng)格。這通常會(huì)導(dǎo)致需要修改或完善其建議,以便將程式碼接受到應(yīng)

七個(gè)很酷的GenAI & LLM技術(shù)性面試問(wèn)題 七個(gè)很酷的GenAI & LLM技術(shù)性面試問(wèn)題 Jun 07, 2024 am 10:06 AM

想了解更多AIGC的內(nèi)容,請(qǐng)?jiān)煸L:51CTOAI.x社群https://www.51cto.com/aigc/譯者|晶顏審校|重樓不同於網(wǎng)路上隨處可見(jiàn)的傳統(tǒng)問(wèn)題庫(kù),這些問(wèn)題需要跳脫常規(guī)思維。大語(yǔ)言模型(LLM)在數(shù)據(jù)科學(xué)、生成式人工智慧(GenAI)和人工智慧領(lǐng)域越來(lái)越重要。這些複雜的演算法提升了人類(lèi)的技能,並在許多產(chǎn)業(yè)中推動(dòng)了效率和創(chuàng)新性的提升,成為企業(yè)保持競(jìng)爭(zhēng)力的關(guān)鍵。 LLM的應(yīng)用範(fàn)圍非常廣泛,它可以用於自然語(yǔ)言處理、文字生成、語(yǔ)音辨識(shí)和推薦系統(tǒng)等領(lǐng)域。透過(guò)學(xué)習(xí)大量的數(shù)據(jù),LLM能夠產(chǎn)生文本

微調(diào)真的能讓LLM學(xué)到新東西嗎:引入新知識(shí)可能讓模型產(chǎn)生更多的幻覺(jué) 微調(diào)真的能讓LLM學(xué)到新東西嗎:引入新知識(shí)可能讓模型產(chǎn)生更多的幻覺(jué) Jun 11, 2024 pm 03:57 PM

大型語(yǔ)言模型(LLM)是在龐大的文字資料庫(kù)上訓(xùn)練的,在那裡它們獲得了大量的實(shí)際知識(shí)。這些知識(shí)嵌入到它們的參數(shù)中,然後可以在需要時(shí)使用。這些模型的知識(shí)在訓(xùn)練結(jié)束時(shí)被「具體化」。在預(yù)訓(xùn)練結(jié)束時(shí),模型實(shí)際上停止學(xué)習(xí)。對(duì)模型進(jìn)行對(duì)齊或進(jìn)行指令調(diào)優(yōu),讓模型學(xué)習(xí)如何充分利用這些知識(shí),以及如何更自然地回應(yīng)使用者的問(wèn)題。但是有時(shí)模型知識(shí)是不夠的,儘管模型可以透過(guò)RAG存取外部?jī)?nèi)容,但透過(guò)微調(diào)使用模型適應(yīng)新的領(lǐng)域被認(rèn)為是有益的。這種微調(diào)是使用人工標(biāo)註者或其他llm創(chuàng)建的輸入進(jìn)行的,模型會(huì)遇到額外的實(shí)際知識(shí)並將其整合

你所不知道的機(jī)器學(xué)習(xí)五大學(xué)派 你所不知道的機(jī)器學(xué)習(xí)五大學(xué)派 Jun 05, 2024 pm 08:51 PM

機(jī)器學(xué)習(xí)是人工智慧的重要分支,它賦予電腦從數(shù)據(jù)中學(xué)習(xí)的能力,並能夠在無(wú)需明確編程的情況下改進(jìn)自身能力。機(jī)器學(xué)習(xí)在各個(gè)領(lǐng)域都有廣泛的應(yīng)用,從影像辨識(shí)和自然語(yǔ)言處理到推薦系統(tǒng)和詐欺偵測(cè),它正在改變我們的生活方式。機(jī)器學(xué)習(xí)領(lǐng)域存在著多種不同的方法和理論,其中最具影響力的五種方法被稱(chēng)為「機(jī)器學(xué)習(xí)五大派」。這五大派分別為符號(hào)派、聯(lián)結(jié)派、進(jìn)化派、貝葉斯派和類(lèi)推學(xué)派。 1.符號(hào)學(xué)派符號(hào)學(xué)(Symbolism),又稱(chēng)符號(hào)主義,強(qiáng)調(diào)利用符號(hào)進(jìn)行邏輯推理和表達(dá)知識(shí)。該學(xué)派認(rèn)為學(xué)習(xí)是一種逆向演繹的過(guò)程,透過(guò)現(xiàn)有的

為大模型提供全新科學(xué)複雜問(wèn)答基準(zhǔn)與評(píng)估體系,UNSW、阿貢、芝加哥大學(xué)等多家機(jī)構(gòu)共同推出SciQAG框架 為大模型提供全新科學(xué)複雜問(wèn)答基準(zhǔn)與評(píng)估體系,UNSW、阿貢、芝加哥大學(xué)等多家機(jī)構(gòu)共同推出SciQAG框架 Jul 25, 2024 am 06:42 AM

編輯|ScienceAI問(wèn)答(QA)資料集在推動(dòng)自然語(yǔ)言處理(NLP)研究中發(fā)揮著至關(guān)重要的作用。高品質(zhì)QA資料集不僅可以用於微調(diào)模型,也可以有效評(píng)估大語(yǔ)言模型(LLM)的能力,尤其是針對(duì)科學(xué)知識(shí)的理解和推理能力。儘管目前已有許多科學(xué)QA數(shù)據(jù)集,涵蓋了醫(yī)學(xué)、化學(xué)、生物等領(lǐng)域,但這些數(shù)據(jù)集仍有一些不足之處。其一,資料形式較為單一,大多數(shù)為多項(xiàng)選擇題(multiple-choicequestions),它們易於進(jìn)行評(píng)估,但限制了模型的答案選擇範(fàn)圍,無(wú)法充分測(cè)試模型的科學(xué)問(wèn)題解答能力。相比之下,開(kāi)放式問(wèn)答

VSCode 前端開(kāi)發(fā)新紀(jì)元:12款 AI 代碼助理推薦 VSCode 前端開(kāi)發(fā)新紀(jì)元:12款 AI 代碼助理推薦 Jun 11, 2024 pm 07:47 PM

在前端開(kāi)發(fā)的世界裡,VSCode以其強(qiáng)大的功能和豐富的插件生態(tài),成為了無(wú)數(shù)開(kāi)發(fā)者的首選工具。而近年來(lái),隨著人工智慧技術(shù)的快速發(fā)展,VSCode上的AI代碼助理也如雨後春筍般湧現(xiàn),大大提升了開(kāi)發(fā)者的編碼效率。 VSCode上的AI代碼助手,如雨後春筍般湧現(xiàn),大大提升了開(kāi)發(fā)者的編碼效率。它利用人工智慧技術(shù),能夠聰明地分析程式碼,提供精準(zhǔn)的程式碼補(bǔ)全、自動(dòng)糾錯(cuò)、語(yǔ)法檢查等功能,大大減少了開(kāi)發(fā)者在編碼過(guò)程中的錯(cuò)誤和繁瑣的手工工作。有今天,就為大家推薦12款VSCode前端開(kāi)發(fā)AI程式碼助手,幫助你在程式設(shè)計(jì)之路

SK 海力士 8 月 6 日將展示 AI 相關(guān)新品:12 層 HBM3E、321-high NAND 等 SK 海力士 8 月 6 日將展示 AI 相關(guān)新品:12 層 HBM3E、321-high NAND 等 Aug 01, 2024 pm 09:40 PM

本站8月1日消息,SK海力士今天(8月1日)發(fā)布博文,宣布將出席8月6日至8日,在美國(guó)加州聖克拉拉舉行的全球半導(dǎo)體記憶體峰會(huì)FMS2024,展示諸多新一代產(chǎn)品。未來(lái)記憶體和儲(chǔ)存高峰會(huì)(FutureMemoryandStorage)簡(jiǎn)介前身是主要面向NAND供應(yīng)商的快閃記憶體高峰會(huì)(FlashMemorySummit),在人工智慧技術(shù)日益受到關(guān)注的背景下,今年重新命名為未來(lái)記憶體和儲(chǔ)存高峰會(huì)(FutureMemoryandStorage),以邀請(qǐng)DRAM和儲(chǔ)存供應(yīng)商等更多參與者。新產(chǎn)品SK海力士去年在

See all articles