亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

目錄
介紹
學(xué)習(xí)目標(biāo)
目錄
什麼是視覺(jué)語(yǔ)言模型?
視覺(jué)語(yǔ)言模型的功能
視覺(jué)加語(yǔ)言
對(duì)象檢測(cè)
圖像分割
嵌入
視覺(jué)問(wèn)題回答(VQA)
著名的VLM型號(hào)
剪輯(對(duì)比性語(yǔ)言圖像預(yù)訓(xùn)練)
llava(大語(yǔ)言和視覺(jué)助手)
LAMDA(對(duì)話應(yīng)用的語(yǔ)言模型)
佛羅倫斯
視覺(jué)語(yǔ)言模型家族
預(yù)訓(xùn)練的模型家族
它如何工作
蒙面模型家族
它的工作原理(圖像掩蔽)
它的工作原理(文本掩蔽)
生成家庭
文本到圖像生成
圖像到文本生成
對(duì)比度學(xué)習(xí)
剪輯(對(duì)比性語(yǔ)言圖像訓(xùn)練)
剪輯如何工作
剪輯功能的關(guān)鍵步驟
剪輯的應(yīng)用
代碼示例:帶剪輯的圖像到文本
siglip(暹羅語(yǔ)言圖像預(yù)處理)
siglip的工作原理
Siglip功能的關(guān)鍵步驟
Siglip的應(yīng)用
代碼示例:帶有siglip的零拍圖像分類
培訓(xùn)視覺(jué)語(yǔ)言模型(VLM)
了解鄉(xiāng)親
pal的訓(xùn)練階段
結(jié)論
常見問(wèn)題
首頁(yè) 科技週邊 人工智慧 視覺(jué)語(yǔ)言模型(VLMS)的綜合指南

視覺(jué)語(yǔ)言模型(VLMS)的綜合指南

Apr 12, 2025 am 11:58 AM

介紹

想像一下,穿過(guò)??美術(shù)館,周圍是生動(dòng)的繪畫和雕塑?,F(xiàn)在,如果您可以向每一部分提出一個(gè)問(wèn)題並獲得有意義的答案,該怎麼辦?您可能會(huì)問(wèn):“你在講什麼故事?”還是“藝術(shù)家為什麼選擇這種顏色?”這就是視覺(jué)語(yǔ)言模型(VLM)發(fā)揮作用的地方。這些模型,例如博物館中的專家指南,可以解釋圖像,理解上下文,並使用人類語(yǔ)言傳達(dá)這些信息。無(wú)論是在照片中識(shí)別對(duì)象,回答有關(guān)視覺(jué)內(nèi)容的問(wèn)題,甚至從描述中生成新圖像,VLM都以曾經(jīng)是不可能的方式融合視覺(jué)和語(yǔ)言的力量。

在本指南中,我們將探討VLM的迷人世界,它們的工作方式,以及剪輯,帕拉馬和佛羅倫薩等突破性模型,這些模型正在改變機(jī)器如何與周圍的世界理解和互動(dòng)。

本文基於最近的演講,使Aritra Roy Gosthipaty和Ritwik Rahaona綜合語(yǔ)言模型綜合指南,在2024年Thedatahack Summit。

學(xué)習(xí)目標(biāo)

  • 了解視覺(jué)語(yǔ)言模型(VLM)的核心概念和功能。
  • 探索VLM如何合併對(duì)象檢測(cè)和圖像分割等任務(wù)的視覺(jué)和語(yǔ)言數(shù)據(jù)。
  • 了解關(guān)鍵VLM架構(gòu),例如剪輯,帕拉瑪和佛羅倫薩及其應(yīng)用。
  • 獲得對(duì)各種VLM家族的見解,包括預(yù)訓(xùn)練,掩蓋和生成模型。
  • 發(fā)現(xiàn)對(duì)比度學(xué)習(xí)如何增強(qiáng)VLM的性能以及微調(diào)如何提高模型的準(zhǔn)確性。

目錄

  • 什麼是視覺(jué)語(yǔ)言模型?
  • 視覺(jué)語(yǔ)言模型的功能
  • 著名的VLM型號(hào)
  • 視覺(jué)語(yǔ)言模型家族
  • 剪輯(對(duì)比性語(yǔ)言圖像訓(xùn)練)
  • siglip(暹羅語(yǔ)言圖像預(yù)處理)
  • 培訓(xùn)視覺(jué)語(yǔ)言模型(VLM)
  • 了解鄉(xiāng)親
  • 常見問(wèn)題

什麼是視覺(jué)語(yǔ)言模型?

視覺(jué)語(yǔ)言模型(VLMS)是指特定類別中的人工智能係統(tǒng),該系統(tǒng)旨在處理視頻,視頻和文本作為輸入。當(dāng)我們結(jié)合這兩種方式時(shí),VLM可以執(zhí)行涉及模型以在圖像和文本之間繪製含義的任務(wù);描述圖像,根據(jù)圖像回答問(wèn)題,反之亦然。

VLM的核心強(qiáng)度在於它們能夠彌合計(jì)算機(jī)視覺(jué)和NLP之間的差距。傳統(tǒng)模型通常僅在這些領(lǐng)域之一中擅長(zhǎng) - 在圖像中識(shí)別對(duì)像或理解人類語(yǔ)言。但是,VLM的專門設(shè)計(jì)用於結(jié)合這兩種模式,通過(guò)學(xué)習(xí)通過(guò)語(yǔ)言鏡頭來(lái)解釋圖像,反之亦然,從而提供了對(duì)數(shù)據(jù)的更全面的理解,反之亦然。

視覺(jué)語(yǔ)言模型(VLMS)的綜合指南

VLMS的體系結(jié)構(gòu)通常涉及學(xué)習(xí)視覺(jué)和文本數(shù)據(jù)的聯(lián)合表示,從而使模型可以執(zhí)行跨模式任務(wù)。這些模型在包??含圖像對(duì)和相應(yīng)文本描述的大型數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練。在培訓(xùn)期間,VLMS了解圖像中對(duì)象與描述它們的單詞之間的關(guān)係,這使模型能夠從圖像中生成文本或在視覺(jué)數(shù)據(jù)的上下文中了解文本提示。

VLM可以處理的關(guān)鍵任務(wù)的示例包括:

  • 視覺(jué)問(wèn)題回答(VQA) :回答有關(guān)圖像內(nèi)容的問(wèn)題。
  • 圖像字幕:生成圖像中看到的內(nèi)容的文本描述。
  • 對(duì)象檢測(cè)和分割:識(shí)別和標(biāo)記圖像的不同對(duì)像或部分,通常具有文本上下文。

視覺(jué)語(yǔ)言模型(VLMS)的綜合指南

視覺(jué)語(yǔ)言模型的功能

視覺(jué)語(yǔ)言模型(VLM)已經(jīng)演變?yōu)橥ㄟ^(guò)集成視覺(jué)和文本信息來(lái)解決各種各樣的複雜任務(wù)。它們通過(guò)利用圖像和語(yǔ)言之間的固有關(guān)係來(lái)發(fā)揮作用,從而使幾個(gè)領(lǐng)域的突破性能力能夠發(fā)揮作用。

視覺(jué)加語(yǔ)言

VLM的基石是他們使用視覺(jué)和文本數(shù)據(jù)來(lái)理解和操作的能力。通過(guò)同時(shí)處理這兩個(gè)流,VLM可以執(zhí)行任務(wù),例如為圖像生成字幕,識(shí)別對(duì)象與其描述或?qū)⒁曈X(jué)信息與文本上下文相關(guān)聯(lián)。這種跨模式的理解可以使更豐富,更連貫的輸出使它們?cè)诂F(xiàn)實(shí)世界應(yīng)用程序中具有很高的用途。

對(duì)象檢測(cè)

對(duì)象檢測(cè)是VLM的重要能力。它允許模型在圖像中識(shí)別和分類對(duì)象,從而將其視覺(jué)理解與語(yǔ)言標(biāo)籤紮根。通過(guò)結(jié)合語(yǔ)言理解,VLM不僅檢測(cè)對(duì)象,還可以理解和描述其上下文。這不僅包括識(shí)別圖像中的“狗”,還包括將其與其他場(chǎng)景元素相關(guān)聯(lián),從而使對(duì)象檢測(cè)更具動(dòng)態(tài)性和信息性。

視覺(jué)語(yǔ)言模型(VLMS)的綜合指南

圖像分割

VLMS通過(guò)執(zhí)行圖像分割來(lái)增強(qiáng)傳統(tǒng)視覺(jué)模型,該模型根據(jù)其內(nèi)容將圖像分為有意義的片段或區(qū)域。在VLMS中,通過(guò)文本理解來(lái)增強(qiáng)此任務(wù),這意味著模型可以分割特定對(duì)象並為每個(gè)部分提供上下文描述。這不僅僅是識(shí)別對(duì)象,因?yàn)樵撃P涂梢苑纸鈦K描述圖像的細(xì)粒結(jié)構(gòu)。

嵌入

VLM中的另一個(gè)非常重要的原理是嵌入角色,因?yàn)樗鼮橐曈X(jué)數(shù)據(jù)和文本數(shù)據(jù)之間的相互作用提供了共享的空間。這是因?yàn)橥ㄟ^(guò)關(guān)聯(lián)圖像和單詞,該模型能夠執(zhí)行操作,例如查詢給定文本的圖像,反之亦然。這是由於VLM會(huì)產(chǎn)生非常有效的圖像表示,因此它們可以幫助縮小交叉模態(tài)過(guò)程中視覺(jué)和語(yǔ)言之間的差距。

視覺(jué)問(wèn)題回答(VQA)

在與VLMS合作的所有形式中,使用VQA給出了更複雜的形式之一,這意味著使用圖像和與圖像相關(guān)的問(wèn)題表示VLM。 VLM在圖像中採(cǎi)用了獲得的圖片解釋,並在適當(dāng)?shù)鼗卮鸩樵儠r(shí)採(cǎi)用了自然語(yǔ)言處理理解。例如,如果給出了一個(gè)公園的圖像,上面有以下問(wèn)題:“圖片中可以看到多少個(gè)長(zhǎng)凳?”該模型能夠解決計(jì)數(shù)問(wèn)題並給出答案,這不僅展示了願(yuàn)景,還展示了模型的推理。

視覺(jué)語(yǔ)言模型(VLMS)的綜合指南

著名的VLM型號(hào)

已經(jīng)出現(xiàn)了幾種視覺(jué)語(yǔ)言模型(VLM),突破了跨模式學(xué)習(xí)的界限。每種模型都提供獨(dú)特的功能,從而有助於更廣泛的視覺(jué)研究領(lǐng)域。以下是一些最重要的VLM:

剪輯(對(duì)比性語(yǔ)言圖像預(yù)訓(xùn)練)

剪輯是VLM空間中的開創(chuàng)性模型之一。它利用一種對(duì)比度學(xué)習(xí)方法通??過(guò)學(xué)習(xí)將圖像與相應(yīng)的描述匹配來(lái)連接視覺(jué)和文本數(shù)據(jù)。該模型處理大規(guī)模數(shù)據(jù)集,這些數(shù)據(jù)集由與文本配對(duì)的圖像組成,並通過(guò)優(yōu)化圖像及其文本對(duì)應(yīng)物之間的相似性,同時(shí)區(qū)分不匹配對(duì)。這種對(duì)比方法允許剪輯處理各種任務(wù),包括零拍,圖像字幕,甚至視覺(jué)問(wèn)題回答,而無(wú)需明確的特定任務(wù)培訓(xùn)。

視覺(jué)語(yǔ)言模型(VLMS)的綜合指南

從這裡閱讀有關(guān)剪輯的更多信息。

llava(大語(yǔ)言和視覺(jué)助手)

LLAVA是一個(gè)複雜的模型,旨在使視覺(jué)和語(yǔ)言數(shù)據(jù)與復(fù)雜的多模式任務(wù)相吻合。它使用一種獨(dú)特的方法將圖像處理與大語(yǔ)言模型融合在一起,以增強(qiáng)其解釋和響應(yīng)與圖像相關(guān)的查詢的能力。通過(guò)利用文本和視覺(jué)表示,LLAVA在視覺(jué)問(wèn)題回答,交互式圖像生成和涉及圖像的基於對(duì)話的任務(wù)中擅長(zhǎng)。它與強(qiáng)大的語(yǔ)言模型的集成使其能夠生成詳細(xì)的描述並協(xié)助實(shí)時(shí)視覺(jué)互動(dòng)。

視覺(jué)語(yǔ)言模型(VLMS)的綜合指南

從這裡讀取有關(guān)llava的模式。

LAMDA(對(duì)話應(yīng)用的語(yǔ)言模型)

儘管LAMDA主要是用語(yǔ)言討論的,但也可以在視覺(jué)任務(wù)中使用。 LAMDA對(duì)於對(duì)話系統(tǒng)非常友好,並且與視覺(jué)模型相結(jié)合。它可以執(zhí)行視覺(jué)問(wèn)答,圖像控制的對(duì)話和其他組合模態(tài)任務(wù)。 LAMDA是一種改進(jìn),因?yàn)樗鼉A向於提供類似人類的和上下文相關(guān)的答案,這將使需要討論視覺(jué)數(shù)據(jù)(例如自動(dòng)圖像或視頻分析虛擬助手)的應(yīng)用程序有益。

視覺(jué)語(yǔ)言模型(VLMS)的綜合指南

從這裡閱讀有關(guān)LAMDA的更多信息。

佛羅倫斯

佛羅倫薩是另一種強(qiáng)大的VLM,它同時(shí)結(jié)合了視覺(jué)和語(yǔ)言數(shù)據(jù),以執(zhí)行各種跨模式任務(wù)。它在處理大型數(shù)據(jù)集時(shí)以其效率和可擴(kuò)展性而聞名。該模型的設(shè)計(jì)用於快速訓(xùn)練和部署,使其在圖像識(shí)別,對(duì)象檢測(cè)和多模式理解方面表現(xiàn)出色。佛羅倫薩可以整合大量的視覺(jué)和文本數(shù)據(jù)。這使其在圖像檢索,字幕生成和基於圖像的問(wèn)題回答之類的任務(wù)中具有多功能性。

視覺(jué)語(yǔ)言模型(VLMS)的綜合指南

從這裡閱讀有關(guān)佛羅倫薩的更多信息。

視覺(jué)語(yǔ)言模型家族

視覺(jué)語(yǔ)言模型(VLM)根據(jù)它們處理多模式數(shù)據(jù)的方式分為幾個(gè)家庭。這些包括預(yù)訓(xùn)練的模型,掩蓋模型,生成模型和對(duì)比度學(xué)習(xí)模型。每個(gè)家庭都利用不同的技術(shù)來(lái)調(diào)整視覺(jué)和語(yǔ)言方式,使其適合各種任務(wù)。

視覺(jué)語(yǔ)言模型(VLMS)的綜合指南

預(yù)訓(xùn)練的模型家族

預(yù)訓(xùn)練的模型建立在配對(duì)視覺(jué)和語(yǔ)言數(shù)據(jù)的大型數(shù)據(jù)集上。這些模型經(jīng)過(guò)一般任務(wù)的培訓(xùn),可以每次不需要大量數(shù)據(jù)集對(duì)特定應(yīng)用程序進(jìn)行微調(diào)。

視覺(jué)語(yǔ)言模型(VLMS)的綜合指南

它如何工作

預(yù)先訓(xùn)練的模型系列使用大量圖像和文本數(shù)據(jù)集。該模型經(jīng)過(guò)訓(xùn)練,可以識(shí)別圖像並與文本標(biāo)籤或描述相匹配。在經(jīng)過(guò)廣泛的預(yù)訓(xùn)練之後,可以對(duì)模型進(jìn)行微調(diào),以用於圖像字幕或視覺(jué)問(wèn)題的特定任務(wù)。預(yù)訓(xùn)練的模型之所以有效,是因?yàn)樗鼈冏畛跏菍?duì)豐富數(shù)據(jù)的培訓(xùn),然後在較小的特定領(lǐng)域進(jìn)行了微調(diào)。這種方法導(dǎo)致各種任務(wù)的績(jī)效改進(jìn)。

蒙面模型家族

蒙面模型使用掩蔽技術(shù)來(lái)訓(xùn)練VLM。這些模型隨機(jī)掩蓋了輸入圖像或文本的部分,並要求模型預(yù)測(cè)掩蓋的內(nèi)容,從而迫使其學(xué)習(xí)更深的上下文關(guān)係。

視覺(jué)語(yǔ)言模型(VLMS)的綜合指南

它的工作原理(圖像掩蔽)

掩蓋圖像模型通過(guò)隱藏輸入圖像的隨機(jī)區(qū)域來(lái)運(yùn)行。然後,該模型的任務(wù)是預(yù)測(cè)缺失的像素。這種方法迫使VLM專注於周圍的視覺(jué)上下文以重建圖像。結(jié)果,該模型對(duì)本地和全局視覺(jué)特徵有更深入的了解。圖像掩蔽有助於模型對(duì)圖像中的空間關(guān)係有牢固的理解。這種改善的理解增強(qiáng)了對(duì)象檢測(cè)和細(xì)分等任務(wù)的性能。

它的工作原理(文本掩蔽)

在蒙版的語(yǔ)言建模中,輸入文本的一部分被隱藏了。該模型的任務(wù)是預(yù)測(cè)缺失的令牌。這鼓勵(lì)VLM了解複雜的語(yǔ)言結(jié)構(gòu)和關(guān)係。蒙面文本模型對(duì)於掌握細(xì)微的語(yǔ)言特徵至關(guān)重要。它們?cè)趫D像字幕和視覺(jué)問(wèn)題回答等任務(wù)上增強(qiáng)了模型的性能,其中了解視覺(jué)和文本數(shù)據(jù)至關(guān)重要。

生成家庭

生成模型涉及新數(shù)據(jù)的生成,其中包括圖像或文本圖像中的文本。這些模型在文本中特別應(yīng)用於圖像和圖像,涉及從輸入模式中綜合新輸出的文本生成。

視覺(jué)語(yǔ)言模型(VLMS)的綜合指南

文本到圖像生成

使用文本對(duì)圖像生成器時(shí),輸入模型為文本,輸出是結(jié)果圖像。此任務(wù)在非常取決於與單詞和圖像特徵的語(yǔ)義編碼有關(guān)的概念。該模型分析文本的語(yǔ)義含義以產(chǎn)生忠誠(chéng)模型,該模型與給出的輸入相對(duì)應(yīng)。

圖像到文本生成

在圖像到文本生成中,該模型將圖像作為輸入並產(chǎn)生文本輸出,例如字幕。首先,它分析圖像的視覺(jué)內(nèi)容。接下來(lái),它標(biāo)識(shí)對(duì)象,場(chǎng)景和動(dòng)作。然後,該模型將這些元素轉(zhuǎn)錄為文本。這些生成模型可用於自動(dòng)標(biāo)題生成,場(chǎng)景描述和創(chuàng)建視頻場(chǎng)景的故事。

對(duì)比度學(xué)習(xí)

包括剪輯在內(nèi)的對(duì)比模型通過(guò)訓(xùn)練匹配和非匹配圖像文本對(duì)來(lái)識(shí)別它們。這迫使模型將圖像映射到其描述中,同時(shí)淨(jìng)化錯(cuò)誤的映射,從而使視覺(jué)對(duì)應(yīng)對(duì)應(yīng)語(yǔ)言。

視覺(jué)語(yǔ)言模型(VLMS)的綜合指南

它如何工作?

對(duì)比學(xué)習(xí)將圖像及其正確的描述映射到相同的視覺(jué)語(yǔ)義語(yǔ)義空間中。它還增加了視覺(jué)語(yǔ)義有毒樣品之間的差異。此過(guò)程有助於模型了解圖像及其相關(guān)文本。它可用於跨模式任務(wù),例如圖像檢索,零拍和視覺(jué)問(wèn)題回答。

剪輯(對(duì)比性語(yǔ)言圖像訓(xùn)練)

剪輯或?qū)Ρ榷鹊恼Z(yǔ)言圖像預(yù)處理,是Openai開發(fā)的模型。它是視覺(jué)語(yǔ)言模型(VLM)字段中的主要模型之一。剪輯將圖像和文本處理為輸入。該模型在圖像文本數(shù)據(jù)集上進(jìn)行了訓(xùn)練。它使用對(duì)比度學(xué)習(xí)將圖像與其文本描述匹配。同時(shí),它區(qū)分了無(wú)關(guān)的圖像文本對(duì)。

剪輯如何工作

剪輯使用雙重編碼架構(gòu):一個(gè)用於圖像,另一個(gè)用於文本。核心思想是將圖像及其相應(yīng)的文本描述同時(shí)嵌入到相同的高維矢量空間中,從而使模型可以比較和對(duì)比不同的圖像文本對(duì)。

視覺(jué)語(yǔ)言模型(VLMS)的綜合指南

剪輯功能的關(guān)鍵步驟

  • 圖像編碼:與剪輯模型一樣,此模型還使用稱為VIT的視覺(jué)變壓器編碼圖像。
  • 文本編碼:同時(shí),該模型也通過(guò)基於變壓器的文本編碼來(lái)編碼相應(yīng)的文本。
  • 對(duì)比學(xué)習(xí):然後比較編碼圖像和文本之間的相似性,以便可以相應(yīng)地給出結(jié)果。它最大化圖像屬於與描述同一類的成對(duì)上的相似性,同時(shí)將其最小化在對(duì)並非如此的成對(duì)上最小化。
  • 跨模式對(duì)準(zhǔn):權(quán)衡產(chǎn)生的模型在任務(wù)中非常出色,該模型涉及視覺(jué)與零鏡頭學(xué)習(xí),圖像檢索甚至倒數(shù)圖像合成之類的語(yǔ)言的匹配。

剪輯的應(yīng)用

  • 圖像檢索:給定描述,剪輯可以找到與之匹配的圖像。
  • 零射擊分類:剪輯可以對(duì)圖像進(jìn)行分類,而無(wú)需針對(duì)特定類別的任何其他培訓(xùn)數(shù)據(jù)。
  • 視覺(jué)問(wèn)題回答:剪輯可以理解有關(guān)視覺(jué)內(nèi)容的問(wèn)題並提供答案。

代碼示例:帶剪輯的圖像到文本

下面是用於使用剪輯執(zhí)行圖像到文本任務(wù)的示例代碼段。此示例演示了剪輯如何編碼圖像和一組文本描述,併計(jì)算每個(gè)文本與圖像匹配的概率。

導(dǎo)入火炬
導(dǎo)入剪輯
從PIL導(dǎo)入圖像

#檢查GPU是否可用,否則請(qǐng)使用CPU
設(shè)備=“ cuda”如果torch.cuda.is_available()else“ cpu”

#加載預(yù)訓(xùn)練的剪輯模型和預(yù)處理功能
模型,預(yù)處理= clip.load(“ vit-b/32”,設(shè)備=設(shè)備)

#加載和預(yù)處理圖像
image = preprocess(image.open(“ clip.png”)。

#定義與圖像進(jìn)行比較的文本描述集
text = clip.tokenize([“圖表”,“狗”,“貓”])。到(設(shè)備)

#執(zhí)行推理以編碼圖像和文本
使用Torch.no_grad():
    image_features = model.encode_image(圖像)
    text_features = model.encode_text(text)

    #計(jì)算圖像和文本功能之間的相似性
    logits_per_image,logits_per_text =模型(圖像,文本)

    #應(yīng)用SoftMax以獲取與圖像匹配的每個(gè)標(biāo)籤的概率
    probs = logits_per_image.softmax(dim = -1).cpu()。 numpy()

#輸出概率
打?。ā皹?biāo)籤概率:”,概率)

siglip(暹羅語(yǔ)言圖像預(yù)處理)

暹羅語(yǔ)言圖像預(yù)處理是由Google開發(fā)的高級(jí)模型,它基於諸如剪輯之類的模型的功能。 Siglip通過(guò)利用改進(jìn)的建築和預(yù)訓(xùn)練技術(shù)利用對(duì)比度學(xué)習(xí)的優(yōu)勢(shì)來(lái)增強(qiáng)圖像分類任務(wù)。它旨在提高零拍圖像分類的效率和準(zhǔn)確性。

siglip的工作原理

Siglip利用了暹羅網(wǎng)絡(luò)體系結(jié)構(gòu),涉及兩個(gè)平行網(wǎng)絡(luò),這些網(wǎng)絡(luò)共享權(quán)重,並經(jīng)過(guò)訓(xùn)練以區(qū)分相似和不同的圖像文本對(duì)。該體系結(jié)構(gòu)允許Siglip有效地學(xué)習(xí)圖像和文本的高質(zhì)量表示。該模型已在圖像的各種數(shù)據(jù)集和相應(yīng)的文本描述中進(jìn)行了預(yù)訓(xùn)練,從而使其能夠概括為各種看不見的任務(wù)。

視覺(jué)語(yǔ)言模型(VLMS)的綜合指南

Siglip功能的關(guān)鍵步驟

  • 暹羅網(wǎng)絡(luò):該模型採(cǎi)用兩個(gè)相同的神經(jīng)網(wǎng)絡(luò),它們分別處理圖像和文本輸入,但共享相同的參數(shù)。此設(shè)置允許有效比較圖像和文本表示。
  • 對(duì)比學(xué)習(xí):與剪輯類似,Siglip使用對(duì)比度學(xué)習(xí)來(lái)最大化匹配的圖像文本對(duì)之間的相似性,並將其最小化以使其對(duì)不匹配對(duì)。
  • 對(duì)不同數(shù)據(jù)進(jìn)行預(yù)處理:Siglip在大型且多樣化的數(shù)據(jù)集中進(jìn)行了預(yù)訓(xùn)練,從而增強(qiáng)了其在零拍攝方案中表現(xiàn)良好的能力,在該方案中,它在任務(wù)上進(jìn)行了測(cè)試,而無(wú)需進(jìn)行任何其他微調(diào)。

Siglip的應(yīng)用

  • 零拍攝圖像分類:Siglip在將圖像分類為類別中脫穎而出,尚未通過(guò)利用其廣泛的預(yù)處理來(lái)明確訓(xùn)練。
  • 視覺(jué)搜索和檢索:它可用於根據(jù)文本查詢檢索圖像或根據(jù)描述性文本對(duì)圖像進(jìn)行分類。
  • 基於內(nèi)容的圖像標(biāo)籤:Siglip可以自動(dòng)為圖像生成描述性標(biāo)籤,從而使其對(duì)內(nèi)容管理和組織有用。

代碼示例:帶有siglip的零拍圖像分類

下面是一個(gè)示例代碼段,演示瞭如何使用siglip進(jìn)行零拍圖像分類。該示例顯示瞭如何使用變形金剛庫(kù)將圖像分類為候選標(biāo)籤。

從變形金剛進(jìn)口管道
從PIL導(dǎo)入圖像
導(dǎo)入請(qǐng)求

#加載預(yù)先訓(xùn)練的siglip模型
image_classifier = pipeline(task =“ Zero-Shot-image-classification”,Model =“ Google/siglip-base-patch16-224”)

#從URL加載圖像
url ='http://images.cocodataset.org/val2017/000000039769.jpg'
image = image.open(requests.get(url,stream = true).raw)

#定義分類的候選標(biāo)籤
cantixed_labels = [“ 2個(gè)貓”,“飛機(jī)”,“遙控”]

#執(zhí)行零拍圖像分類
outputs = image_classifier(image,cantidate_labels = cantifate_labels)

#格式並打印結(jié)果
formatted_outputs = [{“ score”:ounder(output [“ score”],4),“ label”:output [label']}用於輸出中的輸出]
打?。╢ormatted_outputs)

從這裡閱讀有關(guān)Siglip的更多信息。

培訓(xùn)視覺(jué)語(yǔ)言模型(VLM)

培訓(xùn)視覺(jué)語(yǔ)言模型(VLM)涉及幾個(gè)關(guān)鍵階段:

視覺(jué)語(yǔ)言模型(VLMS)的綜合指南

  • 數(shù)據(jù)收集:收集配對(duì)圖像和文本的大型數(shù)據(jù)集,以確保多樣性和質(zhì)量有效地訓(xùn)練模型。
  • 預(yù)處理:使用變壓器體系結(jié)構(gòu),VLM在大量圖像文本數(shù)據(jù)上進(jìn)行了預(yù)測(cè)。該模型學(xué)會(huì)通過(guò)自我監(jiān)督的學(xué)習(xí)任務(wù)來(lái)編碼視覺(jué)和文本信息,例如預(yù)測(cè)圖像或文本的掩蓋部分。
  • 微調(diào):使用較小的任務(wù)數(shù)據(jù)集對(duì)特定任務(wù)進(jìn)行了微調(diào)。這有助於模型適應(yīng)特定的應(yīng)用程序,例如圖像分類或文本生成。
  • 生成培訓(xùn):對(duì)於生成的VLM,培訓(xùn)涉及學(xué)習(xí)生成新樣本,例如基於學(xué)習(xí)的表示形式從圖像或圖像中生成文本。
  • 對(duì)比學(xué)習(xí):該技術(shù)通過(guò)最大程度地提高正面對(duì)的相似性並將其最大程度地減少負(fù)面對(duì),從而提高了模型區(qū)分相似數(shù)據(jù)和不同數(shù)據(jù)的能力。

了解鄉(xiāng)親

Paligemma是一種視覺(jué)語(yǔ)言模型(VLM),旨在通過(guò)結(jié)構(gòu)化的多階段訓(xùn)練方法來(lái)增強(qiáng)圖像和文本理解。它集成了Siglip和Gemma的組件,以實(shí)現(xiàn)高級(jí)多模式功能。這是基於成績(jī)單和提供的數(shù)據(jù)的詳細(xì)概述:

它如何工作

  • 輸入:模型同時(shí)採(cǎi)用文本和圖像輸入。文本輸入是通過(guò)線性投影和令牌串聯(lián)處理的,而圖像是由模型的視覺(jué)組成部分編碼的。
  • Siglip :此組件利用視覺(jué)變壓器(VIT-SQ400M)體系結(jié)構(gòu)進(jìn)行圖像處理。它將視覺(jué)數(shù)據(jù)映射到具有文本數(shù)據(jù)的共享特徵空間中。
  • Gemma解碼器:Gemma解碼器結(jié)合了文本和圖像的功能以生成輸出。該解碼器對(duì)於整合多模式數(shù)據(jù)並產(chǎn)生有意義的結(jié)果至關(guān)重要。

視覺(jué)語(yǔ)言模型(VLMS)的綜合指南

pal的訓(xùn)練階段

現(xiàn)在讓我們研究以下pal的訓(xùn)練階段:

視覺(jué)語(yǔ)言模型(VLMS)的綜合指南

  • 單峰訓(xùn)練
    • Siglip(VIT-SQ400M) :僅在圖像上訓(xùn)練以構(gòu)建強(qiáng)大的視覺(jué)表示。
    • Gemma-2B :?jiǎn)为?dú)使用文本訓(xùn)練,專注於生成強(qiáng)大的文本嵌入。
  • 多模式訓(xùn)練
    • 224PX,IB示例:在此階段,模型學(xué)習(xí)以224px分辨率處理圖像文本對(duì),使用輸入示例(IB)來(lái)完善其多模式的理解。
  • 分辨率增加
    • 4480X&896PX :增加圖像和文本數(shù)據(jù)的分辨率,以提高模型處理更高細(xì)節(jié)和更複雜的多模式任務(wù)的能力。
  • 轉(zhuǎn)移
    • 分辨率,時(shí)期,學(xué)習(xí)率:調(diào)整關(guān)鍵參數(shù),例如分辨率,培訓(xùn)時(shí)期的數(shù)量以及學(xué)習(xí)率,以優(yōu)化性能並將學(xué)習(xí)的功能轉(zhuǎn)移到新任務(wù)中。

從這裡閱讀有關(guān)paligemma的更多信息。

結(jié)論

本視覺(jué)語(yǔ)言模型(VLM)指南強(qiáng)調(diào)了它們對(duì)將視覺(jué)和語(yǔ)言技術(shù)結(jié)合的革命性影響。我們探索了必不可少的功能,例如對(duì)象檢測(cè)和圖像分割,著名模型,例如剪輯和各種培訓(xùn)方法。 VLM通過(guò)無(wú)縫集成視覺(jué)和文本數(shù)據(jù)來(lái)推進(jìn)AI,為將來(lái)更直觀和高級(jí)應(yīng)用程序奠定了基礎(chǔ)。

常見問(wèn)題

Q1。什麼是視覺(jué)語(yǔ)言模型(VLM)?

答:視覺(jué)語(yǔ)言模型(VLM)集成了視覺(jué)和文本數(shù)據(jù),以了解和生成圖像和文本的信息。它還啟用了圖像字幕和視覺(jué)問(wèn)題回答之類的任務(wù)。

Q2。剪輯如何工作?

A.剪輯使用對(duì)比度學(xué)習(xí)方法來(lái)對(duì)齊圖像和文本表示。允許它有效地匹配圖像與文本說(shuō)明。

Q3。 VLM的主要功能是什麼?

A. VLMS在對(duì)象檢測(cè),圖像分割,嵌入和視覺(jué)問(wèn)題的回答中表現(xiàn)出色,結(jié)合了視覺(jué)和語(yǔ)言處理以執(zhí)行複雜的任務(wù)。

Q4。 VLM中微調(diào)的目的是什麼?

答:微調(diào)將預(yù)先訓(xùn)練的VLM適應(yīng)特定任務(wù)或數(shù)據(jù)集,從而提高了其特定應(yīng)用程序的性能和準(zhǔn)確性。

以上是視覺(jué)語(yǔ)言模型(VLMS)的綜合指南的詳細(xì)內(nèi)容。更多資訊請(qǐng)關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本網(wǎng)站聲明
本文內(nèi)容由網(wǎng)友自願(yuàn)投稿,版權(quán)歸原作者所有。本站不承擔(dān)相應(yīng)的法律責(zé)任。如發(fā)現(xiàn)涉嫌抄襲或侵權(quán)的內(nèi)容,請(qǐng)聯(lián)絡(luò)admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費(fèi)脫衣圖片

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅(qū)動(dòng)的應(yīng)用程序,用於創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費(fèi)的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費(fèi)的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強(qiáng)大的PHP整合開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺(jué)化網(wǎng)頁(yè)開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級(jí)程式碼編輯軟體(SublimeText3)

Kimi K2:最強(qiáng)大的開源代理模型 Kimi K2:最強(qiáng)大的開源代理模型 Jul 12, 2025 am 09:16 AM

還記得今年早些時(shí)候破壞了Genai行業(yè)的大量開源中國(guó)模型嗎??jī)嵐蹹eepSeek佔(zhàn)據(jù)了大多數(shù)頭條新聞,但Kimi K1.5是列表中的重要名字之一。模型很酷。

AGI和AI超級(jí)智能將嚴(yán)重?fù)糁腥祟愄旎ò宓募僭O(shè)障礙 AGI和AI超級(jí)智能將嚴(yán)重?fù)糁腥祟愄旎ò宓募僭O(shè)障礙 Jul 04, 2025 am 11:10 AM

讓我們來(lái)談?wù)劇? 對(duì)創(chuàng)新AI突破的分析是我正在進(jìn)行的AI中正在進(jìn)行的福布斯列覆蓋的一部分,包括識(shí)別和解釋各種有影響力的AI複雜性(請(qǐng)參閱此處的鏈接)。 前往Agi和

Grok 4 vs Claude 4:哪個(gè)更好? Grok 4 vs Claude 4:哪個(gè)更好? Jul 12, 2025 am 09:37 AM

到2025年中期,AI“軍備競(jìng)賽”正在加熱,XAI和Anthropic都發(fā)布了他們的旗艦車型Grok 4和Claude 4。這兩種模型處?kù)对O(shè)計(jì)理念和部署平臺(tái)的相反端,但他們卻在

深入探討人工智能如何幫助和危害各行各業(yè) 深入探討人工智能如何幫助和危害各行各業(yè) Jul 04, 2025 am 11:11 AM

我們將討論:公司開始委派AI的工作職能,以及那些最不可能用人工智能替代的角色AI如何重塑行業(yè)和就業(yè),以及企業(yè)和工人的工作方式。

今天已經(jīng)在我們中間走了10個(gè)驚人的人形機(jī)器人 今天已經(jīng)在我們中間走了10個(gè)驚人的人形機(jī)器人 Jul 16, 2025 am 11:12 AM

但是我們可能甚至不必等10年就可以看到一個(gè)。實(shí)際上,可以被認(rèn)為是真正有用的,類人類機(jī)器的第一波。 近年來(lái),有許多原型和生產(chǎn)模型從T中走出來(lái)

上下文工程是' new'及時(shí)的工程 上下文工程是' new'及時(shí)的工程 Jul 12, 2025 am 09:33 AM

直到上一年,迅速的工程被認(rèn)為是與大語(yǔ)言模型(LLM)互動(dòng)的關(guān)鍵技能。然而,最近,LLM在推理和理解能力方面已經(jīng)顯著提高。自然,我們的期望

建立Langchain健身教練:您的AI私人教練 建立Langchain健身教練:您的AI私人教練 Jul 05, 2025 am 09:06 AM

許多人充滿熱情地打入健身房,並相信自己正在正確實(shí)現(xiàn)自己的健身目標(biāo)。但是由於飲食計(jì)劃差和缺乏方向,結(jié)果不存在。僱用私人教練AL

6個(gè)任務(wù)Manus AI可以在幾分鐘內(nèi)完成 6個(gè)任務(wù)Manus AI可以在幾分鐘內(nèi)完成 Jul 06, 2025 am 09:29 AM

我相信您必須了解通用的AI代理Manus。它是幾個(gè)月前推出的,在過(guò)去的幾個(gè)月中,他們?yōu)橄到y(tǒng)添加了幾個(gè)新功能。現(xiàn)在,您可以生成視頻,創(chuàng)建網(wǎng)站並做很多MO

See all articles