介紹
想象一下,穿過??美術(shù)館,周圍是生動的繪畫和雕塑?,F(xiàn)在,如果您可以向每一部分提出一個問題并獲得有意義的答案,該怎么辦?您可能會問:“你在講什么故事?”還是“藝術(shù)家為什么選擇這種顏色?”這就是視覺語言模型(VLM)發(fā)揮作用的地方。這些模型,例如博物館中的專家指南,可以解釋圖像,理解上下文,并使用人類語言傳達這些信息。無論是在照片中識別對象,回答有關(guān)視覺內(nèi)容的問題,甚至從描述中生成新圖像,VLM都以曾經(jīng)是不可能的方式融合視覺和語言的力量。
在本指南中,我們將探討VLM的迷人世界,它們的工作方式,以及剪輯,帕拉馬和佛羅倫薩等突破性模型,這些模型正在改變機器如何與周圍的世界理解和互動。
本文基于最近的演講,使Aritra Roy Gosthipaty和Ritwik Rahaona綜合語言模型綜合指南,在2024年Thedatahack Summit。
學(xué)習(xí)目標(biāo)
- 了解視覺語言模型(VLM)的核心概念和功能。
- 探索VLM如何合并對象檢測和圖像分割等任務(wù)的視覺和語言數(shù)據(jù)。
- 了解關(guān)鍵VLM架構(gòu),例如剪輯,帕拉瑪和佛羅倫薩及其應(yīng)用。
- 獲得對各種VLM家族的見解,包括預(yù)訓(xùn)練,掩蓋和生成模型。
- 發(fā)現(xiàn)對比度學(xué)習(xí)如何增強VLM的性能以及微調(diào)如何提高模型的準(zhǔn)確性。
目錄
- 什么是視覺語言模型?
- 視覺語言模型的功能
- 著名的VLM型號
- 視覺語言模型家族
- 剪輯(對比性語言圖像訓(xùn)練)
- siglip(暹羅語言圖像預(yù)處理)
- 培訓(xùn)視覺語言模型(VLM)
- 了解鄉(xiāng)親
- 常見問題
什么是視覺語言模型?
視覺語言模型(VLMS)是指特定類別中的人工智能系統(tǒng),該系統(tǒng)旨在處理視頻,視頻和文本作為輸入。當(dāng)我們結(jié)合這兩種方式時,VLM可以執(zhí)行涉及模型以在圖像和文本之間繪制含義的任務(wù);描述圖像,根據(jù)圖像回答問題,反之亦然。
VLM的核心強度在于它們能夠彌合計算機視覺和NLP之間的差距。傳統(tǒng)模型通常僅在這些領(lǐng)域之一中擅長 - 在圖像中識別對象或理解人類語言。但是,VLM的專門設(shè)計用于結(jié)合這兩種模式,通過學(xué)習(xí)通過語言鏡頭來解釋圖像,反之亦然,從而提供了對數(shù)據(jù)的更全面的理解,反之亦然。
VLMS的體系結(jié)構(gòu)通常涉及學(xué)習(xí)視覺和文本數(shù)據(jù)的聯(lián)合表示,從而使模型可以執(zhí)行跨模式任務(wù)。這些模型在包??含圖像對和相應(yīng)文本描述的大型數(shù)據(jù)集上進行了預(yù)訓(xùn)練。在培訓(xùn)期間,VLMS了解圖像中對象與描述它們的單詞之間的關(guān)系,這使模型能夠從圖像中生成文本或在視覺數(shù)據(jù)的上下文中了解文本提示。
VLM可以處理的關(guān)鍵任務(wù)的示例包括:
- 視覺問題回答(VQA) :回答有關(guān)圖像內(nèi)容的問題。
- 圖像字幕:生成圖像中看到的內(nèi)容的文本描述。
- 對象檢測和分割:識別和標(biāo)記圖像的不同對象或部分,通常具有文本上下文。
視覺語言模型的功能
視覺語言模型(VLM)已經(jīng)演變?yōu)橥ㄟ^集成視覺和文本信息來解決各種各樣的復(fù)雜任務(wù)。它們通過利用圖像和語言之間的固有關(guān)系來發(fā)揮作用,從而使幾個領(lǐng)域的突破性能力能夠發(fā)揮作用。
視覺加語言
VLM的基石是他們使用視覺和文本數(shù)據(jù)來理解和操作的能力。通過同時處理這兩個流,VLM可以執(zhí)行任務(wù),例如為圖像生成字幕,識別對象與其描述或?qū)⒁曈X信息與文本上下文相關(guān)聯(lián)。這種跨模式的理解可以使更豐富,更連貫的輸出使它們在現(xiàn)實世界應(yīng)用程序中具有很高的用途。
對象檢測
對象檢測是VLM的重要能力。它允許模型在圖像中識別和分類對象,從而將其視覺理解與語言標(biāo)簽扎根。通過結(jié)合語言理解,VLM不僅檢測對象,還可以理解和描述其上下文。這不僅包括識別圖像中的“狗”,還包括將其與其他場景元素相關(guān)聯(lián),從而使對象檢測更具動態(tài)性和信息性。
圖像分割
VLMS通過執(zhí)行圖像分割來增強傳統(tǒng)視覺模型,該模型根據(jù)其內(nèi)容將圖像分為有意義的片段或區(qū)域。在VLMS中,通過文本理解來增強此任務(wù),這意味著模型可以分割特定對象并為每個部分提供上下文描述。這不僅僅是識別對象,因為該模型可以分解并描述圖像的細粒結(jié)構(gòu)。
嵌入
VLM中的另一個非常重要的原理是嵌入角色,因為它為視覺數(shù)據(jù)和文本數(shù)據(jù)之間的相互作用提供了共享的空間。這是因為通過關(guān)聯(lián)圖像和單詞,該模型能夠執(zhí)行操作,例如查詢給定文本的圖像,反之亦然。這是由于VLM會產(chǎn)生非常有效的圖像表示,因此它們可以幫助縮小交叉模態(tài)過程中視覺和語言之間的差距。
視覺問題回答(VQA)
在與VLMS合作的所有形式中,使用VQA給出了更復(fù)雜的形式之一,這意味著使用圖像和與圖像相關(guān)的問題表示VLM。 VLM在圖像中采用了獲得的圖片解釋,并在適當(dāng)?shù)鼗卮鸩樵儠r采用了自然語言處理理解。例如,如果給出了一個公園的圖像,上面有以下問題:“圖片中可以看到多少個長凳?”該模型能夠解決計數(shù)問題并給出答案,這不僅展示了愿景,還展示了模型的推理。
著名的VLM型號
已經(jīng)出現(xiàn)了幾種視覺語言模型(VLM),突破了跨模式學(xué)習(xí)的界限。每種模型都提供獨特的功能,從而有助于更廣泛的視覺研究領(lǐng)域。以下是一些最重要的VLM:
剪輯(對比性語言圖像預(yù)訓(xùn)練)
剪輯是VLM空間中的開創(chuàng)性模型之一。它利用一種對比度學(xué)習(xí)方法通??過學(xué)習(xí)將圖像與相應(yīng)的描述匹配來連接視覺和文本數(shù)據(jù)。該模型處理大規(guī)模數(shù)據(jù)集,這些數(shù)據(jù)集由與文本配對的圖像組成,并通過優(yōu)化圖像及其文本對應(yīng)物之間的相似性,同時區(qū)分不匹配對。這種對比方法允許剪輯處理各種任務(wù),包括零拍,圖像字幕,甚至視覺問題回答,而無需明確的特定任務(wù)培訓(xùn)。
從這里閱讀有關(guān)剪輯的更多信息。
llava(大語言和視覺助手)
LLAVA是一個復(fù)雜的模型,旨在使視覺和語言數(shù)據(jù)與復(fù)雜的多模式任務(wù)相吻合。它使用一種獨特的方法將圖像處理與大語言模型融合在一起,以增強其解釋和響應(yīng)與圖像相關(guān)的查詢的能力。通過利用文本和視覺表示,LLAVA在視覺問題回答,交互式圖像生成和涉及圖像的基于對話的任務(wù)中擅長。它與強大的語言模型的集成使其能夠生成詳細的描述并協(xié)助實時視覺互動。
從這里讀取有關(guān)llava的模式。
LAMDA(對話應(yīng)用的語言模型)
盡管LAMDA主要是用語言討論的,但也可以在視覺任務(wù)中使用。 LAMDA對于對話系統(tǒng)非常友好,并且與視覺模型相結(jié)合。它可以執(zhí)行視覺問答,圖像控制的對話和其他組合模態(tài)任務(wù)。 LAMDA是一種改進,因為它傾向于提供類似人類的和上下文相關(guān)的答案,這將使需要討論視覺數(shù)據(jù)(例如自動圖像或視頻分析虛擬助手)的應(yīng)用程序有益。
從這里閱讀有關(guān)LAMDA的更多信息。
佛羅倫薩
佛羅倫薩是另一種強大的VLM,它同時結(jié)合了視覺和語言數(shù)據(jù),以執(zhí)行各種跨模式任務(wù)。它在處理大型數(shù)據(jù)集時以其效率和可擴展性而聞名。該模型的設(shè)計用于快速訓(xùn)練和部署,使其在圖像識別,對象檢測和多模式理解方面表現(xiàn)出色。佛羅倫薩可以整合大量的視覺和文本數(shù)據(jù)。這使其在圖像檢索,字幕生成和基于圖像的問題回答之類的任務(wù)中具有多功能性。
從這里閱讀有關(guān)佛羅倫薩的更多信息。
視覺語言模型家族
視覺語言模型(VLM)根據(jù)它們處理多模式數(shù)據(jù)的方式分為幾個家庭。這些包括預(yù)訓(xùn)練的模型,掩蓋模型,生成模型和對比度學(xué)習(xí)模型。每個家庭都利用不同的技術(shù)來調(diào)整視覺和語言方式,使其適合各種任務(wù)。
預(yù)訓(xùn)練的模型家族
預(yù)訓(xùn)練的模型建立在配對視覺和語言數(shù)據(jù)的大型數(shù)據(jù)集上。這些模型經(jīng)過一般任務(wù)的培訓(xùn),可以每次不需要大量數(shù)據(jù)集對特定應(yīng)用程序進行微調(diào)。
它如何工作
預(yù)先訓(xùn)練的模型系列使用大量圖像和文本數(shù)據(jù)集。該模型經(jīng)過訓(xùn)練,可以識別圖像并與文本標(biāo)簽或描述相匹配。在經(jīng)過廣泛的預(yù)訓(xùn)練之后,可以對模型進行微調(diào),以用于圖像字幕或視覺問題的特定任務(wù)。預(yù)訓(xùn)練的模型之所以有效,是因為它們最初是對豐富數(shù)據(jù)的培訓(xùn),然后在較小的特定領(lǐng)域進行了微調(diào)。這種方法導(dǎo)致各種任務(wù)的績效改進。
蒙面模型家族
蒙面模型使用掩蔽技術(shù)來訓(xùn)練VLM。這些模型隨機掩蓋了輸入圖像或文本的部分,并要求模型預(yù)測掩蓋的內(nèi)容,從而迫使其學(xué)習(xí)更深的上下文關(guān)系。
它的工作原理(圖像掩蔽)
掩蓋圖像模型通過隱藏輸入圖像的隨機區(qū)域來運行。然后,該模型的任務(wù)是預(yù)測缺失的像素。這種方法迫使VLM專注于周圍的視覺上下文以重建圖像。結(jié)果,該模型對本地和全局視覺特征有更深入的了解。圖像掩蔽有助于模型對圖像中的空間關(guān)系有牢固的理解。這種改善的理解增強了對象檢測和細分等任務(wù)的性能。
它的工作原理(文本掩蔽)
在蒙版的語言建模中,輸入文本的一部分被隱藏了。該模型的任務(wù)是預(yù)測缺失的令牌。這鼓勵VLM了解復(fù)雜的語言結(jié)構(gòu)和關(guān)系。蒙面文本模型對于掌握細微的語言特征至關(guān)重要。它們在圖像字幕和視覺問題回答等任務(wù)上增強了模型的性能,其中了解視覺和文本數(shù)據(jù)至關(guān)重要。
生成家庭
生成模型涉及新數(shù)據(jù)的生成,其中包括圖像或文本圖像中的文本。這些模型在文本中特別應(yīng)用于圖像和圖像,涉及從輸入模式中綜合新輸出的文本生成。
文本到圖像生成
使用文本對圖像生成器時,輸入模型為文本,輸出是結(jié)果圖像。此任務(wù)在非常取決于與單詞和圖像特征的語義編碼有關(guān)的概念。該模型分析文本的語義含義以產(chǎn)生忠誠模型,該模型與給出的輸入相對應(yīng)。
圖像到文本生成
在圖像到文本生成中,該模型將圖像作為輸入并產(chǎn)生文本輸出,例如字幕。首先,它分析圖像的視覺內(nèi)容。接下來,它標(biāo)識對象,場景和動作。然后,該模型將這些元素轉(zhuǎn)錄為文本。這些生成模型可用于自動標(biāo)題生成,場景描述和創(chuàng)建視頻場景的故事。
對比度學(xué)習(xí)
包括剪輯在內(nèi)的對比模型通過訓(xùn)練匹配和非匹配圖像文本對來識別它們。這迫使模型將圖像映射到其描述中,同時凈化錯誤的映射,從而使視覺對應(yīng)對應(yīng)語言。
它如何工作?
對比學(xué)習(xí)將圖像及其正確的描述映射到相同的視覺語義語義空間中。它還增加了視覺語義有毒樣品之間的差異。此過程有助于模型了解圖像及其相關(guān)文本。它可用于跨模式任務(wù),例如圖像檢索,零拍和視覺問題回答。
剪輯(對比性語言圖像訓(xùn)練)
剪輯或?qū)Ρ榷鹊恼Z言圖像預(yù)處理,是Openai開發(fā)的模型。它是視覺語言模型(VLM)字段中的主要模型之一。剪輯將圖像和文本處理為輸入。該模型在圖像文本數(shù)據(jù)集上進行了訓(xùn)練。它使用對比度學(xué)習(xí)將圖像與其文本描述匹配。同時,它區(qū)分了無關(guān)的圖像文本對。
剪輯如何工作
剪輯使用雙重編碼架構(gòu):一個用于圖像,另一個用于文本。核心思想是將圖像及其相應(yīng)的文本描述同時嵌入到相同的高維矢量空間中,從而使模型可以比較和對比不同的圖像文本對。
剪輯功能的關(guān)鍵步驟
- 圖像編碼:與剪輯模型一樣,此模型還使用稱為VIT的視覺變壓器編碼圖像。
- 文本編碼:同時,該模型也通過基于變壓器的文本編碼來編碼相應(yīng)的文本。
- 對比學(xué)習(xí):然后比較編碼圖像和文本之間的相似性,以便可以相應(yīng)地給出結(jié)果。它最大化圖像屬于與描述同一類的成對上的相似性,同時將其最小化在對并非如此的成對上最小化。
- 跨模式對準(zhǔn):權(quán)衡產(chǎn)生的模型在任務(wù)中非常出色,該模型涉及視覺與零鏡頭學(xué)習(xí),圖像檢索甚至倒數(shù)圖像合成之類的語言的匹配。
剪輯的應(yīng)用
- 圖像檢索:給定描述,剪輯可以找到與之匹配的圖像。
- 零射擊分類:剪輯可以對圖像進行分類,而無需針對特定類別的任何其他培訓(xùn)數(shù)據(jù)。
- 視覺問題回答:剪輯可以理解有關(guān)視覺內(nèi)容的問題并提供答案。
代碼示例:帶剪輯的圖像到文本
下面是用于使用剪輯執(zhí)行圖像到文本任務(wù)的示例代碼段。此示例演示了剪輯如何編碼圖像和一組文本描述,并計算每個文本與圖像匹配的概率。
導(dǎo)入火炬 導(dǎo)入剪輯 從PIL導(dǎo)入圖像 #檢查GPU是否可用,否則請使用CPU 設(shè)備=“ cuda”如果torch.cuda.is_available()else“ cpu” #加載預(yù)訓(xùn)練的剪輯模型和預(yù)處理功能 模型,預(yù)處理= clip.load(“ vit-b/32”,設(shè)備=設(shè)備) #加載和預(yù)處理圖像 image = preprocess(image.open(“ clip.png”)。 #定義與圖像進行比較的文本描述集 text = clip.tokenize([“圖表”,“狗”,“貓”])。到(設(shè)備) #執(zhí)行推理以編碼圖像和文本 使用Torch.no_grad(): image_features = model.encode_image(圖像) text_features = model.encode_text(text) #計算圖像和文本功能之間的相似性 logits_per_image,logits_per_text =模型(圖像,文本) #應(yīng)用SoftMax以獲取與圖像匹配的每個標(biāo)簽的概率 probs = logits_per_image.softmax(dim = -1).cpu()。numpy() #輸出概率 打?。ā皹?biāo)簽概率:”,概率)
siglip(暹羅語言圖像預(yù)處理)
暹羅語言圖像預(yù)處理是由Google開發(fā)的高級模型,它基于諸如剪輯之類的模型的功能。 Siglip通過利用改進的建筑和預(yù)訓(xùn)練技術(shù)利用對比度學(xué)習(xí)的優(yōu)勢來增強圖像分類任務(wù)。它旨在提高零拍圖像分類的效率和準(zhǔn)確性。
siglip的工作原理
Siglip利用了暹羅網(wǎng)絡(luò)體系結(jié)構(gòu),涉及兩個平行網(wǎng)絡(luò),這些網(wǎng)絡(luò)共享權(quán)重,并經(jīng)過訓(xùn)練以區(qū)分相似和不同的圖像文本對。該體系結(jié)構(gòu)允許Siglip有效地學(xué)習(xí)圖像和文本的高質(zhì)量表示。該模型已在圖像的各種數(shù)據(jù)集和相應(yīng)的文本描述中進行了預(yù)訓(xùn)練,從而使其能夠概括為各種看不見的任務(wù)。
Siglip功能的關(guān)鍵步驟
- 暹羅網(wǎng)絡(luò):該模型采用兩個相同的神經(jīng)網(wǎng)絡(luò),它們分別處理圖像和文本輸入,但共享相同的參數(shù)。此設(shè)置允許有效比較圖像和文本表示。
- 對比學(xué)習(xí):與剪輯類似,Siglip使用對比度學(xué)習(xí)來最大化匹配的圖像文本對之間的相似性,并將其最小化以使其對不匹配對。
- 對不同數(shù)據(jù)進行預(yù)處理:Siglip在大型且多樣化的數(shù)據(jù)集中進行了預(yù)訓(xùn)練,從而增強了其在零拍攝方案中表現(xiàn)良好的能力,在該方案中,它在任務(wù)上進行了測試,而無需進行任何其他微調(diào)。
Siglip的應(yīng)用
- 零拍攝圖像分類:Siglip在將圖像分類為類別中脫穎而出,尚未通過利用其廣泛的預(yù)處理來明確訓(xùn)練。
- 視覺搜索和檢索:它可用于根據(jù)文本查詢檢索圖像或根據(jù)描述性文本對圖像進行分類。
- 基于內(nèi)容的圖像標(biāo)簽:Siglip可以自動為圖像生成描述性標(biāo)簽,從而使其對內(nèi)容管理和組織有用。
代碼示例:帶有siglip的零拍圖像分類
下面是一個示例代碼段,演示了如何使用siglip進行零拍圖像分類。該示例顯示了如何使用變形金剛庫將圖像分類為候選標(biāo)簽。
從變形金剛進口管道 從PIL導(dǎo)入圖像 導(dǎo)入請求 #加載預(yù)先訓(xùn)練的siglip模型 image_classifier = pipeline(task =“ Zero-Shot-image-classification”,Model =“ Google/siglip-base-patch16-224”) #從URL加載圖像 url ='http://images.cocodataset.org/val2017/000000039769.jpg' image = image.open(requests.get(url,stream = true).raw) #定義分類的候選標(biāo)簽 cantixed_labels = [“ 2個貓”,“飛機”,“遙控”] #執(zhí)行零拍圖像分類 outputs = image_classifier(image,cantidate_labels = cantifate_labels) #格式并打印結(jié)果 formatted_outputs = [{“ score”:ounder(output [“ score”],4),“ label”:output [label']}用于輸出中的輸出] 打?。╢ormatted_outputs)
從這里閱讀有關(guān)Siglip的更多信息。
培訓(xùn)視覺語言模型(VLM)
培訓(xùn)視覺語言模型(VLM)涉及幾個關(guān)鍵階段:
- 數(shù)據(jù)收集:收集配對圖像和文本的大型數(shù)據(jù)集,以確保多樣性和質(zhì)量有效地訓(xùn)練模型。
- 預(yù)處理:使用變壓器體系結(jié)構(gòu),VLM在大量圖像文本數(shù)據(jù)上進行了預(yù)測。該模型學(xué)會通過自我監(jiān)督的學(xué)習(xí)任務(wù)來編碼視覺和文本信息,例如預(yù)測圖像或文本的掩蓋部分。
- 微調(diào):使用較小的任務(wù)數(shù)據(jù)集對特定任務(wù)進行了微調(diào)。這有助于模型適應(yīng)特定的應(yīng)用程序,例如圖像分類或文本生成。
- 生成培訓(xùn):對于生成的VLM,培訓(xùn)涉及學(xué)習(xí)生成新樣本,例如基于學(xué)習(xí)的表示形式從圖像或圖像中生成文本。
- 對比學(xué)習(xí):該技術(shù)通過最大程度地提高正面對的相似性并將其最大程度地減少負面對,從而提高了模型區(qū)分相似數(shù)據(jù)和不同數(shù)據(jù)的能力。
了解鄉(xiāng)親
Paligemma是一種視覺語言模型(VLM),旨在通過結(jié)構(gòu)化的多階段訓(xùn)練方法來增強圖像和文本理解。它集成了Siglip和Gemma的組件,以實現(xiàn)高級多模式功能。這是基于成績單和提供的數(shù)據(jù)的詳細概述:
它如何工作
- 輸入:模型同時采用文本和圖像輸入。文本輸入是通過線性投影和令牌串聯(lián)處理的,而圖像是由模型的視覺組成部分編碼的。
- Siglip :此組件利用視覺變壓器(VIT-SQ400M)體系結(jié)構(gòu)進行圖像處理。它將視覺數(shù)據(jù)映射到具有文本數(shù)據(jù)的共享特征空間中。
- Gemma解碼器:Gemma解碼器結(jié)合了文本和圖像的功能以生成輸出。該解碼器對于整合多模式數(shù)據(jù)并產(chǎn)生有意義的結(jié)果至關(guān)重要。
pal的訓(xùn)練階段
現(xiàn)在讓我們研究以下pal的訓(xùn)練階段:
-
單峰訓(xùn)練:
- Siglip(VIT-SQ400M) :僅在圖像上訓(xùn)練以構(gòu)建強大的視覺表示。
- Gemma-2B :單獨使用文本訓(xùn)練,專注于生成強大的文本嵌入。
-
多模式訓(xùn)練:
- 224PX,IB示例:在此階段,模型學(xué)習(xí)以224px分辨率處理圖像文本對,使用輸入示例(IB)來完善其多模式的理解。
-
分辨率增加:
- 4480X&896PX :增加圖像和文本數(shù)據(jù)的分辨率,以提高模型處理更高細節(jié)和更復(fù)雜的多模式任務(wù)的能力。
-
轉(zhuǎn)移:
- 分辨率,時期,學(xué)習(xí)率:調(diào)整關(guān)鍵參數(shù),例如分辨率,培訓(xùn)時期的數(shù)量以及學(xué)習(xí)率,以優(yōu)化性能并將學(xué)習(xí)的功能轉(zhuǎn)移到新任務(wù)中。
從這里閱讀有關(guān)paligemma的更多信息。
結(jié)論
本視覺語言模型(VLM)指南強調(diào)了它們對將視覺和語言技術(shù)結(jié)合的革命性影響。我們探索了必不可少的功能,例如對象檢測和圖像分割,著名模型,例如剪輯和各種培訓(xùn)方法。 VLM通過無縫集成視覺和文本數(shù)據(jù)來推進AI,為將來更直觀和高級應(yīng)用程序奠定了基礎(chǔ)。
常見問題
Q1。什么是視覺語言模型(VLM)?答:視覺語言模型(VLM)集成了視覺和文本數(shù)據(jù),以了解和生成圖像和文本的信息。它還啟用了圖像字幕和視覺問題回答之類的任務(wù)。
Q2。剪輯如何工作?A.剪輯使用對比度學(xué)習(xí)方法來對齊圖像和文本表示。允許它有效地匹配圖像與文本說明。
Q3。 VLM的主要功能是什么?A. VLMS在對象檢測,圖像分割,嵌入和視覺問題的回答中表現(xiàn)出色,結(jié)合了視覺和語言處理以執(zhí)行復(fù)雜的任務(wù)。
Q4。 VLM中微調(diào)的目的是什么?答:微調(diào)將預(yù)先訓(xùn)練的VLM適應(yīng)特定任務(wù)或數(shù)據(jù)集,從而提高了其特定應(yīng)用程序的性能和準(zhǔn)確性。
以上是視覺語言模型(VLMS)的綜合指南的詳細內(nèi)容。更多信息請關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

熱AI工具

Undress AI Tool
免費脫衣服圖片

Undresser.AI Undress
人工智能驅(qū)動的應(yīng)用程序,用于創(chuàng)建逼真的裸體照片

AI Clothes Remover
用于從照片中去除衣服的在線人工智能工具。

Clothoff.io
AI脫衣機

Video Face Swap
使用我們完全免費的人工智能換臉工具輕松在任何視頻中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的代碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
功能強大的PHP集成開發(fā)環(huán)境

Dreamweaver CS6
視覺化網(wǎng)頁開發(fā)工具

SublimeText3 Mac版
神級代碼編輯軟件(SublimeText3)

讓我們來談?wù)劇? 對創(chuàng)新AI突破的分析是我正在進行的AI中正在進行的福布斯列覆蓋的一部分,包括識別和解釋各種有影響力的AI復(fù)雜性(請參閱此處的鏈接)。 前往Agi和

還記得今年早些時候破壞了Genai行業(yè)的大量開源中國模型嗎?盡管DeepSeek占據(jù)了大多數(shù)頭條新聞,但Kimi K1.5是列表中的重要名字之一。模型很酷。

到2025年中期,AI“軍備競賽”正在加熱,XAI和Anthropic都發(fā)布了他們的旗艦車型Grok 4和Claude 4。這兩種模型處于設(shè)計理念和部署平臺的相反端,但他們卻在

我們將討論:公司開始委派AI的工作職能,以及那些最不可能用人工智能替代的角色AI如何重塑行業(yè)和就業(yè),以及企業(yè)和工人的工作方式。

7月1日,英格蘭頂級足球聯(lián)盟(England)與一家主要科技公司揭示了為期五年的合作,以創(chuàng)建比簡單的亮點卷軸更先進的東西:一種由實時AI驅(qū)動的工具,可為EV提供個性化的更新和互動

但是我們可能甚至不必等10年就可以看到一個。實際上,可以被認為是真正有用的,類人類機器的第一波。 近年來,有許多原型和生產(chǎn)模型從T中走出來

直到上一年,迅速的工程被認為是與大語言模型(LLM)互動的關(guān)鍵技能。然而,最近,LLM在推理和理解能力方面已經(jīng)顯著提高。自然,我們的期望

Openai是世界上最杰出的人工智能組織之一,將成為由三屆NTT IndyCar系列冠軍和2025 Indianapolis 500冠軍Alex PA驅(qū)動的第10號Chip Ganassi Racing(CGR)本田的主要合作伙伴
