亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

目錄
一、動(dòng)機(jī):解決不同實(shí)體的指代解析
二、重構(gòu):突破傳統(tǒng)文本模態(tài)的限制
三、細(xì)節(jié):任務(wù)定義和數(shù)據(jù)集
四、結(jié)果:最小的模型也取得了5%的性能提升
五、寫在最后
參考鏈接:
首頁(yè) 科技周邊 人工智能 讓Siri不再智障!蘋果定義新的端側(cè)模型,'大大優(yōu)于GPT-4,擺脫文本,可視化模擬屏幕信息,最小參數(shù)模型相較基線系統(tǒng)仍提升5%

讓Siri不再智障!蘋果定義新的端側(cè)模型,'大大優(yōu)于GPT-4,擺脫文本,可視化模擬屏幕信息,最小參數(shù)模型相較基線系統(tǒng)仍提升5%

Apr 02, 2024 pm 09:20 PM
人工智能 gpt-4 api調(diào)用 排列

撰稿丨諾亞? ?

出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto) ? ? ??

總被用戶吐槽“有點(diǎn)智障”的Siri有救了!

Siri自誕生以來(lái)就是智能語(yǔ)音助手領(lǐng)域的代表之一,但很長(zhǎng)一段時(shí)間里,其表現(xiàn)并不盡人意。然而,蘋果的人工智能團(tuán)隊(duì)最新發(fā)布的研究成果有望極大地改變現(xiàn)狀。這些成果令人興奮,同時(shí)也引發(fā)了對(duì)該領(lǐng)域未來(lái)的極大期待。

在相關(guān)的研究論文中,蘋果的AI專家們描述了一個(gè)系統(tǒng),其中Siri不僅可以識(shí)別圖像中的內(nèi)容,還能做更多的事情,變得更加智能、更實(shí)用。這個(gè)功能模型被稱為ReALM,它是基于GPT 4.0的標(biāo)準(zhǔn),具有比GPT 4.0更優(yōu)秀的基準(zhǔn)能力。這些專家們認(rèn)為,他們開(kāi)發(fā)的這個(gè)模型是用于實(shí)現(xiàn)自己研發(fā)的一個(gè)功能的,它可以讓Siri更智能,更實(shí)用,更加適用于各種場(chǎng)景。

一、動(dòng)機(jī):解決不同實(shí)體的指代解析

據(jù)蘋果的研究團(tuán)隊(duì)指出:“讓對(duì)話助手能夠理解上下文,包括相關(guān)的內(nèi)容指向,非常關(guān)鍵。能讓用戶根據(jù)他們所看到的屏幕內(nèi)容進(jìn)行提問(wèn),是確保實(shí)現(xiàn)語(yǔ)音操作體驗(yàn)的重要一步?!?/p>

打個(gè)比方,在人機(jī)交互過(guò)程中,用戶常常會(huì)在對(duì)話中提及屏幕上的某個(gè)元素或內(nèi)容,例如指示語(yǔ)音助手撥打電話號(hào)碼、導(dǎo)航至地圖上的特定地點(diǎn)、打開(kāi)特定應(yīng)用程序或網(wǎng)頁(yè)等。如果對(duì)話助手無(wú)法理解用戶指令背后的實(shí)體指代,就無(wú)法準(zhǔn)確地執(zhí)行這些命令。

而且人類對(duì)話中普遍存在模糊指代的現(xiàn)象,為了實(shí)現(xiàn)自然的人機(jī)交互,以及在用戶與語(yǔ)音助手進(jìn)行關(guān)于屏幕內(nèi)容查詢時(shí)準(zhǔn)確理解語(yǔ)境,指代解析能力至關(guān)重要。

蘋果在論文中提到的名為ReALM(Reference Resolution As Language Modeling)的模型,其優(yōu)勢(shì)就在于,它能夠同時(shí)考慮用戶屏幕上的內(nèi)容和正在進(jìn)行的任務(wù),利用大語(yǔ)言模型解決不同類型實(shí)體(包括對(duì)話實(shí)體和非對(duì)話實(shí)體)的指代解析問(wèn)題。

盡管傳統(tǒng)的文本模態(tài)不便于處理屏幕上顯示的實(shí)體,但ReALM系統(tǒng)通過(guò)將指代解析轉(zhuǎn)化為語(yǔ)言建模問(wèn)題,并成功運(yùn)用LLMs來(lái)處理屏幕上非對(duì)話實(shí)體的指代,極大地推動(dòng)了這一目標(biāo)的達(dá)成。如此一來(lái),便有望達(dá)成高度智能、更加沉浸的用戶體驗(yàn)。

二、重構(gòu):突破傳統(tǒng)文本模態(tài)的限制

傳統(tǒng)的文本模態(tài)不便于處理屏幕上顯示的實(shí)體,是因?yàn)槠聊簧系膶?shí)體通常包含豐富的視覺(jué)信息和布局結(jié)構(gòu),例如圖像、圖標(biāo)、按鈕及它們之間的相對(duì)位置關(guān)系等,這些信息在純粹的文本描述中難以完全表達(dá)。

ReALM系統(tǒng)針對(duì)這一挑戰(zhàn),創(chuàng)造性地提出了通過(guò)解析屏幕上的實(shí)體及其位置信息來(lái)重建屏幕,并生成一種純文本表示,這種文本能可視化地反映屏幕內(nèi)容。

實(shí)體部分會(huì)被特別標(biāo)記,以便語(yǔ)言模型了解實(shí)體出現(xiàn)在何處及其周圍的文本是什么,這樣就能模擬“看到”屏幕上的信息,并在理解和解析屏幕上的指代時(shí)提供必要的上下文信息。這種方法是首次嘗試使用大型語(yǔ)言模型從屏幕內(nèi)容中編碼上下文,克服了傳統(tǒng)文本模態(tài)難以處理的屏幕實(shí)體的問(wèn)題。

具體來(lái)說(shuō),ReALM系統(tǒng)為了讓大型語(yǔ)言模型能夠“理解”并處理屏幕上顯示的實(shí)體,采用了以下步驟:

首先,借助上層數(shù)據(jù)檢測(cè)器提取屏幕文本中的實(shí)體,這些實(shí)體會(huì)帶有類型、邊界框以及實(shí)體周圍非實(shí)體文本元素的列表。這意味著,對(duì)于屏幕上每一個(gè)可視化的實(shí)體,系統(tǒng)都會(huì)捕捉其基本信息和它所處的上下文環(huán)境。

然后,ReALM創(chuàng)新地提出了一種算法,通過(guò)將實(shí)體及其周圍對(duì)象的邊界框中心點(diǎn)按照垂直(從上至下)和水平(從左至右)的順序排序,并穩(wěn)定排列。若實(shí)體間距離較近,則認(rèn)為它們?cè)谕恍袃?nèi),并用制表符隔開(kāi);若距離超出設(shè)定的邊距,則將它們置于下一行。這樣,通過(guò)連續(xù)應(yīng)用上述方法,就可以將屏幕內(nèi)容按從左到右、從上到下的方式編碼成純文本格式,有效地保留了實(shí)體間的相對(duì)空間位置關(guān)系。

這樣一來(lái),原本難以直接被LLM處理的屏幕視覺(jué)信息轉(zhuǎn)化成了適合語(yǔ)言模型輸入的文本形式,使LLM能夠在處理序列到序列的任務(wù)時(shí),充分考慮到了屏幕實(shí)體的具體位置和上下文,從而實(shí)現(xiàn)對(duì)屏幕實(shí)體的正確識(shí)別和指代解析。

這使得ReALM系統(tǒng)不僅在解決對(duì)話實(shí)體的指代問(wèn)題上表現(xiàn)出色,而且在處理非對(duì)話類實(shí)體——即屏幕上的實(shí)體時(shí)同樣表現(xiàn)出了顯著的性能提升。

三、細(xì)節(jié):任務(wù)定義和數(shù)據(jù)集

簡(jiǎn)單來(lái),ReALM系統(tǒng)面臨的任務(wù)是,根據(jù)用戶想要執(zhí)行的任務(wù),在給定的實(shí)體集合中,找出與當(dāng)前用戶查詢相關(guān)的實(shí)體。

這個(gè)任務(wù)被構(gòu)造成一個(gè)針對(duì)大型語(yǔ)言模型的選擇題,期望從用戶屏幕展示的實(shí)體中選擇一個(gè)或多個(gè)選項(xiàng)作為答案。當(dāng)然,在某些情況下,答案可能是“都不是”。

事實(shí)上,研究論文將任務(wù)涉及的實(shí)體分為三類:

1.?屏幕實(shí)體:是指當(dāng)前在用戶界面上可見(jiàn)的實(shí)體。

2.?對(duì)話實(shí)體:與對(duì)話內(nèi)容相關(guān)的實(shí)體,可能來(lái)自用戶的上一輪發(fā)言(如用戶提到“呼叫媽媽”,則聯(lián)系人列表中“媽媽”的條目就是相關(guān)實(shí)體),也可能由虛擬助手在對(duì)話中提供(如供用戶選擇的地點(diǎn)列表)。

3.?背景實(shí)體:源于后臺(tái)進(jìn)程,不一定直接體現(xiàn)在用戶屏幕顯示或與虛擬助手互動(dòng)中的相關(guān)實(shí)體,例如預(yù)設(shè)會(huì)響起的鬧鐘或正在后臺(tái)播放的音樂(lè)。

至于用于訓(xùn)練和測(cè)試ReALM的數(shù)據(jù)集,由合成數(shù)據(jù)和人工標(biāo)注的數(shù)據(jù)組成,同樣可劃分為三類:

其一,對(duì)話數(shù)據(jù)集:包含了與用戶與代理交互相關(guān)的實(shí)體的數(shù)據(jù)點(diǎn)。這些數(shù)據(jù)通過(guò)讓評(píng)分員查看含有合成實(shí)體列表的截圖,并要求他們提供明確指向列表中任意選定實(shí)體的查詢來(lái)收集。

其二,合成數(shù)據(jù)集:采用模板生成法得到數(shù)據(jù),特別是當(dāng)用戶查詢和實(shí)體類型足以確定指代,無(wú)需依賴詳細(xì)描述時(shí),這種方法特別有用。合成數(shù)據(jù)集中也可以包含多個(gè)實(shí)體對(duì)應(yīng)同一查詢的情況。

其三,屏幕數(shù)據(jù)集:主要涵蓋了用戶屏幕上當(dāng)前顯示的實(shí)體的數(shù)據(jù),每一條數(shù)據(jù)都包含用戶查詢、實(shí)體列表以及與該查詢對(duì)應(yīng)的正確實(shí)體(或?qū)嶓w集合)。每個(gè)實(shí)體的信息包括實(shí)體類型和其他屬性,如名稱以及其他與實(shí)體相關(guān)的文本細(xì)節(jié)(例如,鬧鐘的標(biāo)簽和時(shí)間)。

對(duì)于含有屏幕相關(guān)上下文的數(shù)據(jù)點(diǎn),上下文信息以實(shí)體的邊界框以及圍繞該實(shí)體的其他對(duì)象列表的形式提供,同時(shí)附帶這些周邊對(duì)象的類型、文本內(nèi)容和位置等屬性信息。整個(gè)數(shù)據(jù)集的大小根據(jù)類別分為訓(xùn)練集和測(cè)試集,并且各具一定規(guī)模。

四、結(jié)果:最小的模型也取得了5%的性能提升

在基準(zhǔn)測(cè)試中,蘋果公司將自家系統(tǒng)與GPT 3.5和GPT 4.0進(jìn)行了比較。ReALM模型在解決不同類型的指代解析任務(wù)方面表現(xiàn)出卓越的競(jìng)爭(zhēng)力。

讓Siri不再智障!蘋果定義新的端側(cè)模型,大大優(yōu)于GPT-4,擺脫文本,可視化模擬屏幕信息,最小參數(shù)模型相較基線系統(tǒng)仍提升5%圖片

根據(jù)論文所述,即便是ReALM中參數(shù)最少的版本,相較于基線系統(tǒng)也實(shí)現(xiàn)了超過(guò)5%的性能提升。而在更大的模型版本上,ReALM則明顯勝過(guò)GPT-4。特別是在處理屏幕上顯示的實(shí)體時(shí),隨著模型規(guī)模的增加,ReALM在屏幕數(shù)據(jù)集上的性能提升更為顯著。

另外,ReALM模型在全新領(lǐng)域的零樣本學(xué)習(xí)場(chǎng)景上,其性能與GPT-4相當(dāng)接近。而在處理特定領(lǐng)域的查詢時(shí),由于經(jīng)過(guò)用戶請(qǐng)求的微調(diào),ReALM模型比GPT-4表現(xiàn)得更加精準(zhǔn)。

比如,對(duì)于要求調(diào)整亮度這樣的用戶請(qǐng)求,GPT-4僅將該請(qǐng)求關(guān)聯(lián)到設(shè)置,而忽略了背景中存在的智能家居設(shè)備也是相關(guān)實(shí)體,而ReALM因?yàn)榻邮芰祟I(lǐng)域特有數(shù)據(jù)的訓(xùn)練,能夠更好地理解并正確解析此類特定領(lǐng)域內(nèi)的指代問(wèn)題。

“我們證明了ReaLM超越了以往的方法,并且盡管參數(shù)數(shù)量遠(yuǎn)少于當(dāng)前最先進(jìn)的LLM——GPT-4,即使在純粹基于文本領(lǐng)域處理屏幕內(nèi)引用時(shí),ReaLM也能達(dá)到與其相當(dāng)?shù)谋憩F(xiàn)水平。此外,對(duì)于特定領(lǐng)域的用戶話語(yǔ),ReaLM的表現(xiàn)還優(yōu)于GPT-4,因此,ReaLM可以說(shuō)是在保證性能不打折扣的同時(shí),適用于開(kāi)發(fā)面向?qū)嶋H應(yīng)用環(huán)境、可在設(shè)備本地高效運(yùn)行的指代解析系統(tǒng)的首選方案?!?? ?

此外,研究人員還表示,在資源有限、需要低延遲響應(yīng)或者涉及多階段集成如API調(diào)用等實(shí)際應(yīng)用場(chǎng)景中,單一的大型端到端模型往往并不適用。

在這種背景下,模塊化設(shè)計(jì)的ReALM系統(tǒng)更具有優(yōu)勢(shì),允許在不影響整體架構(gòu)的情況下,輕松替換和升級(jí)原有的指代解析模塊,同時(shí)提供更好的優(yōu)化潛力和可解釋性。

面向未來(lái),研究方向則指向了更為復(fù)雜的方法,比如將屏幕區(qū)域劃分為網(wǎng)格并以文本形式編碼空間相對(duì)位置,雖然頗具挑戰(zhàn)性,但這是一種有前景的探索途徑。

五、寫在最后

在人工智能領(lǐng)域,蘋果雖然一直比較謹(jǐn)慎,但也在默默投入。無(wú)論是多模態(tài)大模型MM1,還是AI驅(qū)動(dòng)的動(dòng)畫生成工具Keyframer,再到如今的ReALM,蘋果的研究團(tuán)隊(duì)一直在持續(xù)實(shí)現(xiàn)著技術(shù)突破。

圍觀谷歌、微軟、亞馬遜等競(jìng)爭(zhēng)對(duì)手,紛紛在搜索、云服務(wù)、辦公軟件上加碼AI,秀了一波又一波肌肉。蘋果顯然正努力不落人后。隨著生成式AI落地成果不斷涌現(xiàn),蘋果更是加快了追趕的步伐。早有知情人士透露,在6月舉辦的全球開(kāi)發(fā)者大會(huì)上,蘋果將聚焦于人工智能領(lǐng)域,新的人工智能戰(zhàn)略極有可能成為iOS 18升級(jí)的核心內(nèi)容。屆時(shí),說(shuō)不定會(huì)給諸君帶來(lái)驚喜。

參考鏈接:

https://apple.slashdot.org/story/24/04/01/1959205/apple-ai-researchers-boast-useful-on-device-model-that-substantially-outperforms-gpt-4

https://arxiv.org/pdf/2403.20329.pdf

以上是讓Siri不再智障!蘋果定義新的端側(cè)模型,'大大優(yōu)于GPT-4,擺脫文本,可視化模擬屏幕信息,最小參數(shù)模型相較基線系統(tǒng)仍提升5%的詳細(xì)內(nèi)容。更多信息請(qǐng)關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本站聲明
本文內(nèi)容由網(wǎng)友自發(fā)貢獻(xiàn),版權(quán)歸原作者所有,本站不承擔(dān)相應(yīng)法律責(zé)任。如您發(fā)現(xiàn)有涉嫌抄襲侵權(quán)的內(nèi)容,請(qǐng)聯(lián)系admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費(fèi)脫衣服圖片

Undresser.AI Undress

Undresser.AI Undress

人工智能驅(qū)動(dòng)的應(yīng)用程序,用于創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用于從照片中去除衣服的在線人工智能工具。

Clothoff.io

Clothoff.io

AI脫衣機(jī)

Video Face Swap

Video Face Swap

使用我們完全免費(fèi)的人工智能換臉工具輕松在任何視頻中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費(fèi)的代碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

功能強(qiáng)大的PHP集成開(kāi)發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺(jué)化網(wǎng)頁(yè)開(kāi)發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級(jí)代碼編輯軟件(SublimeText3)

熱門話題

Laravel 教程
1597
29
PHP教程
1488
72
wordpress文章列表怎么調(diào) wordpress文章列表怎么調(diào) Apr 20, 2025 am 10:48 AM

有四種方法可以調(diào)整 WordPress 文章列表:使用主題選項(xiàng)、使用插件(如 Post Types Order、WP Post List、Boxy Stuff)、使用代碼(在 functions.php 文件中添加設(shè)置)或直接修改 WordPress 數(shù)據(jù)庫(kù)。

什么是C  中的靜態(tài)分析? 什么是C 中的靜態(tài)分析? Apr 28, 2025 pm 09:09 PM

靜態(tài)分析在C 中的應(yīng)用主要包括發(fā)現(xiàn)內(nèi)存管理問(wèn)題、檢查代碼邏輯錯(cuò)誤和提高代碼安全性。1)靜態(tài)分析可以識(shí)別內(nèi)存泄漏、雙重釋放和未初始化指針等問(wèn)題。2)它能檢測(cè)未使用變量、死代碼和邏輯矛盾。3)靜態(tài)分析工具如Coverity能發(fā)現(xiàn)緩沖區(qū)溢出、整數(shù)溢出和不安全API調(diào)用,提升代碼安全性。

如何理解C  中的DMA操作? 如何理解C 中的DMA操作? Apr 28, 2025 pm 10:09 PM

DMA在C 中是指DirectMemoryAccess,直接內(nèi)存訪問(wèn)技術(shù),允許硬件設(shè)備直接與內(nèi)存進(jìn)行數(shù)據(jù)傳輸,不需要CPU干預(yù)。1)DMA操作高度依賴于硬件設(shè)備和驅(qū)動(dòng)程序,實(shí)現(xiàn)方式因系統(tǒng)而異。2)直接訪問(wèn)內(nèi)存可能帶來(lái)安全風(fēng)險(xiǎn),需確保代碼的正確性和安全性。3)DMA可提高性能,但使用不當(dāng)可能導(dǎo)致系統(tǒng)性能下降。通過(guò)實(shí)踐和學(xué)習(xí),可以掌握DMA的使用技巧,在高速數(shù)據(jù)傳輸和實(shí)時(shí)信號(hào)處理等場(chǎng)景中發(fā)揮其最大效能。

如何理解C  中的ABI兼容性? 如何理解C 中的ABI兼容性? Apr 28, 2025 pm 10:12 PM

C 中的ABI兼容性是指不同編譯器或版本生成的二進(jìn)制代碼能否在不重新編譯的情況下兼容。1.函數(shù)調(diào)用約定,2.名稱修飾,3.虛函數(shù)表布局,4.結(jié)構(gòu)體和類的布局是主要涉及的方面。

虛擬幣最老的幣排行榜最新更新 虛擬幣最老的幣排行榜最新更新 Apr 22, 2025 am 07:18 AM

虛擬貨幣“最老”排行榜如下:1. 比特幣(BTC),發(fā)行于2009年1月3日,是首個(gè)去中心化數(shù)字貨幣。2. 萊特幣(LTC),發(fā)行于2011年10月7日,被稱為“比特幣的輕量版”。3. 瑞波幣(XRP),發(fā)行于2011年,專為跨境支付設(shè)計(jì)。4. 狗狗幣(DOGE),發(fā)行于2013年12月6日,基于萊特幣代碼的“迷因幣”。5. 以太坊(ETH),發(fā)行于2015年7月30日,首個(gè)支持智能合約的平臺(tái)。6. 泰達(dá)幣(USDT),發(fā)行于2014年,是首個(gè)與美元1:1錨定的穩(wěn)定幣。7. 艾達(dá)幣(ADA),發(fā)

Win7系統(tǒng)中必需記住的14個(gè)常用快捷鍵 Win7系統(tǒng)中必需記住的14個(gè)常用快捷鍵 May 07, 2025 pm 04:39 PM

在日常使用電腦時(shí),快捷鍵的應(yīng)用能顯著提高我們的工作效率,特別是在游戲或使用特定軟件時(shí)??旖萱I不僅操作便捷,還能在Windows7系統(tǒng)中發(fā)揮重要作用,幫助我們更高效地完成任務(wù)。 Ctrl Shift N:創(chuàng)建新文件夾在文件資源管理器中按下Ctrl Shift N,可以快速新建一個(gè)文件夾。而在IE9瀏覽器中使用此快捷鍵,則會(huì)以新窗口形式打開(kāi)當(dāng)前標(biāo)簽頁(yè)。 Ctrl Shift 雙擊鼠標(biāo)左鍵:以管理員身份運(yùn)行程序在Windows7中,有些程序需要以管理員身份運(yùn)行才能正常操作。傳統(tǒng)方法是右鍵點(diǎn)擊程序圖標(biāo)并選擇

掌握 SQL SELECT 語(yǔ)句:綜合指南 掌握 SQL SELECT 語(yǔ)句:綜合指南 Apr 08, 2025 pm 06:39 PM

SQLSELECT語(yǔ)句詳解SELECT語(yǔ)句是SQL中最基礎(chǔ)、最常用的命令,用于從數(shù)據(jù)庫(kù)表中提取數(shù)據(jù)。提取的數(shù)據(jù)以結(jié)果集的形式呈現(xiàn)。SELECT語(yǔ)句語(yǔ)法SELECTcolumn1,column2,...FROMtable_nameWHEREconditionORDERBYcolumn_name[ASC|DESC];SELECT語(yǔ)句各組成部分選擇子句(SELECT):指定要檢索的列。使用*選擇所有列。例如:SELECTfirst_name,last_nameFROMemployees;來(lái)源子句(FR

Bootstrap 5的列表樣式有什么變化? Bootstrap 5的列表樣式有什么變化? Apr 07, 2025 am 11:09 AM

Bootstrap 5 列表樣式改動(dòng)主要在于細(xì)節(jié)優(yōu)化和語(yǔ)義化提升,包括:無(wú)序列表默認(rèn)內(nèi)邊距精簡(jiǎn),視覺(jué)效果更干凈利落;列表樣式更強(qiáng)調(diào)語(yǔ)義,增強(qiáng)可訪問(wèn)性和可維護(hù)性。

See all articles