在线成人精品国产区免费,亚洲欧美日韩成人一区

一、動機：解決不同實體的指代解析

二、重構(gòu)：突破傳統(tǒng)文本模態(tài)的限制

三、細節(jié)：任務(wù)定義和數(shù)據(jù)集

四、結(jié)果：最小的模型也取得了5%的性能提升

五、寫在最后

參考鏈接：

首頁

科技周邊

人工智能

讓Siri不再智障！蘋果定義新的端側(cè)模型，'大大優(yōu)于GPT-4，擺脫文本，可視化模擬屏幕信息，最小參數(shù)模型相較基線系統(tǒng)仍提升5%

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 02, 2024 pm 09:20 PM

人工智能 gpt-4 api調(diào)用排列

撰稿丨諾亞? ?

出品 | 51CTO技術(shù)棧（微信號：blog51cto） ? ? ??

總被用戶吐槽“有點智障”的Siri有救了！

Siri自誕生以來就是智能語音助手領(lǐng)域的代表之一，但很長一段時間里，其表現(xiàn)并不盡人意。然而，蘋果的人工智能團隊最新發(fā)布的研究成果有望極大地改變現(xiàn)狀。這些成果令人興奮，同時也引發(fā)了對該領(lǐng)域未來的極大期待。

在相關(guān)的研究論文中，蘋果的AI專家們描述了一個系統(tǒng)，其中Siri不僅可以識別圖像中的內(nèi)容，還能做更多的事情，變得更加智能、更實用。這個功能模型被稱為ReALM，它是基于GPT 4.0的標準，具有比GPT 4.0更優(yōu)秀的基準能力。這些專家們認為，他們開發(fā)的這個模型是用于實現(xiàn)自己研發(fā)的一個功能的，它可以讓Siri更智能，更實用，更加適用于各種場景。

一、動機：解決不同實體的指代解析

據(jù)蘋果的研究團隊指出：“讓對話助手能夠理解上下文，包括相關(guān)的內(nèi)容指向，非常關(guān)鍵。能讓用戶根據(jù)他們所看到的屏幕內(nèi)容進行提問，是確保實現(xiàn)語音操作體驗的重要一步?！?/p>

打個比方，在人機交互過程中，用戶常常會在對話中提及屏幕上的某個元素或內(nèi)容，例如指示語音助手撥打電話號碼、導(dǎo)航至地圖上的特定地點、打開特定應(yīng)用程序或網(wǎng)頁等。如果對話助手無法理解用戶指令背后的實體指代，就無法準確地執(zhí)行這些命令。

而且人類對話中普遍存在模糊指代的現(xiàn)象，為了實現(xiàn)自然的人機交互，以及在用戶與語音助手進行關(guān)于屏幕內(nèi)容查詢時準確理解語境，指代解析能力至關(guān)重要。

蘋果在論文中提到的名為ReALM（Reference Resolution As Language Modeling）的模型，其優(yōu)勢就在于，它能夠同時考慮用戶屏幕上的內(nèi)容和正在進行的任務(wù)，利用大語言模型解決不同類型實體（包括對話實體和非對話實體）的指代解析問題。

盡管傳統(tǒng)的文本模態(tài)不便于處理屏幕上顯示的實體，但ReALM系統(tǒng)通過將指代解析轉(zhuǎn)化為語言建模問題，并成功運用LLMs來處理屏幕上非對話實體的指代，極大地推動了這一目標的達成。如此一來，便有望達成高度智能、更加沉浸的用戶體驗。

二、重構(gòu)：突破傳統(tǒng)文本模態(tài)的限制

傳統(tǒng)的文本模態(tài)不便于處理屏幕上顯示的實體，是因為屏幕上的實體通常包含豐富的視覺信息和布局結(jié)構(gòu)，例如圖像、圖標、按鈕及它們之間的相對位置關(guān)系等，這些信息在純粹的文本描述中難以完全表達。

ReALM系統(tǒng)針對這一挑戰(zhàn)，創(chuàng)造性地提出了通過解析屏幕上的實體及其位置信息來重建屏幕，并生成一種純文本表示，這種文本能可視化地反映屏幕內(nèi)容。

實體部分會被特別標記，以便語言模型了解實體出現(xiàn)在何處及其周圍的文本是什么，這樣就能模擬“看到”屏幕上的信息，并在理解和解析屏幕上的指代時提供必要的上下文信息。這種方法是首次嘗試使用大型語言模型從屏幕內(nèi)容中編碼上下文，克服了傳統(tǒng)文本模態(tài)難以處理的屏幕實體的問題。

具體來說，ReALM系統(tǒng)為了讓大型語言模型能夠“理解”并處理屏幕上顯示的實體，采用了以下步驟：

首先，借助上層數(shù)據(jù)檢測器提取屏幕文本中的實體，這些實體會帶有類型、邊界框以及實體周圍非實體文本元素的列表。這意味著，對于屏幕上每一個可視化的實體，系統(tǒng)都會捕捉其基本信息和它所處的上下文環(huán)境。

然后，ReALM創(chuàng)新地提出了一種算法，通過將實體及其周圍對象的邊界框中心點按照垂直（從上至下）和水平（從左至右）的順序排序，并穩(wěn)定排列。若實體間距離較近，則認為它們在同一行內(nèi)，并用制表符隔開；若距離超出設(shè)定的邊距，則將它們置于下一行。這樣，通過連續(xù)應(yīng)用上述方法，就可以將屏幕內(nèi)容按從左到右、從上到下的方式編碼成純文本格式，有效地保留了實體間的相對空間位置關(guān)系。

這樣一來，原本難以直接被LLM處理的屏幕視覺信息轉(zhuǎn)化成了適合語言模型輸入的文本形式，使LLM能夠在處理序列到序列的任務(wù)時，充分考慮到了屏幕實體的具體位置和上下文，從而實現(xiàn)對屏幕實體的正確識別和指代解析。

這使得ReALM系統(tǒng)不僅在解決對話實體的指代問題上表現(xiàn)出色，而且在處理非對話類實體——即屏幕上的實體時同樣表現(xiàn)出了顯著的性能提升。

三、細節(jié)：任務(wù)定義和數(shù)據(jù)集

簡單來，ReALM系統(tǒng)面臨的任務(wù)是，根據(jù)用戶想要執(zhí)行的任務(wù)，在給定的實體集合中，找出與當前用戶查詢相關(guān)的實體。

這個任務(wù)被構(gòu)造成一個針對大型語言模型的選擇題，期望從用戶屏幕展示的實體中選擇一個或多個選項作為答案。當然，在某些情況下，答案可能是“都不是”。

事實上，研究論文將任務(wù)涉及的實體分為三類：

1.?屏幕實體：是指當前在用戶界面上可見的實體。

2.?對話實體：與對話內(nèi)容相關(guān)的實體，可能來自用戶的上一輪發(fā)言（如用戶提到“呼叫媽媽”，則聯(lián)系人列表中“媽媽”的條目就是相關(guān)實體），也可能由虛擬助手在對話中提供（如供用戶選擇的地點列表）。

3.?背景實體：源于后臺進程，不一定直接體現(xiàn)在用戶屏幕顯示或與虛擬助手互動中的相關(guān)實體，例如預(yù)設(shè)會響起的鬧鐘或正在后臺播放的音樂。

至于用于訓(xùn)練和測試ReALM的數(shù)據(jù)集，由合成數(shù)據(jù)和人工標注的數(shù)據(jù)組成，同樣可劃分為三類：

其一，對話數(shù)據(jù)集：包含了與用戶與代理交互相關(guān)的實體的數(shù)據(jù)點。這些數(shù)據(jù)通過讓評分員查看含有合成實體列表的截圖，并要求他們提供明確指向列表中任意選定實體的查詢來收集。

其二，合成數(shù)據(jù)集：采用模板生成法得到數(shù)據(jù)，特別是當用戶查詢和實體類型足以確定指代，無需依賴詳細描述時，這種方法特別有用。合成數(shù)據(jù)集中也可以包含多個實體對應(yīng)同一查詢的情況。

其三，屏幕數(shù)據(jù)集：主要涵蓋了用戶屏幕上當前顯示的實體的數(shù)據(jù)，每一條數(shù)據(jù)都包含用戶查詢、實體列表以及與該查詢對應(yīng)的正確實體（或?qū)嶓w集合）。每個實體的信息包括實體類型和其他屬性，如名稱以及其他與實體相關(guān)的文本細節(jié)（例如，鬧鐘的標簽和時間）。

對于含有屏幕相關(guān)上下文的數(shù)據(jù)點，上下文信息以實體的邊界框以及圍繞該實體的其他對象列表的形式提供，同時附帶這些周邊對象的類型、文本內(nèi)容和位置等屬性信息。整個數(shù)據(jù)集的大小根據(jù)類別分為訓(xùn)練集和測試集，并且各具一定規(guī)模。

四、結(jié)果：最小的模型也取得了5%的性能提升

在基準測試中，蘋果公司將自家系統(tǒng)與GPT 3.5和GPT 4.0進行了比較。ReALM模型在解決不同類型的指代解析任務(wù)方面表現(xiàn)出卓越的競爭力。

讓Siri不再智障！蘋果定義新的端側(cè)模型，大大優(yōu)于GPT-4，擺脫文本，可視化模擬屏幕信息，最小參數(shù)模型相較基線系統(tǒng)仍提升5% 圖片

根據(jù)論文所述，即便是ReALM中參數(shù)最少的版本，相較于基線系統(tǒng)也實現(xiàn)了超過5%的性能提升。而在更大的模型版本上，ReALM則明顯勝過GPT-4。特別是在處理屏幕上顯示的實體時，隨著模型規(guī)模的增加，ReALM在屏幕數(shù)據(jù)集上的性能提升更為顯著。

另外，ReALM模型在全新領(lǐng)域的零樣本學(xué)習(xí)場景上，其性能與GPT-4相當接近。而在處理特定領(lǐng)域的查詢時，由于經(jīng)過用戶請求的微調(diào)，ReALM模型比GPT-4表現(xiàn)得更加精準。

比如，對于要求調(diào)整亮度這樣的用戶請求，GPT-4僅將該請求關(guān)聯(lián)到設(shè)置，而忽略了背景中存在的智能家居設(shè)備也是相關(guān)實體，而ReALM因為接受了領(lǐng)域特有數(shù)據(jù)的訓(xùn)練，能夠更好地理解并正確解析此類特定領(lǐng)域內(nèi)的指代問題。

“我們證明了ReaLM超越了以往的方法，并且盡管參數(shù)數(shù)量遠少于當前最先進的LLM——GPT-4，即使在純粹基于文本領(lǐng)域處理屏幕內(nèi)引用時，ReaLM也能達到與其相當?shù)谋憩F(xiàn)水平。此外，對于特定領(lǐng)域的用戶話語，ReaLM的表現(xiàn)還優(yōu)于GPT-4，因此，ReaLM可以說是在保證性能不打折扣的同時，適用于開發(fā)面向?qū)嶋H應(yīng)用環(huán)境、可在設(shè)備本地高效運行的指代解析系統(tǒng)的首選方案?！?? ?

此外，研究人員還表示，在資源有限、需要低延遲響應(yīng)或者涉及多階段集成如API調(diào)用等實際應(yīng)用場景中，單一的大型端到端模型往往并不適用。

在這種背景下，模塊化設(shè)計的ReALM系統(tǒng)更具有優(yōu)勢，允許在不影響整體架構(gòu)的情況下，輕松替換和升級原有的指代解析模塊，同時提供更好的優(yōu)化潛力和可解釋性。

面向未來，研究方向則指向了更為復(fù)雜的方法，比如將屏幕區(qū)域劃分為網(wǎng)格并以文本形式編碼空間相對位置，雖然頗具挑戰(zhàn)性，但這是一種有前景的探索途徑。

五、寫在最后

在人工智能領(lǐng)域，蘋果雖然一直比較謹慎，但也在默默投入。無論是多模態(tài)大模型MM1，還是AI驅(qū)動的動畫生成工具Keyframer，再到如今的ReALM，蘋果的研究團隊一直在持續(xù)實現(xiàn)著技術(shù)突破。

圍觀谷歌、微軟、亞馬遜等競爭對手，紛紛在搜索、云服務(wù)、辦公軟件上加碼AI，秀了一波又一波肌肉。蘋果顯然正努力不落人后。隨著生成式AI落地成果不斷涌現(xiàn)，蘋果更是加快了追趕的步伐。早有知情人士透露，在6月舉辦的全球開發(fā)者大會上，蘋果將聚焦于人工智能領(lǐng)域，新的人工智能戰(zhàn)略極有可能成為iOS 18升級的核心內(nèi)容。屆時，說不定會給諸君帶來驚喜。

參考鏈接：

https://apple.slashdot.org/story/24/04/01/1959205/apple-ai-researchers-boast-useful-on-device-model-that-substantially-outperforms-gpt-4

https://arxiv.org/pdf/2403.20329.pdf

以上是讓Siri不再智障！蘋果定義新的端側(cè)模型，'大大優(yōu)于GPT-4，擺脫文本，可視化模擬屏幕信息，最小參數(shù)模型相較基線系統(tǒng)仍提升5%的詳細內(nèi)容。更多信息請關(guān)注PHP中文網(wǎng)其他相關(guān)文章！

本站聲明

本文內(nèi)容由網(wǎng)友自發(fā)貢獻，版權(quán)歸原作者所有，本站不承擔(dān)相應(yīng)法律責(zé)任。如您發(fā)現(xiàn)有涉嫌抄襲侵權(quán)的內(nèi)容，請聯(lián)系admin@php.cn

熱AI工具

Undress AI Tool

免費脫衣服圖片

Undresser.AI Undress

人工智能驅(qū)動的應(yīng)用程序，用于創(chuàng)建逼真的裸體照片

AI Clothes Remover

用于從照片中去除衣服的在線人工智能工具。

ArtGPT

Stock Market GPT

人工智能驅(qū)動投資研究，做出更明智的決策

熱工具

記事本++7.3.1

好用且免費的代碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

功能強大的PHP集成開發(fā)環(huán)境

Dreamweaver CS6

視覺化網(wǎng)頁開發(fā)工具

SublimeText3 Mac版

神級代碼編輯軟件(SublimeText3)

熱門話題

Related knowledge

牛市和熊市是什么？怎么判斷牛市跟熊市？ Sep 05, 2025 am 10:33 AM

目錄如何識別市場牛熊轉(zhuǎn)換？成交量的變動技術(shù)指標的走勢留意市場中的潛在風(fēng)險本文將為你詳細講解什么是牛市與熊市，以及如何簡單有效地判斷當前市場處于哪種狀態(tài)。我會以幣安平臺的操作界面為例進行演示。如果你還沒有注冊幣安交易所，可以通過下方提供的注冊鏈接和APP下載地址，配合視頻教程完成注冊。幣安官網(wǎng)注冊：https://static.jbzj.com/qkl/ba/bazc.html（復(fù)制鏈接到瀏覽器打開）幣安安卓版APP下載：https://static.jbzj.com/qkl/ba/baxz.ht

什么是 Somnia (SOMI)幣？近期價格趨勢、未來展望介紹 Sep 17, 2025 am 06:18 AM

目錄什么是Somnia(SOMI)？價格表現(xiàn)與市場動態(tài)：短期波動與長期潛力技術(shù)優(yōu)勢：為什么Somnia能挑戰(zhàn)傳統(tǒng)Layer1？未來展望：2025-2030年價格預(yù)測結(jié)語：Somnia的機遇與SEO內(nèi)容機遇Somnia（SOMI）作為2025年9月新上線的高性能Layer1區(qū)塊鏈原生代幣，近期因其價格波動和技術(shù)創(chuàng)新備受市場關(guān)注。截至2025年9月12日，Gate交易所數(shù)據(jù)顯示SOMI價格暫報1.28美元，雖較歷史最高點1.90美元有所回調(diào)，但仍比主

加密貨幣高頻交易是什么?如何運作?高頻交易優(yōu)缺點與未來發(fā)展分析 Sep 24, 2025 pm 01:42 PM

目錄什么是高頻交易高頻交易如何運作高頻交易的歷史記錄高頻交易的好處HFT執(zhí)行速度更快高周轉(zhuǎn)率和訂單交易比率高頻交易在海外具有巨大的增長潛力高支配地位加密貨幣中常見的HFT策略高頻交易中使用的算法如何工作高頻交易的缺點高頻交易的未來如何加密貨幣高頻交易的最新發(fā)展（2023-2025年）加密貨幣高頻交易（High-FrequencyTrading,HFT）是傳統(tǒng)金融領(lǐng)域策略在數(shù)字資產(chǎn)市場的演變和應(yīng)用。下面我將為你全面解讀其定義、運

筆趣閣1v1免費登錄_筆趣閣1v1無廣告入口鏈接 Sep 16, 2025 am 10:24 AM

筆趣閣1v1免費無廣告入口為https://www.biquge.info/，該平臺涵蓋都市、玄幻等多題材小說，更新及時，支持書名與作者搜索，設(shè)有熱度排行榜；閱讀界面簡潔，可調(diào)節(jié)字體、背景及夜間模式，廣告少且不干擾，加載流暢；適配手機與PC端，無需下載APP，登錄即可同步書架與閱讀記錄。

夸克網(wǎng)盤如何搜索自己盤里的文件_夸克網(wǎng)盤內(nèi)資源精準搜索技巧 Sep 20, 2025 am 11:06 AM

使用關(guān)鍵詞搜索、篩選條件、文件路徑及最近記錄可快速定位夸克網(wǎng)盤文件。先在搜索框輸入關(guān)鍵詞查找，再通過篩選功能按類型、時間等縮小范圍，查看文件路徑或收藏常用文件夾以便下次快速訪問，也可在“最近”列表中找回近期操作的文件。

夸克怎么保存長截圖_夸克網(wǎng)頁完整長截圖操作方法 Sep 20, 2025 am 11:33 AM

使用夸克瀏覽器長截圖功能可完整保存網(wǎng)頁內(nèi)容。①直接通過內(nèi)置長截圖自動拼接頁面；②開啟閱讀模式后截取純凈內(nèi)容長圖；③手動分段截圖并用相冊或第三方工具垂直拼接，確保重疊對齊后導(dǎo)出保存。

Cronos(CRO幣)是什么?是一個好投資嗎?CRO幣未來價格預(yù)測 Sep 02, 2025 pm 08:51 PM

目錄什么是Cronos（CRO）有多少個CROCRO幣主要功能CRO與Solana對比CRO背后的技術(shù)團隊與起源重要新聞與事件CRO是一項好的投資嗎CRO幣長期價格預(yù)測CRO2025年價格預(yù)測CRO2026-2031年價格預(yù)測CRO2031-2036年價格預(yù)測常見問題解答Cronos?(CRO)是Cronos生態(tài)系統(tǒng)的原生代幣，該項目以其在以太坊和Cosmos區(qū)塊鏈交匯處的地位而著稱。作為一條基于

最佳加密貨幣：值得購買且高潛力的五種加密貨幣介紹 Sep 16, 2025 pm 11:42 PM

關(guān)鍵要點PUMP、Avantis、QuackAI、OpenLedger與Monero因其獨特應(yīng)用場景、社區(qū)活躍度及增長潛力，成為當前市場熱議的加密資產(chǎn)。上市利好、平臺擴張和技術(shù)面動能共同推動了這些代幣的交易熱度和需求上升。每種代幣均提供差異化價值主張，涵蓋隱私保護、去中心化治理、AI基礎(chǔ)設(shè)施、DeFi杠桿交易及現(xiàn)實世界資產(chǎn)（RWA）整合，具備長期關(guān)注價值。PUMPPump.fun(PUMP)近期表現(xiàn)強勁，周漲幅高達71.3%，但漲勢已現(xiàn)放緩信號。其14天相對強弱指數(shù)（RSI）攀升至82.96，

See all articles

亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱