亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

目錄
一、動(dòng)機(jī):解決不同實(shí)體的指涉解析
二、重構(gòu):突破傳統(tǒng)文字模態(tài)的限制
三、細(xì)節(jié):任務(wù)定義與資料集
四、結(jié)果:最小的模型也取得了5%的效能提升
五、寫在最後
參考連結(jié):
首頁 科技週邊 人工智慧 讓Siri不再智障!蘋果定義新的端側(cè)模型,「大大優(yōu)於GPT-4,擺脫文本,可視化模擬螢?zāi)挥嵪?,最小參?shù)模型相較基線系統(tǒng)仍提升5%

讓Siri不再智障!蘋果定義新的端側(cè)模型,「大大優(yōu)於GPT-4,擺脫文本,可視化模擬螢?zāi)挥嵪?,最小參?shù)模型相較基線系統(tǒng)仍提升5%

Apr 02, 2024 pm 09:20 PM
人工智慧 gpt-4 api調(diào)用 排列

撰稿丨諾亞? ?

#出品| 51CTO技術(shù)堆疊(微訊號:blog51cto) ? ? ??

#總是被使用者吐槽「有點(diǎn)智障」的Siri有救了!

Siri自誕生以來就是智慧語音助理領(lǐng)域的代表之一,但在很長一段時(shí)間裡,其表現(xiàn)並不盡如人意。然而,蘋果的人工智慧團(tuán)隊(duì)最新發(fā)布的研究成果有望大幅改變現(xiàn)狀。這些成果令人興奮,同時(shí)也引發(fā)了對該領(lǐng)域未來的極大期待。

在相關(guān)的研究論文中,蘋果的AI專家們描述了一個(gè)系統(tǒng),其中Siri不僅可以識別圖像中的內(nèi)容,還能做更多的事情,變得更加智能、更實(shí)用。這個(gè)功能模型被稱為ReALM,它是基於GPT 4.0的標(biāo)準(zhǔn),具有比GPT 4.0更優(yōu)秀的基準(zhǔn)能力。這些專家認(rèn)為,他們開發(fā)的這個(gè)模型是用來實(shí)現(xiàn)自己研發(fā)的一個(gè)功能的,它可以讓Siri更智能,更實(shí)用,更適用於各種場景。

一、動(dòng)機(jī):解決不同實(shí)體的指涉解析

根據(jù)蘋果的研究團(tuán)隊(duì)指出:「讓對話助手能夠理解上下文,包括相關(guān)的內(nèi)容指向,非常關(guān)鍵。能讓用戶根據(jù)他們所看到的螢?zāi)粌?nèi)容進(jìn)行提問,是確保實(shí)現(xiàn)語音操作體驗(yàn)的重要一步?!?/p>

#打個(gè)比方,在人機(jī)互動(dòng)過程中,使用者常常會在對話中提及螢?zāi)簧系哪硞€(gè)元素或內(nèi)容,例如指示語音助理撥打電話號碼、導(dǎo)航至地圖上的特定地點(diǎn)、開啟特定應(yīng)用程式或網(wǎng)頁等。如果對話助手無法理解使用者指令背後的實(shí)體指代,就無法準(zhǔn)確地執(zhí)行這些命令。

而且人類對話中普遍存在模糊指代的現(xiàn)象,為了實(shí)現(xiàn)自然的人機(jī)交互,以及在用戶與語音助手進(jìn)行關(guān)於屏幕內(nèi)容查詢時(shí)準(zhǔn)確理解語境,指代解析能力至關(guān)重要。

蘋果在論文中提到的名為ReALM(Reference Resolution As Language Modeling)的模型,其優(yōu)勢就在於,它能夠同時(shí)考慮用戶螢?zāi)簧系膬?nèi)容和正在進(jìn)行的任務(wù),利用大語言模型解決不同類型實(shí)體(包括對話實(shí)體和非對話實(shí)體)的指涉解析問題。

儘管傳統(tǒng)的文字模態(tài)不便於處理螢?zāi)簧巷@示的實(shí)體,但ReALM系統(tǒng)透過將指涉解析轉(zhuǎn)換為語言建模問題,並成功運(yùn)用LLMs來處理螢?zāi)簧戏菍υ拰?shí)體的指涉,極大地推動(dòng)了這一目標(biāo)的達(dá)成。如此一來,便可望達(dá)成高度智慧、更沉浸的使用者體驗(yàn)。

二、重構(gòu):突破傳統(tǒng)文字模態(tài)的限制

傳統(tǒng)的文字模態(tài)不便於處理螢?zāi)簧巷@示的實(shí)體,是因?yàn)槲災(zāi)簧系膶?shí)體通常包含豐富的視覺資訊和佈局結(jié)構(gòu),例如圖像、圖標(biāo)、按鈕及它們之間的相對位置關(guān)係等,這些資訊在純粹的文字描述中難以完全表達(dá)。

ReALM系統(tǒng)針對這項(xiàng)挑戰(zhàn),創(chuàng)造性地提出了透過解析螢?zāi)簧系膶?shí)體及其位置資訊來重建螢?zāi)?,並產(chǎn)生一種純文字表示,這種文字能視覺化地反映螢?zāi)粌?nèi)容。

實(shí)體部分會被特別標(biāo)記,以便語言模型了解實(shí)體出現(xiàn)在何處及其周圍的文字是什麼,這樣就能模擬「看到」螢?zāi)簧系男畔ⅲ瑏K在理解和解析螢?zāi)簧系闹干鏁r(shí)提供必要的上下文資訊。這種方法是首次嘗試使用大型語言模型從螢?zāi)粌?nèi)容中編碼上下文,克服了傳統(tǒng)文本模態(tài)難以處理的螢?zāi)粚?shí)體的問題。

具體來說,ReALM系統(tǒng)為了讓大型語言模型能夠「理解」並處理螢?zāi)簧巷@示的實(shí)體,採用了以下步驟:

首先,借助上層資料偵測器擷取螢?zāi)晃淖种械膶?shí)體,這些實(shí)體會帶有類型、邊界框以及實(shí)體周圍非實(shí)體文字元素的清單。這意味著,對於螢?zāi)簧厦恳粋€(gè)可視化的實(shí)體,系統(tǒng)都會捕捉其基本資訊和它所處的上下文環(huán)境。

然後,ReALM創(chuàng)新地提出了一種演算法,透過將實(shí)體及其周圍物件的邊界框中心點(diǎn)按照垂直(從上至下)和水平(從左到右)的順序排序,並穩(wěn)定排列。若實(shí)體間距較近,則認(rèn)為它們在同一行內(nèi),並用製表符隔開;若距離超出設(shè)定的邊距,則將它們置於下一行。這樣,透過連續(xù)應(yīng)用上述方法,就可以將螢?zāi)粌?nèi)容按從左到右、從上到下的方式編碼成純文字格式,有效地保留了實(shí)體間的相對空間位置關(guān)係。

這樣一來,原本難以直接被LLM處理的螢?zāi)灰曈X訊息轉(zhuǎn)化成了適合語言模型輸入的文字形式,使LLM能夠在處理序列到序列的任務(wù)時(shí),充分考慮到了螢?zāi)粚?shí)體的具體位置和上下文,從而實(shí)現(xiàn)對螢?zāi)粚?shí)體的正確識別和指涉解析。

這使得ReALM系統(tǒng)不僅在解決對話實(shí)體的指稱問題上表現(xiàn)出色,而且在處理非對話類實(shí)體——即螢?zāi)簧系膶?shí)體時(shí)同樣表現(xiàn)出了顯著的性能提升。

三、細(xì)節(jié):任務(wù)定義與資料集

簡單來,ReALM系統(tǒng)面臨的任務(wù)是,根據(jù)使用者想要執(zhí)行的任務(wù),在給定的實(shí)體集合中,找出與目前使用者查詢相關(guān)的實(shí)體。

這個(gè)任務(wù)被建構(gòu)成一個(gè)針對大型語言模型的選擇題,期望從使用者畫面展示的實(shí)體中選擇一個(gè)或多個(gè)選項(xiàng)作為答案。當(dāng)然,在某些情況下,答案可能是「都不是」。

事實(shí)上,研究論文將任務(wù)涉及的實(shí)體分為三類:

#1.?螢?zāi)粚?shí)體:是指目前在使用者介面上可見的實(shí)體。

2.?對話實(shí)體:與對話內(nèi)容相關(guān)的實(shí)體,可能來自用戶的上一輪發(fā)言(如用戶提到“呼叫媽媽”,則聯(lián)絡(luò)人列表中“媽媽”的條目就是相關(guān)實(shí)體) ,也可能由虛擬助理在對話中提供(如供使用者選擇的地點(diǎn)清單)。

3.?背景實(shí)體:源自於背景進(jìn)程,不一定直接體現(xiàn)在使用者螢?zāi)伙@示或與虛擬助理互動(dòng)中的相關(guān)實(shí)體,例如預(yù)設(shè)會響起的鬧鐘或正在後臺播放的音樂。

至於用於訓(xùn)練和測試ReALM的資料集,由合成資料和手動(dòng)標(biāo)註的資料組成,同樣可劃分為三類:

其一,對話資料集:包含了與使用者與代理程式互動(dòng)相關(guān)的實(shí)體的資料點(diǎn)。這些資料透過讓評分員查看含有合成實(shí)體清單的截圖,並要求他們提供明確指向清單中任意選定實(shí)體的查詢來收集。

其二,合成數(shù)據(jù)集:採用模板生成法得到數(shù)據(jù),特別是當(dāng)用戶查詢和實(shí)體類型足以確定指代,無需依賴詳細(xì)描述時(shí),這種方法特別有用。合成資料集中也可以包含多個(gè)實(shí)體對應(yīng)相同查詢的情況。

其三,螢?zāi)粩?shù)據(jù)集:主要涵蓋了用戶螢?zāi)簧夏壳帮@示的實(shí)體的數(shù)據(jù),每一條數(shù)據(jù)都包含用戶查詢、實(shí)體列表以及與該查詢對應(yīng)的正確實(shí)體(或?qū)嶓w集合)。每個(gè)實(shí)體的資訊包括實(shí)體類型和其他屬性,如名稱以及其他與實(shí)體相關(guān)的文字細(xì)節(jié)(例如,鬧鐘的標(biāo)籤和時(shí)間)。

對於含有螢?zāi)幌嚓P(guān)上下文的資料點(diǎn),上下文資訊以實(shí)體的邊界框以及圍繞該實(shí)體的其他物件清單的形式提供,同時(shí)附帶這些週邊物件的類型、文字內(nèi)容和位置等屬性資訊。整個(gè)資料集的大小依類別分為訓(xùn)練集和測試集,並且各具一定規(guī)模。

四、結(jié)果:最小的模型也取得了5%的效能提升

在基準(zhǔn)測試中,蘋果公司將自家系統(tǒng)與GPT 3.5和GPT 4.0進(jìn)行了比較。 ReALM模型在解決不同類型的指涉解析任務(wù)方面展現(xiàn)出卓越的競爭力。

讓Siri不再智障!蘋果定義新的端側(cè)模型,「大大優(yōu)於GPT-4,擺脫文本,可視化模擬螢?zāi)挥嵪ⅲ钚?shù)模型相較基線系統(tǒng)仍提升5%圖片

#根據(jù)論文所述,即使是ReALM中參數(shù)最少的版本,相較於基線系統(tǒng)也實(shí)現(xiàn)了超過5%的效能提升。而在更大的模型版本上,ReALM則明顯勝過GPT-4。特別是在處理螢?zāi)簧巷@示的實(shí)體時(shí),隨著模型規(guī)模的增加,ReALM在螢?zāi)毁Y料集上的效能提升更為顯著。

另外,ReALM模型在全新領(lǐng)域的零樣本學(xué)習(xí)場景上,其效能與GPT-4相當(dāng)接近。而在處理特定領(lǐng)域的查詢時(shí),由於經(jīng)過使用者請求的微調(diào),ReALM模型比GPT-4表現(xiàn)得更精準(zhǔn)。

例如,對於要求調(diào)整亮度這樣的用戶請求,GPT-4僅將該請求關(guān)聯(lián)到設(shè)置,而忽略了背景中存在的智慧家庭設(shè)備也是相關(guān)實(shí)體,而ReALM因?yàn)榻邮芰祟I(lǐng)域特有資料的訓(xùn)練,能夠更好地理解並正確解析此類特定領(lǐng)域內(nèi)的指涉問題。

「我們證明了ReaLM超越了以往的方法,並且儘管參數(shù)數(shù)量遠(yuǎn)少於當(dāng)前最先進(jìn)的LLM——GPT-4,即使在純粹基於文本領(lǐng)域處理屏幕內(nèi)在引用時(shí),ReaLM也能達(dá)到與其相當(dāng)?shù)谋憩F(xiàn)水準(zhǔn)。此外,對於特定領(lǐng)域的使用者話語,ReaLM的表現(xiàn)還優(yōu)於GPT-4,因此,ReaLM可以說是在保證性能不打折扣的同時(shí),適用於開發(fā)方面實(shí)際應(yīng)用環(huán)境、可在設(shè)備本地高效運(yùn)行的指代解析系統(tǒng)的首選方案?!?? ?

#此外,研究人員還表示,在資源有限、需要低延遲響應(yīng)或涉及多階段整合如API呼叫等實(shí)際應(yīng)用場景中,單一的大型端對端模型往往並不適用。

在這種背景下,模組化設(shè)計(jì)的ReALM系統(tǒng)更具優(yōu)勢,允許在不影響整體架構(gòu)的情況下,輕鬆替換和升級原有的指涉解析模組,同時(shí)提供更好的優(yōu)化潛力和可解釋性。

#

面向未來,研究方向則指向了更複雜的方法,例如將螢?zāi)粎^(qū)域劃分為網(wǎng)格並以文字形式編碼空間相對位置,雖然頗具挑戰(zhàn)性,但這是一種有前景的探索途徑。

五、寫在最後

在人工智慧領(lǐng)域,蘋果雖然一直比較謹(jǐn)慎,但也在默默投入。無論是多模態(tài)大模型MM1,還是AI驅(qū)動(dòng)的動(dòng)畫生成工具Keyframer,再到現(xiàn)今的ReALM,蘋果的研究團(tuán)隊(duì)一直持續(xù)實(shí)現(xiàn)技術(shù)突破。

圍觀Google、微軟、亞馬遜等競爭對手,紛紛在搜尋、雲(yún)端服務(wù)、辦公室軟體上加碼AI,秀了一波又一波肌肉。蘋果顯然正努力不落人後。隨著生成式AI落地成果不斷湧現(xiàn),蘋果更是加快了追趕的腳步。早有知情人士透露,在6月舉辦的全球開發(fā)者大會上,蘋果將聚焦於人工智慧領(lǐng)域,新的人工智慧策略極有可能成為iOS 18升級的核心內(nèi)容。屆時(shí),說不定會帶給諸君驚喜。

參考連結(jié):

https://apple.slashdot.org/story/24/04/01/1959205/apple-ai-researchers-boast-useful -on-device-model-that-substantially-outperforms-gpt-4

https://arxiv.org/pdf/2403.20329.pdf

#

以上是讓Siri不再智障!蘋果定義新的端側(cè)模型,「大大優(yōu)於GPT-4,擺脫文本,可視化模擬螢?zāi)挥嵪?,最小參?shù)模型相較基線系統(tǒng)仍提升5%的詳細(xì)內(nèi)容。更多資訊請關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本網(wǎng)站聲明
本文內(nèi)容由網(wǎng)友自願(yuàn)投稿,版權(quán)歸原作者所有。本站不承擔(dān)相應(yīng)的法律責(zé)任。如發(fā)現(xiàn)涉嫌抄襲或侵權(quán)的內(nèi)容,請聯(lián)絡(luò)admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費(fèi)脫衣圖片

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅(qū)動(dòng)的應(yīng)用程序,用於創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費(fèi)的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費(fèi)的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強(qiáng)大的PHP整合開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網(wǎng)頁開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

wordpress文章列表怎麼調(diào) wordpress文章列表怎麼調(diào) Apr 20, 2025 am 10:48 AM

有四種方法可以調(diào)整 WordPress 文章列表:使用主題選項(xiàng)、使用插件(如 Post Types Order、WP Post List、Boxy Stuff)、使用代碼(在 functions.php 文件中添加設(shè)置)或直接修改 WordPress 數(shù)據(jù)庫。

什麼是C  中的靜態(tài)分析? 什麼是C 中的靜態(tài)分析? Apr 28, 2025 pm 09:09 PM

靜態(tài)分析在C 中的應(yīng)用主要包括發(fā)現(xiàn)內(nèi)存管理問題、檢查代碼邏輯錯(cuò)誤和提高代碼安全性。 1)靜態(tài)分析可以識別內(nèi)存洩漏、雙重釋放和未初始化指針等問題。 2)它能檢測未使用變量、死代碼和邏輯矛盾。 3)靜態(tài)分析工具如Coverity能發(fā)現(xiàn)緩衝區(qū)溢出、整數(shù)溢出和不安全API調(diào)用,提升代碼安全性。

如何理解C  中的DMA操作? 如何理解C 中的DMA操作? Apr 28, 2025 pm 10:09 PM

DMA在C 中是指DirectMemoryAccess,直接內(nèi)存訪問技術(shù),允許硬件設(shè)備直接與內(nèi)存進(jìn)行數(shù)據(jù)傳輸,不需要CPU干預(yù)。 1)DMA操作高度依賴於硬件設(shè)備和驅(qū)動(dòng)程序,實(shí)現(xiàn)方式因係統(tǒng)而異。 2)直接訪問內(nèi)存可能帶來安全風(fēng)險(xiǎn),需確保代碼的正確性和安全性。 3)DMA可提高性能,但使用不當(dāng)可能導(dǎo)致系統(tǒng)性能下降。通過實(shí)踐和學(xué)習(xí),可以掌握DMA的使用技巧,在高速數(shù)據(jù)傳輸和實(shí)時(shí)信號處理等場景中發(fā)揮其最大效能。

如何理解C  中的ABI兼容性? 如何理解C 中的ABI兼容性? Apr 28, 2025 pm 10:12 PM

C 中的ABI兼容性是指不同編譯器或版本生成的二進(jìn)制代碼能否在不重新編譯的情況下兼容。 1.函數(shù)調(diào)用約定,2.名稱修飾,3.虛函數(shù)表佈局,4.結(jié)構(gòu)體和類的佈局是主要涉及的方面。

虛擬幣最老的幣排行榜最新更新 虛擬幣最老的幣排行榜最新更新 Apr 22, 2025 am 07:18 AM

虛擬貨幣“最老”排行榜如下:1. 比特幣(BTC),發(fā)行於2009年1月3日,是首個(gè)去中心化數(shù)字貨幣。 2. 萊特幣(LTC),發(fā)行於2011年10月7日,被稱為“比特幣的輕量版”。 3. 瑞波幣(XRP),發(fā)行於2011年,專為跨境支付設(shè)計(jì)。 4. 狗狗幣(DOGE),發(fā)行於2013年12月6日,基於萊特幣代碼的“迷因幣”。 5. 以太坊(ETH),發(fā)行於2015年7月30日,首個(gè)支持智能合約的平臺。 6. 泰達(dá)幣(USDT),發(fā)行於2014年,是首個(gè)與美元1:1錨定的穩(wěn)定幣。 7. 艾達(dá)幣(ADA),發(fā)

Win7系統(tǒng)中必需記住的14個(gè)常用快捷鍵 Win7系統(tǒng)中必需記住的14個(gè)常用快捷鍵 May 07, 2025 pm 04:39 PM

在日常使用電腦時(shí),快捷鍵的應(yīng)用能顯著提高我們的工作效率,特別是在游戲或使用特定軟件時(shí)??旖萱I不僅操作便捷,還能在Windows7系統(tǒng)中發(fā)揮重要作用,幫助我們更高效地完成任務(wù)。Ctrl Shift N:創(chuàng)建新文件夾在文件資源管理器中按下Ctrl Shift N,可以快速新建一個(gè)文件夾。而在IE9瀏覽器中使用此快捷鍵,則會以新窗口形式打開當(dāng)前標(biāo)簽頁。Ctrl Shift 雙擊鼠標(biāo)左鍵:以管理員身份運(yùn)行程序在Windows7中,有些程序需要以管理員身份運(yùn)行才能正常操作。傳統(tǒng)方法是右鍵點(diǎn)擊程序圖標(biāo)并選擇

掌握 SQL SELECT 語句:綜合指南 掌握 SQL SELECT 語句:綜合指南 Apr 08, 2025 pm 06:39 PM

SQLSELECT語句詳解SELECT語句是SQL中最基礎(chǔ)、最常用的命令,用於從數(shù)據(jù)庫表中提取數(shù)據(jù)。提取的數(shù)據(jù)以結(jié)果集的形式呈現(xiàn)。 SELECT語句語法SELECTcolumn1,column2,...FROMtable_nameWHEREconditionORDERBYcolumn_name[ASC|DESC];SELECT語句各組成部分選擇子句(SELECT):指定要檢索的列。使用*選擇所有列。例如:SELECTfirst_name,last_nameFROMemployees;來源子句(FR

Bootstrap 5的列表樣式有什麼變化? Bootstrap 5的列表樣式有什麼變化? Apr 07, 2025 am 11:09 AM

Bootstrap 5 列表樣式改動(dòng)主要在於細(xì)節(jié)優(yōu)化和語義化提升,包括:無序列表默認(rèn)內(nèi)邊距精簡,視覺效果更乾淨(jìng)利落;列表樣式更強(qiáng)調(diào)語義,增強(qiáng)可訪問性和可維護(hù)性。

See all articles