


Biarkan Siri tidak lagi terencat akal! Apple mentakrifkan model sisi peranti baharu, yang 'jauh lebih baik daripada GPT-4 Ia menyingkirkan teks dan mensimulasikan maklumat skrin secara visual Model parameter minimum masih 5% lebih baik daripada sistem garis dasar.
Apr 02, 2024 pm 09:20 PMDitulis oleh Noah
Dihasilkan | 51CTO Technology Stack (WeChat ID: blog51cto)
Siri, yang selalu dikritik pengguna kerana "agak terencat akal", diselamatkan!
Siri merupakan salah seorang wakil dalam bidang pembantu suara pintar sejak dilahirkan, namun sejak sekian lama, prestasinya kurang memuaskan. Bagaimanapun, hasil penyelidikan terkini yang dikeluarkan oleh pasukan kecerdasan buatan Apple dijangka akan mengubah status quo dengan ketara. Keputusan ini menarik dan meningkatkan jangkaan yang besar untuk masa depan bidang ini.
Dalam kertas penyelidikan berkaitan, pakar AI Apple menerangkan sistem di mana Siri bukan sahaja dapat mengenali kandungan dalam imej, tetapi juga melakukan lebih banyak lagi, menjadi lebih pintar dan lebih berguna. Model berfungsi ini dipanggil ReALM, yang berdasarkan standard GPT 4.0 dan mempunyai keupayaan penanda aras yang lebih baik daripada GPT 4.0. Pakar ini percaya bahawa model yang mereka bangunkan digunakan untuk melaksanakan fungsi yang mereka bangunkan, yang boleh menjadikan Siri lebih pintar, lebih praktikal dan lebih sesuai untuk pelbagai senario.
1. Motivasi: Menyelesaikan resolusi rujukan entiti yang berbeza
Menurut pasukan penyelidik Apple: “Adalah sangat penting untuk membolehkan pembantu perbualan memahami konteks, termasuk penunjuk kandungan yang berkaitan skrin berdasarkan perkara yang mereka lihat adalah langkah penting untuk memastikan pengalaman dikendalikan suara.”
Sebagai contoh, semasa interaksi manusia-komputer, pengguna sering menyebut elemen atau kandungan tertentu pada skrin semasa perbualan, seperti mengarahkan pembantu suara Hubungi nombor telefon, navigasi ke tempat tertentu pada peta, buka apl atau halaman web tertentu dan banyak lagi. Jika pembantu perbualan tidak dapat memahami rujukan entiti di sebalik arahan pengguna, ia tidak akan dapat melaksanakan arahan tersebut dengan tepat.
Selain itu, fenomena rujukan kabur adalah perkara biasa dalam perbualan manusia Untuk mencapai interaksi manusia-komputer semula jadi dan memahami konteks dengan tepat apabila pengguna membuat pertanyaan tentang kandungan skrin dengan pembantu suara, keupayaan untuk menyelesaikan rujukan adalah penting.
Kelebihan model yang dipanggil ReALM (Resolusi Rujukan Sebagai Pemodelan Bahasa) yang disebut oleh Apple dalam kertas itu ialah ia boleh mempertimbangkan kandungan pada skrin pengguna dan tugas yang sedang dijalankan pada masa yang sama, dan menggunakan model bahasa yang besar untuk menyelesaikan masalah yang berbeza. Masalah penyelesaian rujukan entiti jenis (termasuk entiti perbualan dan bukan entiti perbualan).
Walaupun modaliti teks tradisional menyusahkan untuk mengendalikan entiti yang dipaparkan pada skrin, sistem ReALM menukar penghuraian rujukan kepada masalah pemodelan bahasa dan berjaya menggunakan LLM untuk mengendalikan rujukan entiti bukan perbualan pada skrin, iaitu sangat cekap. Bumi memudahkan matlamat ini. Dengan cara ini, ia dijangka mencapai pengalaman pengguna yang sangat pintar dan lebih mendalam.
2. Pembinaan semula: Menembusi batasan modaliti teks tradisional
Modaliti teks tradisional tidak sesuai untuk memproses entiti yang dipaparkan pada skrin kerana entiti pada skrin biasanya mengandungi maklumat visual yang kaya dan struktur susun atur, seperti imej , ikon , butang dan hubungan kedudukan relatifnya, dsb. Maklumat ini sukar untuk dinyatakan sepenuhnya dalam perihalan teks tulen.
Untuk menangani cabaran ini, sistem ReALM secara kreatif mencadangkan untuk membina semula skrin dengan menghuraikan entiti pada skrin dan maklumat kedudukannya, dan menjana perwakilan teks tulen yang boleh mencerminkan kandungan skrin secara visual.
Bahagian entiti akan ditanda khas supaya model bahasa memahami tempat entiti muncul dan teks di sekelilingnya, supaya ia boleh mensimulasikan "melihat" maklumat pada skrin dan memahami serta menghuraikan arahan pada skrin Menyediakan maklumat kontekstual yang diperlukan. Pendekatan ini merupakan percubaan pertama untuk menggunakan model bahasa yang besar untuk mengekod konteks daripada kandungan skrin, mengatasi masalah entiti skrin yang sukar dikendalikan dengan modaliti teks tradisional.
Secara khusus, agar model bahasa besar "memahami" dan memproses entiti yang dipaparkan pada skrin, sistem ReALM menggunakan langkah berikut:
Pertama, entiti dalam teks skrin diekstrak dengan bantuan pengesan data lapisan atas, Entiti ini akan mempunyai jenis, kotak sempadan dan senarai elemen teks bukan entiti yang mengelilingi entiti. Ini bermakna bahawa untuk setiap entiti visual pada skrin, sistem menangkap maklumat asasnya dan konteks di mana ia wujud.
Kemudian, ReALM secara inovatif mencadangkan algoritma untuk mengisih titik tengah kotak sempadan entiti dan objek sekeliling dalam susunan menegak (atas ke bawah) dan mendatar (kiri ke kanan), dan menyusunnya secara stabil . Jika jarak antara entiti adalah dekat, mereka dianggap berada pada baris yang sama dan dipisahkan oleh tab jika jarak melebihi jidar yang ditetapkan, mereka diletakkan pada baris seterusnya. Dengan cara ini, dengan menggunakan kaedah di atas secara berterusan, kandungan skrin boleh dikodkan ke dalam format teks biasa dari kiri ke kanan dan atas ke bawah, dengan berkesan mengekalkan hubungan spatial relatif antara entiti.
Dengan cara ini, maklumat visual skrin yang sukar diproses secara langsung oleh LLM ditukar kepada bentuk teks yang sesuai untuk input model bahasa, membolehkan LLM mengambil kira sepenuhnya kedudukan dan lokasi spesifik entiti skrin semasa memproses tugasan urutan ke urutan untuk mencapai pengenalpastian yang betul dan resolusi rujukan entiti skrin.
Ini menjadikan sistem ReALM bukan sahaja berprestasi baik dalam menyelesaikan masalah rujukan entiti dialog, tetapi juga menunjukkan peningkatan prestasi yang ketara apabila berurusan dengan entiti bukan dialog - iaitu entiti pada skrin.
3. Butiran: Takrifan tugas dan set data
Ringkasnya, tugas yang dihadapi oleh sistem ReALM adalah untuk mencari entiti yang berkaitan dengan pertanyaan pengguna semasa dalam koleksi entiti yang diberikan berdasarkan tugasan yang pengguna mahu lakukan melaksanakan.
Tugas ini distrukturkan sebagai soalan aneka pilihan untuk model bahasa yang besar, dan ia dijangka memilih satu atau lebih pilihan sebagai jawapan daripada entiti yang dipaparkan pada skrin pengguna. Sudah tentu, dalam beberapa kes jawapannya mungkin "tidak".
Malah, kertas penyelidikan membahagikan entiti yang terlibat dalam tugasan kepada tiga kategori:
1 Entiti skrin: merujuk kepada entiti yang kelihatan pada antara muka pengguna.
2 Entiti dialog: entiti yang berkaitan dengan kandungan perbualan, yang mungkin datang daripada ucapan pengguna sebelumnya (contohnya, jika pengguna menyebut "panggil ibu", kemasukan "ibu" dalam senarai kenalan ialah entiti yang berkaitan) , atau mungkin dijana oleh Pembantu maya disediakan dalam perbualan (seperti senarai tempat untuk dipilih oleh pengguna).
3 Entiti latar belakang: entiti berkaitan yang berasal daripada proses latar belakang dan tidak semestinya ditunjukkan secara langsung dalam paparan skrin pengguna atau interaksi dengan pembantu maya, seperti jam penggera yang akan berbunyi secara lalai atau muzik dimainkan di latar belakang.
Bagi set data yang digunakan untuk melatih dan menguji ReALM, ia terdiri daripada data sintetik dan data beranotasi manual, yang juga boleh dibahagikan kepada tiga kategori:
Pertama, set data dialog: mengandungi interaksi antara pengguna dan ejen Titik data untuk entiti berkaitan. Data ini dikumpul dengan meminta penilai melihat tangkapan skrin yang mengandungi senarai entiti sintetik dan meminta mereka memberikan pertanyaan yang menunjuk secara eksplisit kepada mana-mana entiti yang dipilih dalam senarai.
Set data sintetik kedua: Gunakan kaedah penjanaan templat untuk mendapatkan data Kaedah ini amat berguna apabila pertanyaan pengguna dan jenis entiti mencukupi untuk menentukan rujukan tanpa bergantung pada penerangan terperinci. Set data sintetik juga boleh mengandungi berbilang entiti yang sepadan dengan pertanyaan yang sama.
Ketiga, set data skrin: Ia merangkumi terutamanya data entiti yang dipaparkan pada skrin pengguna pada masa ini Setiap bahagian data mengandungi pertanyaan pengguna, senarai entiti dan entiti yang betul (atau koleksi entiti) yang sepadan dengan pertanyaan. Maklumat tentang setiap entiti termasuk jenis entiti dan sifat lain seperti nama dan butiran teks lain yang dikaitkan dengan entiti (cth., label dan masa jam penggera).
Untuk titik data yang mengandungi konteks berkaitan skrin, maklumat konteks disediakan dalam bentuk kotak sempadan entiti dan senarai objek lain yang mengelilingi entiti, bersama-sama dengan maklumat atribut seperti jenis, kandungan teks dan lokasi objek sekeliling ini. Saiz keseluruhan set data dibahagikan kepada set latihan dan set ujian mengikut kategori, dan setiap satu mempunyai saiz tertentu.
4. Keputusan: Model terkecil juga mencapai peningkatan prestasi 5%
Dalam ujian penanda aras, Apple membandingkan sistemnya sendiri dengan GPT 3.5 dan GPT 4.0. Model ReALM menunjukkan daya saing yang sangat baik dalam menyelesaikan pelbagai jenis tugasan penghuraian rujukan.
Gambar
Menurut kertas kerja, walaupun versi dengan parameter paling sedikit dalam ReALM telah mencapai peningkatan prestasi lebih daripada 5% berbanding sistem garis dasar. Pada versi model yang lebih besar, ReALM jelas mengatasi GPT-4. Terutamanya apabila memproses entiti yang dipaparkan pada skrin, apabila saiz model meningkat, peningkatan prestasi ReALM pada set data skrin menjadi lebih ketara.
Selain itu, prestasi model ReALM agak hampir dengan GPT-4 dalam senario pembelajaran sifar pukulan dalam bidang baharu. Apabila memproses pertanyaan dalam medan tertentu, model ReALM berprestasi lebih tepat daripada GPT-4 kerana penalaan halus berdasarkan permintaan pengguna.
Sebagai contoh, untuk permintaan pengguna untuk melaraskan kecerahan, GPT-4 hanya mengaitkan permintaan dengan tetapan, mengabaikan bahawa peranti rumah pintar yang sedia ada di latar belakang juga merupakan entiti yang berkaitan, dan ReALM dilatih dengan khusus domain. data , boleh lebih memahami dan menyelesaikan masalah rujukan dengan lebih baik dalam bidang khusus tersebut.
“Kami menunjukkan bahawa RealLM mengatasi kaedah sebelumnya dan mencapai hasil yang setanding walaupun ketika berurusan dengan rujukan dalam skrin semata-mata berdasarkan medan teks, walaupun mempunyai parameter yang jauh lebih sedikit daripada LLM terkini, GPT-4 . Tahap prestasi yang agak tinggi Selain itu, RealLM berprestasi lebih baik daripada GPT-4 untuk sebutan pengguna dalam bidang tertentu Oleh itu, RealLM boleh dikatakan sesuai untuk membangunkan persekitaran aplikasi praktikal dan boleh dilaksanakan secara tempatan pada peranti sambil memastikan prestasi itu. tidak terjejas. Penyelesaian pilihan untuk pengendalian sistem resolusi rujukan yang cekap Selain itu, para penyelidik juga menyatakan bahawa dalam senario aplikasi praktikal dengan sumber terhad, tindak balas kependaman rendah, atau melibatkan integrasi berbilang peringkat seperti panggilan API, satu besar-. Model hujung ke hujung skala selalunya tidak berkenaan.
Dalam konteks ini, sistem ReALM yang direka bentuk secara modular mempunyai lebih banyak kelebihan, membolehkan modul resolusi rujukan asal diganti dan dinaik taraf dengan mudah tanpa menjejaskan seni bina keseluruhan, sambil memberikan potensi pengoptimuman dan Kebolehtafsiran yang lebih baik.
Menghadapi masa hadapan, hala tuju penyelidikan menunjukkan kaedah yang lebih kompleks, seperti membahagikan kawasan skrin kepada grid dan mengekodkan kedudukan ruang relatif dalam bentuk teks Walaupun ia agak mencabar, ini adalah jalan yang menjanjikan untuk diterokai.
5. Ditulis pada penghujungnya
Dalam bidang kecerdasan buatan, walaupun Apple sentiasa lebih berhati-hati, ia juga melabur secara senyap. Sama ada model besar multi-modal MM1, atau alat penjanaan animasi dipacu AI Keyframer, atau ReALM hari ini, pasukan penyelidik Apple terus mencapai kejayaan teknologi.
Penonton seperti Google, Microsoft, Amazon dan pesaing lain menambahkan AI pada carian, perkhidmatan awan dan perisian pejabat, melenturkan otot mereka satu demi satu. Apple jelas cuba untuk tidak ketinggalan. Memandangkan hasil pelaksanaan AI generatif terus muncul, Apple telah mempercepatkan langkah mengejarnya. Orang yang biasa dengan perkara itu telah lama mendedahkan bahawa Apple akan menumpukan pada bidang kecerdasan buatan pada Persidangan Pembangun Global pada bulan Jun, dan strategi kecerdasan buatan baharu mungkin akan menjadi kandungan teras peningkatan iOS 18. Pada masa itu, ia mungkin membawa anda kejutan.
Pautan rujukan:
https://apple.slashdot.org/story/24/04/01/1959205/apple-ai-researchers-boast-useful-on-device-model-that-substantially-outperforms -gpt-4
https://arxiv.org/pdf/2403.20329.pdf
Atas ialah kandungan terperinci Biarkan Siri tidak lagi terencat akal! Apple mentakrifkan model sisi peranti baharu, yang 'jauh lebih baik daripada GPT-4 Ia menyingkirkan teks dan mensimulasikan maklumat skrin secara visual Model parameter minimum masih 5% lebih baik daripada sistem garis dasar.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undress AI Tool
Gambar buka pakaian secara percuma

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Stock Market GPT
Penyelidikan pelaburan dikuasakan AI untuk keputusan yang lebih bijak

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Bagaimana untuk mengenal pasti banteng pasaran dan penukaran menanggung dalam direktori? Perubahan dalam jumlah dagangan. Perhatikan potensi risiko di pasaran. Artikel ini akan menerangkan secara terperinci apa pasaran lembu dan pasaran beruang, dan bagaimana untuk menentukan dengan mudah dan berkesan apa keadaan pasaran semasa. Saya akan menggunakan antara muka operasi platform Binance sebagai contoh untuk menunjukkan. Jika anda belum mendaftar dengan Binance Exchange, anda boleh melengkapkan pendaftaran melalui pautan pendaftaran dan alamat muat turun aplikasi yang disediakan di bawah untuk bekerjasama dengan tutorial video. Pendaftaran Laman Web Rasmi Binance: https://static.jbzj.com/qkl/ba/bazc.html (salin pautan ke penyemak imbas untuk membuka) aplikasi versi android Binance muat turun: https://static.jbzj.com/qkl/ba/baxz.ht

Direktori Apa itu Somnia (SOMI)? Prestasi harga dan trend pasaran: turun naik jangka pendek dan kelebihan teknikal berpotensi jangka panjang: Kenapa Somnia boleh mencabar Layer1 tradisional? Tinjauan Masa Depan: 2025-2030 Ramalan Harga Kesimpulan: Peluang Somnia dan Peluang Kandungan SEO Somnia (SOMI) adalah token asli Layer1 Blockchain yang dilancarkan pada September 2025. Ia baru-baru ini menarik perhatian dari pasaran kerana turun naik harga dan inovasi teknologi. Sehingga 12 September 2025, data pertukaran pintu menunjukkan bahawa harga somi sementara pada $ 1.28, walaupun ia mempunyai penarikan balik dari sejarah tinggi $ 1.90, ia masih lebih baik daripada yang utama.

Jadual Kandungan Apakah Perdagangan Frekuensi Tinggi Bagaimana Perdagangan Frekuensi Tinggi Bagaimana Perdagangan Frekuensi Tinggi memberi manfaat perdagangan frekuensi tinggi bagi frekuensi tinggi Perdagangan HFT Pelaksanaan lebih cepat Perolehan yang lebih tinggi dan nisbah dagangan Perdagangan Tinggi Perdagangan frekuensi tinggi mempunyai potensi pertumbuhan yang besar di luar negara dominasi yang tinggi. (2023-2025) Cryptocurrency High Frekuensi Perdagangan (HFT) adalah evolusi dan penerapan strategi bidang kewangan tradisional dalam pasaran aset digital. Di bawah ini saya akan mentafsirkan definisi dan kekayaannya sepenuhnya untuk anda

Pintu masuk bebas iklan percuma 1v1 adalah https://www.biquge.info/. Platform ini merangkumi novel -novel banyak tema seperti bandar dan fantasi. Ia dikemas kini dalam masa, menyokong tajuk buku dan carian pengarang, dan mempunyai kedudukan populariti. Antara muka bacaan adalah mudah, dan ia boleh menyesuaikan fon, latar belakang dan mod malam. Terdapat beberapa iklan dan tiada gangguan, dan pemuatannya lancar. Ia sesuai untuk telefon bimbit dan PC. Anda tidak perlu memuat turun aplikasinya, dan anda boleh menyegerakkan rak buku dan membaca rekod dengan log masuk.

Gunakan fungsi tangkapan skrin quark quark untuk menyimpan kandungan web sepenuhnya. ① Secara automatik menyambungkan halaman melalui tangkapan skrin panjang terbina dalam; ② snap kandungan yang bersih gambar panjang selepas menghidupkan mod bacaan; ③ Segmen secara manual tangkapan skrin dan menegak secara menegak dengan album atau alat pihak ketiga untuk memastikan pertindihan dan penjajaran, mengeksport dan menyimpan.

Kandungan Apa itu CRONOS (CRO) Berapa banyak duit syiling krokro yang ada fungsi utama CRO dan Solana perbandingan pasukan teknikal di belakang CRO dan asal-usul berita dan peristiwa penting adalah CRO pelaburan yang baik CRO ramalan harga jangka panjang CRO20. ekosistem, dan projek ini terkenal dengan kedudukannya di persimpangan blok Ethereum dan Cosmos. Sebagai asas

Pam utama Pam, Avantis, Quackai, Openedger dan Monero telah menjadi aset crypto yang kini dibincangkan di pasaran kerana senario aplikasi unik mereka, aktiviti komuniti dan potensi pertumbuhan. Penyenaraian positif, pengembangan platform dan momentum teknikal telah mempromosikan populariti perdagangan dan permintaan token ini. Setiap token menyediakan proposisi nilai yang dibezakan, yang meliputi perlindungan privasi, tadbir urus yang terdesentralisasi, infrastruktur AI, integrasi aset defi dan aset dunia nyata (RWA), dengan nilai perhatian jangka panjang. Pumppump.fun (pam) telah dilakukan dengan kuat baru -baru ini, dengan peningkatan mingguan sebanyak 71.3%, tetapi kenaikan telah menunjukkan tanda -tanda perlahan. Indeks kekuatan relatif 14 hari (RSI) naik ke 82.96.

Gunakan carian kata kunci, keadaan penapisan, laluan fail dan rekod baru -baru ini untuk cepat mencari fail cakera rangkaian quark. Mula -mula masukkan carian kata kunci di dalam kotak carian, kemudian sempit skop mengikut jenis, masa, dan lain -lain. Melalui fungsi penapis, lihat laluan fail atau kumpulkan folder biasa untuk akses cepat pada masa akan datang, dan anda juga boleh mengambil fail operasi baru -baru ini dalam senarai "terkini".
