亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

Jadual Kandungan
Bagaimana Vision Transformer mengklasifikasikan imej?
Perbandingan Penanda Aras Prestasi ViT vs. ResNet vs. MobileNet
berkaitan model Vision Transformer
Rumah Peranti teknologi AI Analisis mendalam tentang prinsip kerja dan ciri-ciri model Pengubah Penglihatan (VIT).

Analisis mendalam tentang prinsip kerja dan ciri-ciri model Pengubah Penglihatan (VIT).

Jan 23, 2024 am 08:30 AM
AI pembelajaran mesin pemprosesan imej

什么是Vision Transformer(VIT)?Vision Transformer模型詳解

Vision Transformer (VIT) ialah model klasifikasi imej berasaskan Transformer yang dicadangkan oleh Google. Tidak seperti model CNN tradisional, VIT mewakili imej sebagai jujukan dan mempelajari struktur imej dengan meramalkan label kelas imej. Untuk mencapai matlamat ini, VIT membahagikan imej input kepada berbilang patch dan menggabungkan piksel dalam setiap patch melalui saluran dan kemudian melakukan unjuran linear untuk mencapai dimensi input yang dikehendaki. Akhir sekali, setiap tampalan diratakan menjadi satu vektor, membentuk urutan input. Melalui mekanisme perhatian kendiri Transformer, VIT dapat menangkap hubungan antara tampalan yang berbeza dan melakukan pengekstrakan ciri dan ramalan klasifikasi yang berkesan. Kaedah perwakilan imej bersiri ini membawa idea dan kesan baharu kepada tugas penglihatan komputer.

Model Pengubah Penglihatan digunakan secara meluas dalam tugas pengecaman imej, seperti pengesanan objek, pembahagian imej, pengelasan imej dan pengecaman tindakan. Di samping itu, ia sesuai untuk pemodelan generatif dan tugas berbilang model, termasuk asas visual, menjawab soalan visual dan penaakulan visual.

Bagaimana Vision Transformer mengklasifikasikan imej?

Sebelum kita mendalami cara Vision Transformers berfungsi, kita mesti memahami asas perhatian dan perhatian berbilang kepala dalam Transformer asal.

Transformer ialah model yang menggunakan mekanisme yang dipanggil self-attention, iaitu bukan CNN mahupun LSTM, ia membina model Transformer dan dengan ketara mengatasi kaedah ini.

Mekanisme perhatian model Transformer menggunakan tiga pembolehubah: Q (Query), K (Key) dan V (Value). Ringkasnya, ia mengira berat perhatian token Pertanyaan dan token Kunci, dan mendarabkannya dengan Nilai yang dikaitkan dengan setiap Kunci. Iaitu, model Transformer mengira perkaitan (berat perhatian) antara token Pertanyaan dan token Kunci, dan mendarabkan Nilai yang dikaitkan dengan setiap Kunci.

Takrifkan Q, K, V untuk dikira sebagai satu kepala Dalam mekanisme perhatian berbilang kepala, setiap kepala mempunyai matriks unjuran sendiri W_i^Q, W_i^K, W_i^V, dan mereka mengira unjuran. menggunakan matriks ini masing-masing pemberat perhatian untuk nilai ciri.

Mekanisme perhatian berbilang kepala membolehkan pemfokusan pada bahagian jujukan yang berlainan dengan cara yang berbeza setiap kali. Ini bermakna:

Model boleh menangkap maklumat kedudukan dengan lebih baik kerana setiap kepala akan memfokus pada bahagian input yang berbeza. Gabungan mereka akan memberikan perwakilan yang lebih berkuasa.

Setiap pengepala juga akan menangkap maklumat kontekstual yang berbeza melalui perkataan yang dikaitkan secara unik.

Sekarang kita tahu mekanisme kerja model Transformer, mari kita lihat semula model Vision Transformer.

Vision Transformer ialah model yang menggunakan Transformer pada tugas pengelasan imej, yang dicadangkan pada Oktober 2020. Seni bina model hampir sama dengan Transformer asal, yang membolehkan imej dianggap sebagai input, sama seperti pemprosesan bahasa semula jadi.

Model Pengubah Penglihatan menggunakan Pengekod Transformer sebagai model asas untuk mengekstrak ciri daripada imej dan menghantar ciri yang diproses ini kepada model kepala Multi-Layer Perceptron (MLP) untuk pengelasan. Memandangkan beban pengiraan Transformer model asas sudah sangat besar, Transformer Visi menguraikan imej menjadi blok persegi sebagai mekanisme perhatian "windowing" yang ringan untuk menyelesaikan masalah tersebut.

Imej kemudiannya ditukarkan kepada tompok segi empat sama, yang diratakan dan dihantar melalui satu lapisan suapan hadapan untuk mendapatkan unjuran tampalan linear. Untuk membantu mengelaskan bit, dengan menggabungkan benam kelas yang boleh dipelajari dengan unjuran tampalan lain.

Ringkasnya, unjuran tampalan dan benam kedudukan ini membentuk matriks yang lebih besar yang tidak lama lagi akan dihantar melalui pengekod Transformer. Output pengekod Transformer kemudiannya dihantar ke perceptron berbilang lapisan untuk pengelasan imej. Ciri input menangkap intipati imej dengan sangat baik, menjadikan tugas pengelasan kepala MLP lebih mudah.

Perbandingan Penanda Aras Prestasi ViT vs. ResNet vs. MobileNet

Walaupun ViT menunjukkan potensi yang sangat baik dalam mempelajari ciri imej berkualiti tinggi, ia mengalami peningkatan prestasi dan ketepatan yang lemah. Peningkatan kecil dalam ketepatan tidak membenarkan masa jalan ViT yang lebih rendah.

berkaitan model Vision Transformer

  • Kod yang diperhalusi dan model Vision Transformer pra-latihan tersedia di GitHub Google Research.
  • Model Vision Transformer dilatih terlebih dahulu pada set data ImageNet dan ImageNet-21k.
  • Model Vision Transformer (ViT) telah diperkenalkan dalam kertas penyelidikan persidangan bertajuk "An Image is Worth 16*16 Words: Transformers for Image Recognition at Scale" yang diterbitkan di ICLR 2021.

Atas ialah kandungan terperinci Analisis mendalam tentang prinsip kerja dan ciri-ciri model Pengubah Penglihatan (VIT).. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Stock Market GPT

Stock Market GPT

Penyelidikan pelaburan dikuasakan AI untuk keputusan yang lebih bijak

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

Fungsi Teras Photoshop: Pengeditan dan Manipulasi Imej Fungsi Teras Photoshop: Pengeditan dan Manipulasi Imej Apr 29, 2025 am 12:17 AM

Fungsi teras Photoshop adalah pengeditan dan operasi imej, termasuk menyesuaikan warna, kecerahan, kontras imej, menggunakan kesan penapis, menanam dan menyesuaikan saiz imej, melakukan sintesis imej, dan lain -lain. 2. Gunakan lapisan pelarasan tahap warna dan topeng lapisan: Klik butang "Buat Bekas atau Laraskan Lapisan", pilih "Skala", laraskan tahap warna, tambah topeng lapisan, dan gunakan alat berus untuk mengawal kesan pelarasan.

Photoshop: Alat serba boleh untuk manipulasi imej Photoshop: Alat serba boleh untuk manipulasi imej Apr 27, 2025 am 12:13 AM

Photoshop sangat kuat dalam bidang pemprosesan imej kerana fleksibiliti dan antara muka operasi intuitif. 1) Ia boleh mengendalikan pelbagai tugas dari pelarasan asas kepada sintesis kompleks, seperti menyesuaikan kecerahan dan kontras. 2) Bekerja berdasarkan lapisan dan topeng membolehkan penyuntingan yang tidak merosakkan. 3) Contoh penggunaan termasuk menyesuaikan keseimbangan warna dan membuat topeng lapisan. 4) Kesalahan biasa seperti penyuntingan yang berlebihan boleh dielakkan melalui panel sejarah. 5) Cadangan Pengoptimuman Prestasi termasuk penggunaan objek pintar dan kekunci pintasan.

Tujuan saya: Membantu dengan tugas yang berkaitan dengan Photoshop Tujuan saya: Membantu dengan tugas yang berkaitan dengan Photoshop May 08, 2025 am 12:18 AM

Di Photoshop, peranan topeng lapisan adalah untuk membolehkan bahagian-bahagian tersembunyi atau dipaparkan lapisan dengan cara yang tidak merosakkan. 1. Prinsip kerja topeng lapisan adalah untuk mengawal penglihatan lapisan melalui hitam, putih dan skala kelabu. 2. Penggunaan asas termasuk sintesis imej, seperti mensintesis imej watak ke latar belakang baru. 3. Penggunaan lanjutan dapat dicapai dengan menggunakan topeng kecerunan untuk mencapai peralihan imej yang lancar.

Integrasi AI menjadi komposer: Meneroka Potensi Integrasi AI menjadi komposer: Meneroka Potensi May 01, 2025 am 12:02 AM

AI boleh menunjukkan kekuatannya dalam bidang penciptaan muzik. 1) AI menjana muzik melalui pembelajaran mesin dan pembelajaran mendalam, meningkatkan kepelbagaian dan inovasi. 2) Komposer AI boleh membantu komposer dan memberikan inspirasi dan kreativiti. 3) Dalam aplikasi sebenar, prestasi perlu dioptimumkan untuk menyelesaikan masalah koheren dan inovasi dalam penjanaan muzik.

Bagaimanakah alat Warp Warp dan Transform Photoshop berbeza untuk memanipulasi elemen imej? Bagaimanakah alat Warp Warp dan Transform Photoshop berbeza untuk memanipulasi elemen imej? Jun 11, 2025 am 12:07 AM

Transform sesuai untuk operasi asas seperti ubah bentuk keseluruhan, skala, dan putaran, manakala Puppetwarp lebih sesuai untuk lenturan semula jadi dan peregangan imej tempatan. Alat transform termasuk fungsi seperti transformasi percuma, distorsi, ubah bentuk perspektif, dan lain -lain, yang sesuai untuk menyesuaikan struktur keseluruhan, seperti membuat papan iklan sesuai dengan dinding, tetapi tidak sesuai untuk penyesuaian tempatan yang halus; Apabila digunakan, ia boleh digabungkan dengan nisbah penguncian peralihan dan alt zoomed dari pusat. Puppetwarp mencapai ubah bentuk tempatan dengan meletakkan pushpins, yang sesuai untuk menyesuaikan postur atau ekspresi watak, seperti mengubah postur berdiri menjadi kedudukan duduk; Apabila menggunakannya, disyorkan untuk menambah lebih banyak pushpins di tepi dan mengelakkan terlalu banyak pushpins menyebabkan lags. Ia juga disyorkan untuk menyalin lapisan untuk mengelakkan memusnahkan imej asal. Semasa memilih alat, anda harus menilai berdasarkan keperluan: t lebih disukai untuk pelarasan keseluruhan

Apakah tujuan penapis mentah kamera, dan bagaimanakah ia meningkatkan pemprosesan imej mentah dalam Photoshop? Apakah tujuan penapis mentah kamera, dan bagaimanakah ia meningkatkan pemprosesan imej mentah dalam Photoshop? Jun 07, 2025 am 12:09 AM

Thecamerarawfilterinphotoshopisapowulfultoolthatallowsnon-destructiveeditingofbothrawandnon-rawfiles.1.itprovidesaccesstoadvancedadjustmenttmenttoolslikexposure, kontras, kejelasan, dandehaze

Bagaimanakah ruang kerja 'pilih dan topeng' meningkatkan proses penapisan pilihan? Bagaimanakah ruang kerja 'pilih dan topeng' meningkatkan proses penapisan pilihan? Jun 19, 2025 am 12:05 AM

Ruang Kerja Pilihan dan Obleksi Photoshop memudahkan pemprosesan pilihan kompleks dengan pelarasan kelebihan granular, maklum balas masa nyata dan pelbagai pilihan output. Pertama, gunakan "Alat Berus Edge Refine" untuk mengubahsuai rambut atau tepi lembut dengan tepat, dan menyokong pelarasan cepat saiz berus dan kepekaan; Kedua, ia menyediakan pelbagai mod pratonton masa nyata seperti overlay, medan hitam, dan garis semut untuk memudahkan pembetulan tepat pada masanya; Kedua, ia dengan cepat menyesuaikan kelancaran kelebihan, bulu dan parameter lain melalui slider untuk mengoptimumkan kesan pemilihan; Akhirnya, ia menyokong output hasil sebagai pilihan, topeng atau dokumen baru, dengan lancar menghubungkan proses berikutnya.

Bagaimana untuk mengenal pasti trend/naratif semasa di pasaran crypto? Kaedah untuk mengenal pasti trend semasa di pasaran crypto Bagaimana untuk mengenal pasti trend/naratif semasa di pasaran crypto? Kaedah untuk mengenal pasti trend semasa di pasaran crypto Aug 26, 2025 pm 05:18 PM

Jadual Kandungan 1. Perhatikan token dengan keuntungan terkemuka dalam pertukaran 2. Perhatikan isyarat trend di media sosial 3. Gunakan alat penyelidikan dan laporan analisis institusi 4. Sangat meneroka trend data rantaian 5. Memegang trend yang semakin meningkat sering bermakna potensi pulangan yang lebih tinggi; Walaupun salah faham boleh menyebabkan pengambilalihan peringkat tinggi atau peluang yang tidak dijawab. Jadi, bagaimanakah kita dapat mengenal pasti naratif yang menguasai pasaran pada masa ini? Kawasan mana yang menarik banyak modal dan perhatian? Artikel ini akan memberi anda satu set kaedah praktikal untuk membantu anda dengan tepat menangkap nadi panas pasaran crypto. 1. Apabila naratif bermula

See all articles