


Eingehende Analyse der Funktionsprinzipien und Eigenschaften des Vision Transformer (VIT)-Modells
Jan 23, 2024 am 08:30 AMVision Transformer (VIT) ist ein von Google vorgeschlagenes Transformer-basiertes Bildklassifizierungsmodell. Im Gegensatz zu herk?mmlichen CNN-Modellen stellt VIT Bilder als Sequenzen dar und lernt die Bildstruktur durch Vorhersage der Klassenbezeichnung des Bildes. Um dies zu erreichen, unterteilt VIT das Eingabebild in mehrere Patches, verkettet die Pixel in jedem Patch über Kan?le und führt dann eine lineare Projektion durch, um die gewünschten Eingabeabmessungen zu erreichen. Schlie?lich wird jeder Patch zu einem einzelnen Vektor zusammengefasst, der die Eingabesequenz bildet. Durch den Selbstaufmerksamkeitsmechanismus von Transformer ist VIT in der Lage, die Beziehung zwischen verschiedenen Patches zu erfassen und eine effektive Merkmalsextraktion und Klassifizierungsvorhersage durchzuführen. Diese Methode der serialisierten Bilddarstellung bringt neue Ideen und Effekte für Computer-Vision-Aufgaben.
Das Vision Transformer-Modell wird h?ufig bei Bilderkennungsaufgaben wie Objekterkennung, Bildsegmentierung, Bildklassifizierung und Aktionserkennung verwendet. Darüber hinaus eignet es sich für generative Modellierung und Multi-Modell-Aufgaben, einschlie?lich visueller Grundlagen, visueller Fragebeantwortung und visueller Argumentation.
Wie klassifiziert Vision Transformer Bilder?
Bevor wir uns mit der Funktionsweise von Vision Transformers befassen, müssen wir die Grundlagen der Aufmerksamkeit und der Mehrkopfaufmerksamkeit im ursprünglichen Transformer verstehen.
Transformer ist ein Modell, das einen Mechanismus namens Selbstaufmerksamkeit verwendet, der weder CNN noch LSTM ist. Es erstellt ein Transformer-Modell und übertrifft diese Methoden deutlich.
Der Aufmerksamkeitsmechanismus des Transformer-Modells verwendet drei Variablen: Q (Abfrage), K (Schlüssel) und V (Wert). Einfach ausgedrückt berechnet es die Aufmerksamkeitsgewichtung eines Abfrage-Tokens und eines Schlüssel-Tokens und multipliziert den mit jedem Schlüssel verknüpften Wert. Das hei?t, das Transformer-Modell berechnet die Zuordnung (Aufmerksamkeitsgewichtung) zwischen Abfrage-Token und Schlüssel-Token und multipliziert den mit jedem Schlüssel verknüpften Wert.
Definieren Sie Q, K, V so, dass sie als einzelner Kopf berechnet werden. Im Mehrkopf-Aufmerksamkeitsmechanismus hat jeder Kopf seine eigene Projektionsmatrix W_i^Q, W_i^K, W_i^V, und sie berechnen die Projektion Verwendung dieser Matrizen bzw. Aufmerksamkeitsgewichte für Merkmalswerte.
Der Mehrkopf-Aufmerksamkeitsmechanismus erm?glicht es, sich jedes Mal auf unterschiedliche Weise auf verschiedene Teile der Sequenz zu konzentrieren. Das bedeutet:
Das Modell kann Positionsinformationen besser erfassen, da sich jeder Kopf auf einen anderen Teil der Eingabe konzentriert. Ihre Kombination sorgt für eine kraftvollere Darstellung.
Jeder Header erfasst auch unterschiedliche Kontextinformationen über eindeutig zugeordnete W?rter.
Da wir nun den Funktionsmechanismus des Transformer-Modells kennen, werfen wir einen Blick zurück auf das Vision Transformer-Modell.
Vision Transformer ist ein im Oktober 2020 vorgeschlagenes Modell, das Transformer auf Bildklassifizierungsaufgaben anwendet. Die Modellarchitektur ist nahezu identisch mit der des ursprünglichen Transformers, wodurch Bilder wie bei der Verarbeitung natürlicher Sprache als Eingabe behandelt werden k?nnen.
Das Vision Transformer-Modell verwendet Transformer Encoder als Basismodell, um Merkmale aus Bildern zu extrahieren, und übergibt diese verarbeiteten Merkmale zur Klassifizierung an das Multi-Layer-Perceptron-Kopfmodell (MLP). Da die Rechenlast des Basismodells Transformer bereits sehr gro? ist, zerlegt der Vision Transformer das Bild in quadratische Bl?cke als leichten ?Fenster“-Aufmerksamkeitsmechanismus, um solche Probleme zu l?sen.
Das Bild wird dann in quadratische Patches umgewandelt, die abgeflacht und durch eine einzelne Feedforward-Ebene geschickt werden, um eine lineare Patch-Projektion zu erhalten. Um die Klassifizierung von Bits zu erleichtern, indem lernbare Klasseneinbettungen mit anderen Patch-Projektionen verkettet werden.
Zusammenfassend bilden diese Patch-Projektionen und Positionseinbettungen eine gr??ere Matrix, die bald durch den Transformer-Encoder geleitet wird. Die Ausgabe des Transformer-Encoders wird dann zur Bildklassifizierung an das mehrschichtige Perzeptron gesendet. Die Eingabefunktionen erfassen das Wesentliche des Bildes sehr gut, wodurch die Klassifizierungsaufgabe des MLP-Kopfs erheblich vereinfacht wird.
Leistungsbenchmark-Vergleich von ViT vs. ResNet vs. MobileNet
W?hrend ViT ein hervorragendes Potenzial beim Erlernen hochwertiger Bildfunktionen aufweist, leidet es unter schlechter Leistung und Genauigkeitssteigerungen. Die geringfügige Verbesserung der Genauigkeit rechtfertigt nicht die schlechtere Laufzeit von ViT.
Bezogen auf das Vision Transformer-Modell
- Fein abgestimmter Code und vorab trainiertes Vision Transformer-Modell sind auf GitHub von Google Research verfügbar.
- Das Vision Transformer-Modell ist auf ImageNet- und ImageNet-21k-Datens?tzen vorab trainiert.
- Das Vision Transformer (ViT)-Modell wurde in einem Konferenzforschungspapier mit dem Titel ?An Image is Worth 16*16 Words: Transformers for Image Recognition at Scale“ vorgestellt, das auf der ICLR 2021 ver?ffentlicht wurde.
Das obige ist der detaillierte Inhalt vonEingehende Analyse der Funktionsprinzipien und Eigenschaften des Vision Transformer (VIT)-Modells. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Hei?e KI -Werkzeuge

Undress AI Tool
Ausziehbilder kostenlos

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Clothoff.io
KI-Kleiderentferner

Video Face Swap
Tauschen Sie Gesichter in jedem Video mühelos mit unserem v?llig kostenlosen KI-Gesichtstausch-Tool aus!

Hei?er Artikel

Hei?e Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Hei?e Themen





Diese Seite berichtete am 27. Juni, dass Jianying eine von FaceMeng Technology, einer Tochtergesellschaft von ByteDance, entwickelte Videobearbeitungssoftware ist, die auf der Douyin-Plattform basiert und grunds?tzlich kurze Videoinhalte für Benutzer der Plattform produziert Windows, MacOS und andere Betriebssysteme. Jianying kündigte offiziell die Aktualisierung seines Mitgliedschaftssystems an und führte ein neues SVIP ein, das eine Vielzahl von KI-Schwarztechnologien umfasst, wie z. B. intelligente übersetzung, intelligente Hervorhebung, intelligente Verpackung, digitale menschliche Synthese usw. Preislich betr?gt die monatliche Gebühr für das Clipping von SVIP 79 Yuan, die Jahresgebühr 599 Yuan (Hinweis auf dieser Website: entspricht 49,9 Yuan pro Monat), das fortlaufende Monatsabonnement betr?gt 59 Yuan pro Monat und das fortlaufende Jahresabonnement betr?gt 499 Yuan pro Jahr (entspricht 41,6 Yuan pro Monat). Darüber hinaus erkl?rte der Cut-Beamte auch, dass diejenigen, die den ursprünglichen VIP abonniert haben, das Benutzererlebnis verbessern sollen

Verbessern Sie die Produktivit?t, Effizienz und Genauigkeit der Entwickler, indem Sie eine abrufgestützte Generierung und ein semantisches Ged?chtnis in KI-Codierungsassistenten integrieren. übersetzt aus EnhancingAICodingAssistantswithContextUsingRAGandSEM-RAG, Autor JanakiramMSV. Obwohl grundlegende KI-Programmierassistenten natürlich hilfreich sind, k?nnen sie oft nicht die relevantesten und korrektesten Codevorschl?ge liefern, da sie auf einem allgemeinen Verst?ndnis der Softwaresprache und den g?ngigsten Mustern beim Schreiben von Software basieren. Der von diesen Coding-Assistenten generierte Code eignet sich zur L?sung der von ihnen zu l?senden Probleme, entspricht jedoch h?ufig nicht den Coding-Standards, -Konventionen und -Stilen der einzelnen Teams. Dabei entstehen h?ufig Vorschl?ge, die ge?ndert oder verfeinert werden müssen, damit der Code in die Anwendung übernommen wird

Large Language Models (LLMs) werden auf riesigen Textdatenbanken trainiert und erwerben dort gro?e Mengen an realem Wissen. Dieses Wissen wird in ihre Parameter eingebettet und kann dann bei Bedarf genutzt werden. Das Wissen über diese Modelle wird am Ende der Ausbildung ?verdinglicht“. Am Ende des Vortrainings h?rt das Modell tats?chlich auf zu lernen. Richten Sie das Modell aus oder verfeinern Sie es, um zu erfahren, wie Sie dieses Wissen nutzen und natürlicher auf Benutzerfragen reagieren k?nnen. Aber manchmal reicht Modellwissen nicht aus, und obwohl das Modell über RAG auf externe Inhalte zugreifen kann, wird es als vorteilhaft angesehen, das Modell durch Feinabstimmung an neue Dom?nen anzupassen. Diese Feinabstimmung erfolgt mithilfe von Eingaben menschlicher Annotatoren oder anderer LLM-Kreationen, wobei das Modell auf zus?tzliches Wissen aus der realen Welt trifft und dieses integriert

Herausgeber | Der Frage-Antwort-Datensatz (QA) von ScienceAI spielt eine entscheidende Rolle bei der F?rderung der Forschung zur Verarbeitung natürlicher Sprache (NLP). Hochwertige QS-Datens?tze k?nnen nicht nur zur Feinabstimmung von Modellen verwendet werden, sondern auch effektiv die F?higkeiten gro?er Sprachmodelle (LLMs) bewerten, insbesondere die F?higkeit, wissenschaftliche Erkenntnisse zu verstehen und zu begründen. Obwohl es derzeit viele wissenschaftliche QS-Datens?tze aus den Bereichen Medizin, Chemie, Biologie und anderen Bereichen gibt, weisen diese Datens?tze immer noch einige M?ngel auf. Erstens ist das Datenformular relativ einfach, die meisten davon sind Multiple-Choice-Fragen. Sie sind leicht auszuwerten, schr?nken jedoch den Antwortauswahlbereich des Modells ein und k?nnen die F?higkeit des Modells zur Beantwortung wissenschaftlicher Fragen nicht vollst?ndig testen. Im Gegensatz dazu offene Fragen und Antworten

In der Welt der Front-End-Entwicklung ist VSCode mit seinen leistungsstarken Funktionen und seinem umfangreichen Plug-in-?kosystem für unz?hlige Entwickler zum Werkzeug der Wahl geworden. In den letzten Jahren sind mit der rasanten Entwicklung der Technologie der künstlichen Intelligenz KI-Code-Assistenten auf VSCode entstanden, die die Codierungseffizienz der Entwickler erheblich verbessert haben. KI-Code-Assistenten auf VSCode sind wie Pilze nach einem Regen aus dem Boden geschossen und haben die Codierungseffizienz der Entwickler erheblich verbessert. Es nutzt Technologie der künstlichen Intelligenz, um Code intelligent zu analysieren und eine pr?zise Code-Vervollst?ndigung, automatische Fehlerkorrektur, Grammatikprüfung und andere Funktionen bereitzustellen, wodurch Entwicklerfehler und mühsame manuelle Arbeit w?hrend des Codierungsprozesses erheblich reduziert werden. Heute werde ich 12 KI-Code-Assistenten für die Frontend-Entwicklung von VSCode empfehlen, die Sie bei Ihrer Programmierreise unterstützen.

Laut Nachrichten dieser Website vom 1. August hat SK Hynix heute (1. August) einen Blogbeitrag ver?ffentlicht, in dem es ankündigt, dass es am Global Semiconductor Memory Summit FMS2024 teilnehmen wird, der vom 6. bis 8. August in Santa Clara, Kalifornien, USA, stattfindet viele neue Technologien Generation Produkt. Einführung des Future Memory and Storage Summit (FutureMemoryandStorage), früher Flash Memory Summit (FlashMemorySummit), haupts?chlich für NAND-Anbieter, im Zusammenhang mit der zunehmenden Aufmerksamkeit für die Technologie der künstlichen Intelligenz wurde dieses Jahr in Future Memory and Storage Summit (FutureMemoryandStorage) umbenannt Laden Sie DRAM- und Speicheranbieter und viele weitere Akteure ein. Neues Produkt SK Hynix wurde letztes Jahr auf den Markt gebracht

Herausgeber |. KX Im Bereich der Arzneimittelforschung und -entwicklung ist die genaue und effektive Vorhersage der Bindungsaffinit?t von Proteinen und Liganden für das Arzneimittelscreening und die Arzneimitteloptimierung von entscheidender Bedeutung. Aktuelle Studien berücksichtigen jedoch nicht die wichtige Rolle molekularer Oberfl?cheninformationen bei Protein-Ligand-Wechselwirkungen. Auf dieser Grundlage schlugen Forscher der Universit?t Xiamen ein neuartiges Framework zur multimodalen Merkmalsextraktion (MFE) vor, das erstmals Informationen über Proteinoberfl?che, 3D-Struktur und -Sequenz kombiniert und einen Kreuzaufmerksamkeitsmechanismus verwendet, um verschiedene Modalit?ten zu vergleichen Ausrichtung. Experimentelle Ergebnisse zeigen, dass diese Methode bei der Vorhersage von Protein-Ligand-Bindungsaffinit?ten Spitzenleistungen erbringt. Darüber hinaus belegen Ablationsstudien die Wirksamkeit und Notwendigkeit der Proteinoberfl?cheninformation und der multimodalen Merkmalsausrichtung innerhalb dieses Rahmens. Verwandte Forschungen beginnen mit ?S

Konzentration ist zu jeder Zeit eine Tugend. Autor |. Herausgeber Tang Yitao |. Jing Yu Das Wiederaufleben der künstlichen Intelligenz hat zu einer neuen Welle von Hardware-Innovationen geführt. Der beliebteste AIPin hat beispiellose negative Bewertungen erhalten. Marques Brownlee (MKBHD) bezeichnete es als das schlechteste Produkt, das er jemals rezensiert habe; David Pierce, Herausgeber von The Verge, sagte, er würde niemandem empfehlen, dieses Ger?t zu kaufen. Sein Konkurrent, der RabbitR1, ist nicht viel besser. Der gr??te Zweifel an diesem KI-Ger?t besteht darin, dass es sich offensichtlich nur um eine App handelt, Rabbit jedoch eine 200-Dollar-Hardware gebaut hat. Viele Menschen sehen KI-Hardware-Innovationen als Chance, das Smartphone-Zeitalter zu untergraben und sich ihm zu widmen.
