Exploration de la puissance des modèles d'image à texte: Trocr et Zhen Latex OCR
Le monde de l'IA est en effervescence avec les modèles de langage et leurs applications dans l'assistance virtuelle et la création de contenu. Cependant, le domaine de la conversion d'image à texte, alimenté par la reconnaissance optique des caractères (OCR), offre des possibilités passionnantes. Cet article se plonge dans deux modèles d'image à texte puissants: Trocr et Zhen Latex OCR, mettant en évidence leurs forces et applications uniques.
Objectifs d'apprentissage:
- Comprenez les cas d'utilisation optimaux pour TroCr et Zhen Latex OCR.
- Gardez un aper?u de leurs architectures sous-jacentes.
- Effectuez l'inférence avec ces modèles et explorez les applications pratiques.
- Reconnaissez les utilisations du monde réel de ces outils puissants.
(Cet article fait partie du blogathon de la science des données.)
Table des matières:
- Troc: un modèle d'encodeur-décodeur pour l'image à texte
- Architecture troc
- Présentation de Zhen Latex OCR
- Trocr contre Zhen Latex OCR: une comparaison
- Utilisation de TroCr: un guide étape par étape
- Utilisation de Zhen Latex OCR pour la reconnaissance d'image mathématique et en latex
- Améliorations et améliorations futures
- Applications réelles de l'OCR
- Questions fréquemment posées
Troc: un modèle d'encodeur-décodeur pour l'image à texte
TROCR (reconnaissance des caractères optiques basés sur traditionnelle) est un modèle de coder-décodeur tirant parti des mécanismes de séquence à séquence pour la conversion d'image à texte. Il dispose d'un transformateur d'image (encodeur) et d'un transformateur de texte (décodeur). Les modèles troc sont généralement pré-formés sur de vastes ensembles de données d'images de texte imprimées générées synthétiquement, puis affinés sur des ensembles de données comme le texte manuscrit IAM et les re?us imprimés de Sroy, entra?nant des variations comme le troc-petit-soie, le troc-bases-soie et le troc-large-soie.
Architecture troc
Contrairement aux modèles d'OCR traditionnels en s'appuyant sur les CNN et les RNN, TROCR utilise une vision et une architecture de transformateur linguistique. L'encodeur traite l'image, le divisant en correctifs et en utilisant des blocs d'attention et de Feed-Forward pour générer des incorporations d'image. Le décodeur traite ensuite ces intérêts pour produire des sorties de texte codées, qui sont finalement décodées en texte lisible. Les images sont prétraitées sur des correctifs de taille fixe (par exemple, 16x16).
Présentation de Zhen Latex OCR
Zhen Latex OCR, un modèle open source de Mixtex, est un autre puissant modèle d'encodeur de codeur spécialisé dans la conversion d'images de formules mathématiques et de texte en code de latex. Il reconna?t avec précision les formules mathématiques en latex complexes, les tables et se différencie même entre les mots, le texte, les formules et les tables dans une seule image. Il offre un support bilingue pour l'anglais et le chinois.
Trocr contre Zhen Latex OCR: une comparaison
Trocl excelle à traiter les images de texte à ligne unique, offrant des avantages de vitesse par rapport à certains autres modèles OCR. Zhen Latex OCR, cependant, brille dans sa capacité à gérer les formules mathématiques et le code de latex, fournissant un outil précieux pour les chercheurs et les universitaires. Bien qu'il existe d'autres outils pour l'entrée de latex, Zhen Latex OCR offre une alternative pratique et efficace.
Utilisation de TroCr: un guide étape par étape
Nous allons démontrer l'utilisation d'un modèle Trocl ajusté avec l'ensemble de données SROIE.
étape 1: Importation de bibliothèques
De Transformers Importer le trocrprocessor, VisionencoderDecoderModel à partir de l'image d'importation PIL Demandes d'importation
étape 2: Chargement d'une image
url = 'https://fki.tic.heia-fr.ch/static/img/a01-122-02-00.jpg' Image = image.open (reques.get (url, stream = true) .raw) .convert ("rgb")
étape 3: Initialisation du modèle troc
processeur = trocrprocessor.from_pretraind (?Microsoft / trocr-base-base?) modèle = visionencoderdecodermodel.from_pretraind (?Microsoft / trocr-base-base?) pixel_values ??= processeur (images = image, return_tensers = "pt"). pixel_values
étape 4: Génération de texte
généré_ids = modèle.generate (pixel_values) généré_text = processor.batch_decode (généré_ids, skip_special_tokens = true) [0] Imprimer (généré_text.lower ()) # sortie en minuscules
Utilisation de Zhen Latex OCR pour la reconnaissance d'image mathématique et en latex
Voici un bref exemple d'utilisation de Zhen Latex OCR:
étape 1: Importation de bibliothèques
De Transformers Importer Autotokenzer, VisionEncoderDecoderModel, AutoimageProcessor à partir de l'image d'importation PIL Demandes d'importation featuor_extractor = AutoImageProcessor.from_pretraind ("mixtex / zhen-latex-oCr") tokenizer = autotokenizer.from_pretraind ("mixtex / zhen-latex-oct", max_len = 296) modèle = visionencoderdecodermodel.from_pretrain ("mixtex / zhen-latex-oCr")
étape 2: Traitement et génération de latex
imgen = image.open (reques.get ('https://cdn uploads.huggingface.co/production/uploads/62dbaade36292040577d2d4f/eoaym7fzdsjic_8ptsc-h.png', stream = true) .raw) Latex_Output = tokenizer.decode (Model.GenERETER (FEARTAGE_EXTRATOR (IMGEN, return_tensers = "pt"). Pixel_Values) [0]). Remplace ('\\ [', '\\ Begin {Align *}'). Remplace (\\] ',' \\ end {align *} '). Imprimer (latex_output)
Améliorations et améliorations futures
Les deux modèles ont une place à l'amélioration. Le troc pourrait bénéficier d'une manipulation améliorée du texte incurvé et des images de scènes naturelles. Zhen Latex OCR pourrait se développer pour prendre en charge les formules mathématiques manuscrites et les tables plus complexes.
Applications réelles de l'OCR
Les modèles OCR trouvent des applications généralisées dans divers secteurs:
- Finance: automatiser l'extraction des données à partir de documents financiers.
- Santé: Numérisation des dossiers et prescriptions des patients.
- Gouvernement: rationalisation du traitement des documents et tenue de dossiers.
Conclusion
Trocr et Zhen Latex OCR représentent des progrès importants dans la technologie d'image à texte. En comprenant leurs forces et leurs limites, nous pouvons tirer parti de ces puissants outils pour résoudre les problèmes du monde réel dans de nombreuses industries.
Les principaux plats à retenir:
- Trocl excelle à la reconnaissance de texte en une seule ligne.
- Zhen Latex OCR est spécialisé dans les formules mathématiques et le code de latex.
- L'optimisation de la sélection du modèle basé sur des besoins spécifiques est crucial pour des résultats optimaux.
Questions fréquemment posées
Q1: Quelle est la principale différence entre Trocr et Zhen Latex OCR? Troch se concentre sur l'extraction générale de texte, tandis que Zhen Latex OCR est spécialisé dans les formules mathématiques et le latex.
Q2: Quand dois-je utiliser Zhen Latex OCR au lieu de troc? Utilisez Zhen Latex OCR lorsque vous traitez avec des équations mathématiques ou du code de latex; Sinon, troc est adapté.
Q3: Zhen Latex OCR peut-il gérer les équations manuscrites? Actuellement, non, mais les améliorations futures peuvent résoudre ce problème.
Q4: Quelles industries bénéficient le plus de l'OCR? La finance, les soins de santé et le gouvernement sont parmi les principaux bénéficiaires.
(Remarque: les images utilisées dans cet article ne sont pas détenues par l'auteur et sont utilisées avec autorisation.)
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undress AI Tool
Images de déshabillage gratuites

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
échangez les visages dans n'importe quelle vidéo sans effort grace à notre outil d'échange de visage AI entièrement gratuit?!

Article chaud

Outils chauds

Bloc-notes++7.3.1
éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

L'investissement est en plein essor, mais le capital seul ne suffit pas. Avec la montée et la décoloration des évaluations, les investisseurs dans les fonds de capital-risque axés sur l'IA doivent prendre une décision clé: acheter, construire ou partenaire pour gagner un avantage? Voici comment évaluer chaque option et PR

Parlons-en. Cette analyse d'une percée innovante de l'IA fait partie de ma couverture de colonne Forbes en cours sur les dernières personnes en IA, notamment en identifiant et en expliquant diverses complexités d'IA percutantes (voir le lien ici). Se dirigeant vers Agi et

Rappelez-vous le flot de modèles chinois open source qui a perturbé l'industrie du Genai plus t?t cette année? Alors que Deepseek a fait la majeure partie des titres, Kimi K1.5 était l'un des noms importants de la liste. Et le modèle était assez cool.

Parlons-en. Cette analyse d'une percée innovante de l'IA fait partie de ma couverture de colonne Forbes en cours sur les dernières personnes en IA, notamment en identifiant et en expliquant diverses complexités d'IA percutantes (voir le lien ici). Pour ces lecteurs qui h

à la mi-2025, l'AI ?Arme Race? se réchauffe, et Xai et Anthropic ont tous deux publié leurs modèles phares, Grok 4 et Claude 4.

Par exemple, si vous posez une question à un modèle comme: "Que fait (x) personne à (x) l'entreprise?" Vous pouvez voir une cha?ne de raisonnement qui ressemble à quelque chose comme ceci, en supposant que le système sait comment récupérer les informations nécessaires: localiser les détails sur le CO

Le Sénat a voté le 99-1 mardi matin pour tuer le moratoire après un tumulte de dernière minute de groupes de défense des groupes de défense, des législateurs et des dizaines de milliers d'Américains qui l'ont vu comme une dangereuse dépassement. Ils ne sont pas restés silencieux. Le Sénat écouté.

Les essais cliniques sont un énorme goulot d'étranglement du développement de médicaments, et Kim et Reddy pensaient que le logiciel compatible AI qu'ils avait construit chez PI Health pourrait les aider à les faire plus rapidement et moins cher en élargissant le bassin de patients potentiellement éligibles. Mais le
