亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

Maison Périphériques technologiques IA Troc et zhen ocr en latex

Troc et zhen ocr en latex

Apr 14, 2025 am 09:59 AM

Exploration de la puissance des modèles d'image à texte: Trocr et Zhen Latex OCR

Le monde de l'IA est en effervescence avec les modèles de langage et leurs applications dans l'assistance virtuelle et la création de contenu. Cependant, le domaine de la conversion d'image à texte, alimenté par la reconnaissance optique des caractères (OCR), offre des possibilités passionnantes. Cet article se plonge dans deux modèles d'image à texte puissants: Trocr et Zhen Latex OCR, mettant en évidence leurs forces et applications uniques.

Objectifs d'apprentissage:

  • Comprenez les cas d'utilisation optimaux pour TroCr et Zhen Latex OCR.
  • Gardez un aper?u de leurs architectures sous-jacentes.
  • Effectuez l'inférence avec ces modèles et explorez les applications pratiques.
  • Reconnaissez les utilisations du monde réel de ces outils puissants.

(Cet article fait partie du blogathon de la science des données.)

Table des matières:

  • Troc: un modèle d'encodeur-décodeur pour l'image à texte
  • Architecture troc
  • Présentation de Zhen Latex OCR
  • Trocr contre Zhen Latex OCR: une comparaison
  • Utilisation de TroCr: un guide étape par étape
  • Utilisation de Zhen Latex OCR pour la reconnaissance d'image mathématique et en latex
  • Améliorations et améliorations futures
  • Applications réelles de l'OCR
  • Questions fréquemment posées

Troc: un modèle d'encodeur-décodeur pour l'image à texte

TROCR (reconnaissance des caractères optiques basés sur traditionnelle) est un modèle de coder-décodeur tirant parti des mécanismes de séquence à séquence pour la conversion d'image à texte. Il dispose d'un transformateur d'image (encodeur) et d'un transformateur de texte (décodeur). Les modèles troc sont généralement pré-formés sur de vastes ensembles de données d'images de texte imprimées générées synthétiquement, puis affinés sur des ensembles de données comme le texte manuscrit IAM et les re?us imprimés de Sroy, entra?nant des variations comme le troc-petit-soie, le troc-bases-soie et le troc-large-soie.

Troc et zhen ocr en latex

Architecture troc

Contrairement aux modèles d'OCR traditionnels en s'appuyant sur les CNN et les RNN, TROCR utilise une vision et une architecture de transformateur linguistique. L'encodeur traite l'image, le divisant en correctifs et en utilisant des blocs d'attention et de Feed-Forward pour générer des incorporations d'image. Le décodeur traite ensuite ces intérêts pour produire des sorties de texte codées, qui sont finalement décodées en texte lisible. Les images sont prétraitées sur des correctifs de taille fixe (par exemple, 16x16).

Présentation de Zhen Latex OCR

Zhen Latex OCR, un modèle open source de Mixtex, est un autre puissant modèle d'encodeur de codeur spécialisé dans la conversion d'images de formules mathématiques et de texte en code de latex. Il reconna?t avec précision les formules mathématiques en latex complexes, les tables et se différencie même entre les mots, le texte, les formules et les tables dans une seule image. Il offre un support bilingue pour l'anglais et le chinois.

Troc et zhen ocr en latex

Trocr contre Zhen Latex OCR: une comparaison

Trocl excelle à traiter les images de texte à ligne unique, offrant des avantages de vitesse par rapport à certains autres modèles OCR. Zhen Latex OCR, cependant, brille dans sa capacité à gérer les formules mathématiques et le code de latex, fournissant un outil précieux pour les chercheurs et les universitaires. Bien qu'il existe d'autres outils pour l'entrée de latex, Zhen Latex OCR offre une alternative pratique et efficace.

Utilisation de TroCr: un guide étape par étape

Nous allons démontrer l'utilisation d'un modèle Trocl ajusté avec l'ensemble de données SROIE.

étape 1: Importation de bibliothèques

 De Transformers Importer le trocrprocessor, VisionencoderDecoderModel
à partir de l'image d'importation PIL
Demandes d'importation

étape 2: Chargement d'une image

 url = 'https://fki.tic.heia-fr.ch/static/img/a01-122-02-00.jpg'
Image = image.open (reques.get (url, stream = true) .raw) .convert ("rgb")

étape 3: Initialisation du modèle troc

 processeur = trocrprocessor.from_pretraind (?Microsoft / trocr-base-base?)
modèle = visionencoderdecodermodel.from_pretraind (?Microsoft / trocr-base-base?)
pixel_values ??= processeur (images = image, return_tensers = "pt"). pixel_values

étape 4: Génération de texte

 généré_ids = modèle.generate (pixel_values)
généré_text = processor.batch_decode (généré_ids, skip_special_tokens = true) [0]
Imprimer (généré_text.lower ()) # sortie en minuscules 

Troc et zhen ocr en latexTroc et zhen ocr en latex

Utilisation de Zhen Latex OCR pour la reconnaissance d'image mathématique et en latex

Voici un bref exemple d'utilisation de Zhen Latex OCR:

étape 1: Importation de bibliothèques

 De Transformers Importer Autotokenzer, VisionEncoderDecoderModel, AutoimageProcessor
à partir de l'image d'importation PIL
Demandes d'importation

featuor_extractor = AutoImageProcessor.from_pretraind ("mixtex / zhen-latex-oCr")
tokenizer = autotokenizer.from_pretraind ("mixtex / zhen-latex-oct", max_len = 296)
modèle = visionencoderdecodermodel.from_pretrain ("mixtex / zhen-latex-oCr")

étape 2: Traitement et génération de latex

 imgen = image.open (reques.get ('https://cdn uploads.huggingface.co/production/uploads/62dbaade36292040577d2d4f/eoaym7fzdsjic_8ptsc-h.png', stream = true) .raw)
Latex_Output = tokenizer.decode (Model.GenERETER (FEARTAGE_EXTRATOR (IMGEN, return_tensers = "pt"). Pixel_Values) [0]). Remplace ('\\ [', '\\ Begin {Align *}'). Remplace (\\] ',' \\ end {align *} ').
Imprimer (latex_output) 

Troc et zhen ocr en latexTroc et zhen ocr en latex

Améliorations et améliorations futures

Les deux modèles ont une place à l'amélioration. Le troc pourrait bénéficier d'une manipulation améliorée du texte incurvé et des images de scènes naturelles. Zhen Latex OCR pourrait se développer pour prendre en charge les formules mathématiques manuscrites et les tables plus complexes.

Applications réelles de l'OCR

Les modèles OCR trouvent des applications généralisées dans divers secteurs:

  • Finance: automatiser l'extraction des données à partir de documents financiers.
  • Santé: Numérisation des dossiers et prescriptions des patients.
  • Gouvernement: rationalisation du traitement des documents et tenue de dossiers.

Conclusion

Trocr et Zhen Latex OCR représentent des progrès importants dans la technologie d'image à texte. En comprenant leurs forces et leurs limites, nous pouvons tirer parti de ces puissants outils pour résoudre les problèmes du monde réel dans de nombreuses industries.

Les principaux plats à retenir:

  • Trocl excelle à la reconnaissance de texte en une seule ligne.
  • Zhen Latex OCR est spécialisé dans les formules mathématiques et le code de latex.
  • L'optimisation de la sélection du modèle basé sur des besoins spécifiques est crucial pour des résultats optimaux.

Questions fréquemment posées

Q1: Quelle est la principale différence entre Trocr et Zhen Latex OCR? Troch se concentre sur l'extraction générale de texte, tandis que Zhen Latex OCR est spécialisé dans les formules mathématiques et le latex.

Q2: Quand dois-je utiliser Zhen Latex OCR au lieu de troc? Utilisez Zhen Latex OCR lorsque vous traitez avec des équations mathématiques ou du code de latex; Sinon, troc est adapté.

Q3: Zhen Latex OCR peut-il gérer les équations manuscrites? Actuellement, non, mais les améliorations futures peuvent résoudre ce problème.

Q4: Quelles industries bénéficient le plus de l'OCR? La finance, les soins de santé et le gouvernement sont parmi les principaux bénéficiaires.

(Remarque: les images utilisées dans cet article ne sont pas détenues par l'auteur et sont utilisées avec autorisation.)

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefa?on, veuillez contacter admin@php.cn

Outils d'IA chauds

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Video Face Swap

échangez les visages dans n'importe quelle vidéo sans effort grace à notre outil d'échange de visage AI entièrement gratuit?!

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

L'investisseur de l'IA est resté à l'arrêt? 3 chemins stratégiques pour acheter, construire ou s'associer avec les fournisseurs d'IA L'investisseur de l'IA est resté à l'arrêt? 3 chemins stratégiques pour acheter, construire ou s'associer avec les fournisseurs d'IA Jul 02, 2025 am 11:13 AM

L'investissement est en plein essor, mais le capital seul ne suffit pas. Avec la montée et la décoloration des évaluations, les investisseurs dans les fonds de capital-risque axés sur l'IA doivent prendre une décision clé: acheter, construire ou partenaire pour gagner un avantage? Voici comment évaluer chaque option et PR

AGI et AI Superintelligence vont fortement frapper la barrière d'hypothèse du plafond humain AGI et AI Superintelligence vont fortement frapper la barrière d'hypothèse du plafond humain Jul 04, 2025 am 11:10 AM

Parlons-en. Cette analyse d'une percée innovante de l'IA fait partie de ma couverture de colonne Forbes en cours sur les dernières personnes en IA, notamment en identifiant et en expliquant diverses complexités d'IA percutantes (voir le lien ici). Se dirigeant vers Agi et

Kimi K2: le modèle agentique open source le plus puissant Kimi K2: le modèle agentique open source le plus puissant Jul 12, 2025 am 09:16 AM

Rappelez-vous le flot de modèles chinois open source qui a perturbé l'industrie du Genai plus t?t cette année? Alors que Deepseek a fait la majeure partie des titres, Kimi K1.5 était l'un des noms importants de la liste. Et le modèle était assez cool.

Prévision future d'une explosion de renseignement massive sur la voie de l'IA à AGI Prévision future d'une explosion de renseignement massive sur la voie de l'IA à AGI Jul 02, 2025 am 11:19 AM

Parlons-en. Cette analyse d'une percée innovante de l'IA fait partie de ma couverture de colonne Forbes en cours sur les dernières personnes en IA, notamment en identifiant et en expliquant diverses complexités d'IA percutantes (voir le lien ici). Pour ces lecteurs qui h

Grok 4 vs Claude 4: Quel est le meilleur? Grok 4 vs Claude 4: Quel est le meilleur? Jul 12, 2025 am 09:37 AM

à la mi-2025, l'AI ?Arme Race? se réchauffe, et Xai et Anthropic ont tous deux publié leurs modèles phares, Grok 4 et Claude 4.

Cha?ne de pensée pour le raisonnement Les modèles peuvent ne pas fonctionner à long terme Cha?ne de pensée pour le raisonnement Les modèles peuvent ne pas fonctionner à long terme Jul 02, 2025 am 11:18 AM

Par exemple, si vous posez une question à un modèle comme: "Que fait (x) personne à (x) l'entreprise?" Vous pouvez voir une cha?ne de raisonnement qui ressemble à quelque chose comme ceci, en supposant que le système sait comment récupérer les informations nécessaires: localiser les détails sur le CO

Le Sénat tue l'interdiction de l'IA au niveau de l'état à 10 ans niché dans le projet de loi budgétaire de Trump Le Sénat tue l'interdiction de l'IA au niveau de l'état à 10 ans niché dans le projet de loi budgétaire de Trump Jul 02, 2025 am 11:16 AM

Le Sénat a voté le 99-1 mardi matin pour tuer le moratoire après un tumulte de dernière minute de groupes de défense des groupes de défense, des législateurs et des dizaines de milliers d'Américains qui l'ont vu comme une dangereuse dépassement. Ils ne sont pas restés silencieux. Le Sénat écouté.

Cette startup a construit un h?pital en Inde pour tester son logiciel AI Cette startup a construit un h?pital en Inde pour tester son logiciel AI Jul 02, 2025 am 11:14 AM

Les essais cliniques sont un énorme goulot d'étranglement du développement de médicaments, et Kim et Reddy pensaient que le logiciel compatible AI qu'ils avait construit chez PI Health pourrait les aider à les faire plus rapidement et moins cher en élargissant le bassin de patients potentiellement éligibles. Mais le

See all articles