亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

TROCRおよびZHEN LATEX OCR

Apr 14, 2025 am 09:59 AM

畫像間モデルのパワーの探索:TROCRとZHEN LATEX OCR

AIの世界は、言語モデルと仮想支援とコンテンツの作成におけるそのアプリケーションに亂暴になっています。ただし、光學(xué)文字認(rèn)識(OCR)を搭載した畫像からテキストへの変換のフィールドは、エキサイティングな可能性を提供します。この記事では、2つの強(qiáng)力な畫像からテキストへのモデルを掘り下げ、TROCRとZhen LaTex OCRを紹介し、獨(dú)自の強(qiáng)みとアプリケーションを強(qiáng)調(diào)しています。

學(xué)習(xí)目標(biāo):

  • TROCRとZhen Latex OCRの最適なユースケースを理解してください。
  • 基礎(chǔ)となるアーキテクチャに関する洞察を得る。
  • これらのモデルで推論を?qū)g行し、実用的なアプリケーションを探索します。
  • これらの強(qiáng)力なツールの実際の使用を認(rèn)識します。

(この記事はデータサイエンスブログソンの一部です。)

目次:

  • TROCR:畫像からテキストのためのエンコーダーデコーダーモデル
  • TROCRアーキテクチャ
  • Zhen Latex OCRの紹介
  • TROCR vs. Zhen Latex OCR:比較
  • TROCRの使用:ステップバイステップガイド
  • 數(shù)學(xué)とラテックスの畫像認(rèn)識にZhen Latex OCRを利用する
  • 將來の改善と強(qiáng)化
  • OCRの実際のアプリケーション
  • よくある質(zhì)問

TROCR:畫像からテキストのためのエンコーダーデコーダーモデル

TROCR(従來のベースの光學(xué)文字認(rèn)識)は、畫像からテキストへの変換のためのシーケンスからシーケンスメカニズムを活用するエンコーダーデコーダーモデルです。畫像トランス(エンコーダー)とテキストトランス(デコーダー)を備えています。 TROCRモデルは通常、合成された印刷されたテキスト畫像の広大なデータセットで事前に訓(xùn)練されており、IAMの手書きテキストやSROIE印刷領(lǐng)収書などのデータセットで微調(diào)整され、TROCR-SMALL-SROIE、TROCR-BASE-SROIE、TROCR-LAREGE-SROIEなどのバリエーションをもたらします。

TROCRおよびZHEN LATEX OCR

TROCRアーキテクチャ

CNNやRNNに依存している従來のOCRモデルとは異なり、TROCRはビジョンと言語の変圧器アーキテクチャを採用しています。エンコーダは畫像を処理し、パッチに分割し、マルチヘッドの注意とフィードフォワードブロックを使用して畫像の埋め込みを生成します。次に、デコーダーはこれらの埋め込みを処理してエンコードされたテキスト出力を生成し、最終的に読み取り可能なテキストにデコードされます。畫像は、固定サイズのパッチに前処理されます(例:16x16)。

Zhen Latex OCRの紹介

MixTexのオープンソースモデルであるZhen Latex OCRは、數(shù)式とテキストの畫像をLaTexコードに変換することに特化したもう1つの強(qiáng)力なエンコーダデコーダーモデルです。複雑なラテックス數(shù)學(xué)の式、テーブル、さらには単一の畫像內(nèi)の単語、テキスト、式、テーブルを區(qū)別することさえ正確に認(rèn)識します。英語と中國語のバイリンガルサポートを提供します。

TROCRおよびZHEN LATEX OCR

TROCR vs. Zhen Latex OCR:比較

TROCRは、シングルラインテキスト畫像の処理に優(yōu)れており、他のOCRモデルよりも速度の利點(diǎn)を提供します。ただし、Zhen Latex OCRは、數(shù)學(xué)的な式とラテックスコードを処理する能力に輝いており、研究者と學(xué)者に貴重なツールを提供します。ラテックス入力用の他のツールは存在しますが、Zhen Latex OCRは便利で効率的な代替品を提供します。

TROCRの使用:ステップバイステップガイド

Sroieデータセットで微調(diào)整されたTROCRモデルを使用してデモを行います。

ステップ1:ライブラリのインポート

トランスからTROCRProcessor、VisionEncoderDeCodermodelからインポート
PILインポート畫像から
リクエストをインポートします

ステップ2:畫像の読み込み

url = 'https://fki.tic.heia-fr.ch/static/img/a01-122-02-00.jpg'
image = image.open(requests.get(url、stream = true).raw).convert( "rgb")

ステップ3:TROCRモデルの初期化

processor = trocrprocessor.from_pretrained( 'microsoft/trocr-base-printed')
Model = VisionEncoderDeCodermodel.from_pretrained( 'Microsoft/Trocr-Base-Printed')
pixel_values = processor(image = image、return_tensors = "pt")。pixel_values

ステップ4:テキスト生成

generated_ids = model.generate(pixel_values)
generated_text = processor.batch_decode(generated_ids、skip_special_tokens = true)[0]
print(generated_text.lower())#dowercaseの出力

TROCRおよびZHEN LATEX OCRTROCRおよびZHEN LATEX OCR

數(shù)學(xué)とラテックスの畫像認(rèn)識にZhen Latex OCRを利用する

Zhen Latex OCRを使用する簡単な例を次に示します。

ステップ1:ライブラリのインポート

変圧器から、AutoTokenizer、VisionEncoderDeCodermodel、AutoImageProcessorから
PILインポート畫像から
リクエストをインポートします

feature_extractor = autoimageProcessor.from_pretrained( "mixtex/zhen-latex-ocr")
tokenizer = autotokenizer.from_pretrained( "mixtex/zhen-latex-ocr"、max_len = 296)
Model = VisionEncoderDeCodermodel.from_pretrained( "mixtex/zhen-latex-ocr")

ステップ2:ラテックスの処理と生成

imgen = image.open(requests.get( 'https://cdn-uploads.huggingface.co/production/uploads/62dbaade36292040577d2d4f/eoaym7fzdsjic_8ptsc-h.png」
latex_output = tokenizer.decode(model.generate(feature_extractor(imgen、return_tensors = "pt")。pixel_values)[0])。
print(latex_output) 

TROCRおよびZHEN LATEX OCRTROCRおよびZHEN LATEX OCR

將來の改善と強(qiáng)化

両方のモデルには改善の余地があります。 TROCRは、天然のシーンからの灣曲したテキストと畫像の取り扱いの強(qiáng)化から恩恵を受ける可能性があります。 Zhen Latex OCRは、手書きの數(shù)式とより複雑なテーブルをサポートするために拡張できます。

OCRの実際のアプリケーション

OCRモデルは、さまざまなセクターで広範(fàn)囲にわたるアプリケーションを見つけます。

  • 財(cái)務(wù):金融文書からのデータ抽出の自動化。
  • ヘルスケア:患者の記録と処方箋のデジタル化。
  • 政府:ドキュメントの処理と記録管理を合理化します。

結(jié)論

TROCRおよびZHEN LATEX OCRは、畫像からテキストのテクノロジーの大きな進(jìn)歩を表しています。それらの強(qiáng)みと制限を理解することにより、これらの強(qiáng)力なツールを活用して、多くの業(yè)界で実世界の問題を解決することができます。

重要なテイクアウト:

  • TROCRは、シングルラインのテキスト認(rèn)識に優(yōu)れています。
  • Zhen Latex OCRは、數(shù)式とラテックスコードを?qū)熼Tとしています。
  • 特定のニーズに基づいてモデル選択を最適化することは、最適な結(jié)果に重要です。

よくある質(zhì)問

Q1:TROCRとZhen Latex OCRの主な違いは何ですか? TROCRは一般的なテキスト抽出に焦點(diǎn)を當(dāng)て、Zhen Latex OCRは數(shù)式とラテックスを?qū)熼Tとしています。

Q2:TROCRの代わりにZhen Latex OCRをいつ使用する必要がありますか?數(shù)學(xué)的方程式またはラテックスコードを扱うときは、Zhen Latex OCRを使用します。それ以外の場合、TROCRが適しています。

Q3:Zhen Latex OCRは手書きの方程式を処理できますか?現(xiàn)在、いいえですが、將來の改善はこれに対処するかもしれません。

Q4:OCRから最も恩恵を受ける業(yè)界はどれですか?財(cái)務(wù)、ヘルスケア、および政府は、主要な受益者の1つです。

(注:この記事で使用されている畫像は著者が所有しておらず、許可を得て使用されます。)

以上がTROCRおよびZHEN LATEX OCRの詳細(xì)內(nèi)容です。詳細(xì)については、PHP 中國語 Web サイトの他の関連記事を參照してください。

このウェブサイトの聲明
この記事の內(nèi)容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰屬します。このサイトは、それに相當(dāng)する法的責(zé)任を負(fù)いません。盜作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡(luò)ください。

ホットAIツール

Undress AI Tool

Undress AI Tool

脫衣畫像を無料で

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード寫真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

寫真から衣服を削除するオンライン AI ツール。

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中國語版

SublimeText3 中國語版

中國語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強(qiáng)力な PHP 統(tǒng)合開発環(huán)境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

AI投資家は停滯していますか? AIベンダーと購入、構(gòu)築、またはパートナーになる3つの戦略的なパス AI投資家は停滯していますか? AIベンダーと購入、構(gòu)築、またはパートナーになる3つの戦略的なパス Jul 02, 2025 am 11:13 AM

投資は活況を呈していますが、資本だけでは十分ではありません。評価が上昇し、獨(dú)特の衰退があるため、AIに焦點(diǎn)を當(dāng)てたベンチャーファンドの投資家は、優(yōu)位性を獲得するために購入、構(gòu)築、またはパートナーの重要な決定を下す必要がありますか?各オプションを評価する方法とpr

AGIとAIのスーパーインテリジェンスは、人間の天井の仮定の障壁に急激に衝突するでしょう AGIとAIのスーパーインテリジェンスは、人間の天井の仮定の障壁に急激に衝突するでしょう Jul 04, 2025 am 11:10 AM

それについて話しましょう。 革新的なAIブレークスルーのこの分析は、さまざまなインパクトのあるAIの複雑さの特定と説明など、最新のAIで進(jìn)行中のForbes列のカバレッジの一部です(こちらのリンクを參照)。 アギに向かっています

Kimi K2:最も強(qiáng)力なオープンソースエージェントモデル Kimi K2:最も強(qiáng)力なオープンソースエージェントモデル Jul 12, 2025 am 09:16 AM

今年初めにゲナイ産業(yè)を混亂させたオープンソースの中國モデルの洪水を覚えていますか? Deepseekはほとんどの見出しを取りましたが、Kimi K1.5はリストの著名な名前の1つでした。そして、モデルはとてもクールでした。

AIからAGIへのパスでの大規(guī)模な知性の爆発を予測する AIからAGIへのパスでの大規(guī)模な知性の爆発を予測する Jul 02, 2025 am 11:19 AM

それについて話しましょう。 革新的なAIブレークスルーのこの分析は、さまざまなインパクトのあるAIの複雑さの特定と説明など、最新のAIで進(jìn)行中のForbes列のカバレッジの一部です(こちらのリンクを參照)。 hの読者のために

Grok 4 vs Claude 4:どちらが良いですか? Grok 4 vs Claude 4:どちらが良いですか? Jul 12, 2025 am 09:37 AM

2025年半ばまでに、AIの「武器競爭」は熱くなり、Xaiと人類は両方ともフラッグシップモデルであるGrok 4とClaude 4をリリースしました。これら2つのモデルは、設(shè)計(jì)哲學(xué)と展開プラットフォームの反対側(cè)にありますが、

推論モデルのための考え方は長期的にはうまくいかないかもしれません 推論モデルのための考え方は長期的にはうまくいかないかもしれません Jul 02, 2025 am 11:18 AM

たとえば、モデルに「(x)人は(x)會社で何をしているのですか?」という質(zhì)問をする場合、システムが必要な情報(bào)を取得する方法を知っていると仮定して、このようなものに見える推論チェーンを見るかもしれません:COの詳細(xì)を見つける

上院は、トランプの予算法案に押し込まれた10年間の州レベルのAI禁止を殺す 上院は、トランプの予算法案に押し込まれた10年間の州レベルのAI禁止を殺す Jul 02, 2025 am 11:16 AM

上院は、火曜日の朝99-1で投票して、擁護(hù)団體、議員、そしてそれを危険な行き過ぎと見なした何萬人ものアメリカ人からの土壇場の騒動の後、モラトリアムを殺しました。彼らは靜かにいませんでした。上院は聞いた

このスタートアップは、AIソフトウェアをテストするためにインドに病院を建設(shè)しました このスタートアップは、AIソフトウェアをテストするためにインドに病院を建設(shè)しました Jul 02, 2025 am 11:14 AM

臨床試験は醫(yī)薬品開発における膨大なボトルネックであり、キムとレディは、PI Healthで構(gòu)築していたAI対応ソフトウェアが、潛在的に適格な患者のプールを拡大することでより速く、より安価にできると考えました。しかし、

See all articles