亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

首頁 科技週邊 人工智慧 Trocr和Zhen乳膠OCR

Trocr和Zhen乳膠OCR

Apr 14, 2025 am 09:59 AM

探索圖像到文本模型的力量:Trocr和Zhen乳膠OCR

AI的世界充滿了語言模型及其在虛擬協(xié)助和內(nèi)容創(chuàng)建中的應(yīng)用。但是,由光學(xué)特徵識別(OCR)提供支持的圖像到文本轉(zhuǎn)換領(lǐng)域提供了令人興奮的可能性。本文深入研究了兩種強(qiáng)大的圖像到文本模型:Trocr和Zhen乳膠OCR,突出了它們的獨(dú)特優(yōu)勢和應(yīng)用。

學(xué)習(xí)目標(biāo):

  • 了解Trocr和Zhen乳膠OCR的最佳用例。
  • 洞悉其基本架構(gòu)。
  • 對這些模型進(jìn)行推斷並探索實(shí)際應(yīng)用。
  • 識別這些強(qiáng)大工具的現(xiàn)實(shí)用途。

(本文是數(shù)據(jù)科學(xué)博客馬拉鬆的一部分。)

目錄:

  • Trocr:圖像到文本的編碼器模型
  • 特羅克建築
  • 引入Zhen乳膠OCR
  • Trocr vs. Zhen Latex OCR:比較
  • 使用TROCR:逐步指南
  • 利用Zhen乳膠OCR進(jìn)行數(shù)學(xué)和乳膠圖像識別
  • 未來的改進(jìn)和增強(qiáng)
  • OCR的真實(shí)應(yīng)用
  • 常見問題

Trocr:圖像到文本的編碼器模型

TROR(基於傳統(tǒng)的光學(xué)特徵識別)是一種編碼器模型,利用序列到序列機(jī)制進(jìn)行圖像到文本轉(zhuǎn)換。它具有圖像變壓器(編碼器)和文本變壓器(解碼器)。 Trocr模型通常在綜合生成的印刷文本圖像的廣泛數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,然後在IAM手寫文本和SROIE印刷收據(jù)等數(shù)據(jù)集上進(jìn)行微調(diào),從而產(chǎn)生了Trocr-Small-Sroie,Trocr-Base-Base-Sroie和Trocr-Large-Large-Large-Sroie等變體。

Trocr和Zhen乳膠OCR

特羅克建築

與依靠CNN和RNNS的傳統(tǒng)OCR模型不同,TROCR採用了遠(yuǎn)見和語言變壓器體系結(jié)構(gòu)。編碼器處理圖像,將其分為貼片,並使用多頭注意力和饋送前方塊生成圖像嵌入。然後,解碼器處理這些嵌入以產(chǎn)生編碼的文本輸出,最終將其解碼為可讀文本。圖像已預(yù)處理到固定尺寸的補(bǔ)?。ɡ?,16x16)。

引入Zhen乳膠OCR

Zhen Latex OCR是Mixtex的開源模型,是另一個功能強(qiáng)大的編碼器模型模型,專門將數(shù)學(xué)公式的圖像和文本轉(zhuǎn)換為乳膠代碼。它準(zhǔn)確地識別複雜的乳膠數(shù)學(xué)公式,表,甚至在單個圖像中的單詞,文本,公式和表之間的區(qū)分。它為英語和中文提供雙語支持。

Trocr和Zhen乳膠OCR

Trocr vs. Zhen Latex OCR:比較

Trocr在處理單線文本圖像方面表現(xiàn)出色,提供了比其他OCR模型的速度優(yōu)勢。但是,Zhen乳膠OCR閃耀著其處理數(shù)學(xué)公式和乳膠代碼的能力,為研究人員和學(xué)者提供了寶貴的工具。儘管存在用於乳膠輸入的其他工具,但Zhen latex OCR提供了方便有效的替代方案。

使用TROCR:逐步指南

我們將使用SROIE數(shù)據(jù)集進(jìn)行微調(diào)的Trocr模型演示。

步驟1:導(dǎo)入庫

從變形金剛導(dǎo)入trocrprocessor,VisionencoderDecodermodel
從PIL導(dǎo)入圖像
導(dǎo)入請求

步驟2:加載圖像

url ='https://fki.tic.tic.heia-fr.ch/static/img/a01-122-02-00.jpg'
image = image.open(requests.get(url,stream = true).raw).convert(“ rgb”)

步驟3:初始化TROR模型

processor = trocrprocessor.from_pretrataining('Microsoft/Trocr-Base印刷')
模型= visionencoderdecodermodel.from_pretrated('Microsoft/Trocr-Base印刷')
pixel_values =處理器(images = image,return_tensors =“ pt”)。 pixel_values

步驟4:文字一代

generated_ids = model.generate(pixel_values)
generated_text = processor.batch_decode(generated_ids,skip_special_tokens = true)[0]
print(generated_text.lower())#在小寫中輸出

Trocr和Zhen乳膠OCRTrocr和Zhen乳膠OCR

利用Zhen乳膠OCR進(jìn)行數(shù)學(xué)和乳膠圖像識別

這是使用Zhen乳膠OCR的簡短示例:

步驟1:導(dǎo)入庫

從變形金剛導(dǎo)入自動源,VisionencoderDecodermodel,AutoImageProcessor
從PIL導(dǎo)入圖像
導(dǎo)入請求

feature_extractor = autoimageProcessor.from_pretrataining(“ mixtex/zhen-latex-ocr”)
tokenizer = autotokenizer.from_pretrataining(“ mixtex/zhen-latex-ocr”,max_len = 296)
型號= VisionencoderDecodermodel.from_pretrated(“ mixtex/zhen-latex-orock”)

步驟2:處理和生成乳膠

imgen = image.open(requests.get('https://cdn-uploads.huggingface.co/production/uploads/62DBAADE36292040577D2D4F/EOOAYM7FZDSJIC_8PTSC-h.png',stream = truh)。
latex_output = tokenizer.decode(model.generate(feature_extractor(imgen,return_tensors =“ pt”)。pixel_values)。pixel_values)[0])。
打印(latex_output) 

Trocr和Zhen乳膠OCRTrocr和Zhen乳膠OCR

未來的改進(jìn)和增強(qiáng)

兩種型號都有改進(jìn)的空間。 Trocr可以從增強(qiáng)的曲線文本和自然場景中的圖像中受益。 Zhen Latex OCR可以擴(kuò)展以支持手寫數(shù)學(xué)公式和更複雜的表。

OCR的真實(shí)應(yīng)用

OCR模型在各個領(lǐng)域找到廣泛的應(yīng)用程序:

  • 財(cái)務(wù):從財(cái)務(wù)文件中提取數(shù)據(jù)。
  • 醫(yī)療保?。?/strong>數(shù)字化患者記錄和處方。
  • 政府:簡化文件處理和記錄保存。

結(jié)論

Trocr和Zhen乳膠OCR代表了圖像到文本技術(shù)的重大進(jìn)步。通過了解它們的優(yōu)勢和局限性,我們可以利用這些強(qiáng)大的工具來解決眾多行業(yè)的現(xiàn)實(shí)世界問題。

關(guān)鍵要點(diǎn):

  • Trocr在單線文本識別方面表現(xiàn)出色。
  • Zhen乳膠OCR專門研究數(shù)學(xué)公式和乳膠代碼。
  • 基於特定需求的模型選擇對於最佳結(jié)果至關(guān)重要。

常見問題

Q1:Trocr和Zhen乳膠OCR之間的主要區(qū)別是什麼? Trocr專注於一般文本提取,而Zhen latex OCR專門研究數(shù)學(xué)公式和乳膠。

Q2:我什麼時候應(yīng)該使用Zhen乳膠OCR代替Trocr?處理數(shù)學(xué)方程式或乳膠代碼時,請使用Zhen乳膠OCR;否則,特羅克是合適的。

Q3:Zhen乳膠OCR可以處理手寫方程嗎?目前,不,但是未來的改進(jìn)可能會解決這一問題。

問題4:哪些行業(yè)從OCR中受益最大?金融,醫(yī)療保健和政府是主要受益者。

(注意:本文中使用的圖像不由作者所有,並且經(jīng)過許可。)

以上是Trocr和Zhen乳膠OCR的詳細(xì)內(nèi)容。更多資訊請關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本網(wǎng)站聲明
本文內(nèi)容由網(wǎng)友自願投稿,版權(quán)歸原作者所有。本站不承擔(dān)相應(yīng)的法律責(zé)任。如發(fā)現(xiàn)涉嫌抄襲或侵權(quán)的內(nèi)容,請聯(lián)絡(luò)admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費(fèi)脫衣圖片

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅(qū)動的應(yīng)用程序,用於創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費(fèi)的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費(fèi)的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強(qiáng)大的PHP整合開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網(wǎng)頁開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Laravel 教程
1597
29
PHP教程
1488
72
Kimi K2:最強(qiáng)大的開源代理模型 Kimi K2:最強(qiáng)大的開源代理模型 Jul 12, 2025 am 09:16 AM

還記得今年早些時候破壞了Genai行業(yè)的大量開源中國模型嗎?儘管DeepSeek佔(zhàn)據(jù)了大多數(shù)頭條新聞,但Kimi K1.5是列表中的重要名字之一。模型很酷。

Grok 4 vs Claude 4:哪個更好? Grok 4 vs Claude 4:哪個更好? Jul 12, 2025 am 09:37 AM

到2025年中期,AI“軍備競賽”正在加熱,XAI和Anthropic都發(fā)布了他們的旗艦車型Grok 4和Claude 4。這兩種模型處於設(shè)計(jì)理念和部署平臺的相反端,但他們卻在

今天已經(jīng)在我們中間走了10個驚人的人形機(jī)器人 今天已經(jīng)在我們中間走了10個驚人的人形機(jī)器人 Jul 16, 2025 am 11:12 AM

但是我們可能甚至不必等10年就可以看到一個。實(shí)際上,可以被認(rèn)為是真正有用的,類人類機(jī)器的第一波。 近年來,有許多原型和生產(chǎn)模型從T中走出來

上下文工程是' new'及時的工程 上下文工程是' new'及時的工程 Jul 12, 2025 am 09:33 AM

直到上一年,迅速的工程被認(rèn)為是與大語言模型(LLM)互動的關(guān)鍵技能。然而,最近,LLM在推理和理解能力方面已經(jīng)顯著提高。自然,我們的期望

建立Langchain健身教練:您的AI私人教練 建立Langchain健身教練:您的AI私人教練 Jul 05, 2025 am 09:06 AM

許多人充滿熱情地打入健身房,並相信自己正在正確實(shí)現(xiàn)自己的健身目標(biāo)。但是由於飲食計(jì)劃差和缺乏方向,結(jié)果不存在。僱用私人教練AL

6個任務(wù)Manus AI可以在幾分鐘內(nèi)完成 6個任務(wù)Manus AI可以在幾分鐘內(nèi)完成 Jul 06, 2025 am 09:29 AM

我相信您必須了解通用的AI代理Manus。它是幾個月前推出的,在過去的幾個月中,他們?yōu)橄到y(tǒng)添加了幾個新功能?,F(xiàn)在,您可以生成視頻,創(chuàng)建網(wǎng)站並做很多MO

Leia的浸入式移動應(yīng)用將3D深度帶入日常照片 Leia的浸入式移動應(yīng)用將3D深度帶入日常照片 Jul 09, 2025 am 11:17 AM

基於Leia專有的神經(jīng)深度引擎,應(yīng)用程序流程靜止圖像,並添加了自然深度以及模擬運(yùn)動(例如Pans,Zooms和Alallax Effects),以創(chuàng)建簡短的視頻捲軸,從而給人以踏入SCE的印象

7種AI代理的7種類型是什麼? 7種AI代理的7種類型是什麼? Jul 11, 2025 am 11:08 AM

想像一些複雜的東西,例如AI引擎準(zhǔn)備提供有關(guān)米蘭新服裝系列的詳細(xì)反饋,或者自動市場分析用於全球運(yùn)營的企業(yè),或者智能係統(tǒng)管理大型車隊(duì)。

See all articles