亚洲国产日韩欧美一区二区三区,精品亚洲国产成人av在线,国产99视频精品免视看7,99国产精品久久久久久久成人热,欧美日韩亚洲国产综合乱

首頁(yè) 科技周邊 人工智能 Trocr和Zhen乳膠OCR

Trocr和Zhen乳膠OCR

Apr 14, 2025 am 09:59 AM

探索圖像到文本模型的力量:Trocr和Zhen乳膠OCR

AI的世界充滿(mǎn)了語(yǔ)言模型及其在虛擬協(xié)助和內(nèi)容創(chuàng)建中的應(yīng)用。但是,由光學(xué)特征識(shí)別(OCR)提供支持的圖像到文本轉(zhuǎn)換領(lǐng)域提供了令人興奮的可能性。本文深入研究了兩種強(qiáng)大的圖像到文本模型:Trocr和Zhen乳膠OCR,突出了它們的獨(dú)特優(yōu)勢(shì)和應(yīng)用。

學(xué)習(xí)目標(biāo):

  • 了解Trocr和Zhen乳膠OCR的最佳用例。
  • 洞悉其基本架構(gòu)。
  • 對(duì)這些模型進(jìn)行推斷并探索實(shí)際應(yīng)用。
  • 識(shí)別這些強(qiáng)大工具的現(xiàn)實(shí)用途。

(本文是數(shù)據(jù)科學(xué)博客馬拉松的一部分。)

目錄:

  • Trocr:圖像到文本的編碼器模型
  • 特羅克建筑
  • 引入Zhen乳膠OCR
  • Trocr vs. Zhen Latex OCR:比較
  • 使用TROCR:逐步指南
  • 利用Zhen乳膠OCR進(jìn)行數(shù)學(xué)和乳膠圖像識(shí)別
  • 未來(lái)的改進(jìn)和增強(qiáng)
  • OCR的真實(shí)應(yīng)用
  • 常見(jiàn)問(wèn)題

Trocr:圖像到文本的編碼器模型

TROR(基于傳統(tǒng)的光學(xué)特征識(shí)別)是一種編碼器模型,利用序列到序列機(jī)制進(jìn)行圖像到文本轉(zhuǎn)換。它具有圖像變壓器(編碼器)和文本變壓器(解碼器)。 Trocr模型通常在綜合生成的印刷文本圖像的廣泛數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,然后在IAM手寫(xiě)文本和SROIE印刷收據(jù)等數(shù)據(jù)集上進(jìn)行微調(diào),從而產(chǎn)生了Trocr-Small-Sroie,Trocr-Base-Base-Sroie和Trocr-Large-Large-Large-Sroie等變體。

Trocr和Zhen乳膠OCR

特羅克建筑

與依靠CNN和RNNS的傳統(tǒng)OCR模型不同,TROCR采用了遠(yuǎn)見(jiàn)和語(yǔ)言變壓器體系結(jié)構(gòu)。編碼器處理圖像,將其分為貼片,并使用多頭注意力和饋送前方塊生成圖像嵌入。然后,解碼器處理這些嵌入以產(chǎn)生編碼的文本輸出,最終將其解碼為可讀文本。圖像已預(yù)處理到固定尺寸的補(bǔ)丁(例如,16x16)。

引入Zhen乳膠OCR

Zhen Latex OCR是Mixtex的開(kāi)源模型,是另一個(gè)功能強(qiáng)大的編碼器模型模型,專(zhuān)門(mén)將數(shù)學(xué)公式的圖像和文本轉(zhuǎn)換為乳膠代碼。它準(zhǔn)確地識(shí)別復(fù)雜的乳膠數(shù)學(xué)公式,表,甚至在單個(gè)圖像中的單詞,文本,公式和表之間的區(qū)分。它為英語(yǔ)和中文提供雙語(yǔ)支持。

Trocr和Zhen乳膠OCR

Trocr vs. Zhen Latex OCR:比較

Trocr在處理單線(xiàn)文本圖像方面表現(xiàn)出色,提供了比其他OCR模型的速度優(yōu)勢(shì)。但是,Zhen乳膠OCR閃耀著其處理數(shù)學(xué)公式和乳膠代碼的能力,為研究人員和學(xué)者提供了寶貴的工具。盡管存在用于乳膠輸入的其他工具,但Zhen latex OCR提供了方便有效的替代方案。

使用TROCR:逐步指南

我們將使用SROIE數(shù)據(jù)集進(jìn)行微調(diào)的Trocr模型演示。

步驟1:導(dǎo)入庫(kù)

從變形金剛導(dǎo)入trocrprocessor,VisionencoderDecodermodel
從PIL導(dǎo)入圖像
導(dǎo)入請(qǐng)求

步驟2:加載圖像

url ='https://fki.tic.tic.heia-fr.ch/static/img/a01-122-02-00.jpg'
image = image.open(requests.get(url,stream = true).raw).convert(“ rgb”)

步驟3:初始化TROR模型

processor = trocrprocessor.from_pretrataining('Microsoft/Trocr-Base印刷')
模型= visionencoderdecodermodel.from_pretrated('Microsoft/Trocr-Base印刷')
pixel_values =處理器(images = image,return_tensors =“ pt”)。pixel_values

步驟4:文字一代

generated_ids = model.generate(pixel_values)
generated_text = processor.batch_decode(generated_ids,skip_special_tokens = true)[0]
print(generated_text.lower())#在小寫(xiě)中輸出

Trocr和Zhen乳膠OCRTrocr和Zhen乳膠OCR

利用Zhen乳膠OCR進(jìn)行數(shù)學(xué)和乳膠圖像識(shí)別

這是使用Zhen乳膠OCR的簡(jiǎn)短示例:

步驟1:導(dǎo)入庫(kù)

從變形金剛導(dǎo)入自動(dòng)源,VisionencoderDecodermodel,AutoImageProcessor
從PIL導(dǎo)入圖像
導(dǎo)入請(qǐng)求

feature_extractor = autoimageProcessor.from_pretrataining(“ mixtex/zhen-latex-ocr”)
tokenizer = autotokenizer.from_pretrataining(“ mixtex/zhen-latex-ocr”,max_len = 296)
型號(hào)= VisionencoderDecodermodel.from_pretrated(“ mixtex/zhen-latex-orock”)

步驟2:處理和生成乳膠

imgen = image.open(requests.get('https://cdn-uploads.huggingface.co/production/uploads/62DBAADE36292040577D2D4F/EOOAYM7FZDSJIC_8PTSC-h.png',stream = truh)。
latex_output = tokenizer.decode(model.generate(feature_extractor(imgen,return_tensors =“ pt”)。pixel_values)。pixel_values)[0])。
打?。╨atex_output) 

Trocr和Zhen乳膠OCRTrocr和Zhen乳膠OCR

未來(lái)的改進(jìn)和增強(qiáng)

兩種型號(hào)都有改進(jìn)的空間。 Trocr可以從增強(qiáng)的曲線(xiàn)文本和自然場(chǎng)景中的圖像中受益。 Zhen Latex OCR可以擴(kuò)展以支持手寫(xiě)數(shù)學(xué)公式和更復(fù)雜的表。

OCR的真實(shí)應(yīng)用

OCR模型在各個(gè)領(lǐng)域找到廣泛的應(yīng)用程序:

  • 財(cái)務(wù):從財(cái)務(wù)文件中提取數(shù)據(jù)。
  • 醫(yī)療保健:數(shù)字化患者記錄和處方。
  • 政府:簡(jiǎn)化文件處理和記錄保存。

結(jié)論

Trocr和Zhen乳膠OCR代表了圖像到文本技術(shù)的重大進(jìn)步。通過(guò)了解它們的優(yōu)勢(shì)和局限性,我們可以利用這些強(qiáng)大的工具來(lái)解決眾多行業(yè)的現(xiàn)實(shí)世界問(wèn)題。

關(guān)鍵要點(diǎn):

  • Trocr在單線(xiàn)文本識(shí)別方面表現(xiàn)出色。
  • Zhen乳膠OCR專(zhuān)門(mén)研究數(shù)學(xué)公式和乳膠代碼。
  • 基于特定需求的模型選擇對(duì)于最佳結(jié)果至關(guān)重要。

常見(jiàn)問(wèn)題

Q1:Trocr和Zhen乳膠OCR之間的主要區(qū)別是什么? Trocr專(zhuān)注于一般文本提取,而Zhen latex OCR專(zhuān)門(mén)研究數(shù)學(xué)公式和乳膠。

Q2:我什么時(shí)候應(yīng)該使用Zhen乳膠OCR代替Trocr?處理數(shù)學(xué)方程式或乳膠代碼時(shí),請(qǐng)使用Zhen乳膠OCR;否則,特羅克是合適的。

Q3:Zhen乳膠OCR可以處理手寫(xiě)方程嗎?目前,不,但是未來(lái)的改進(jìn)可能會(huì)解決這一問(wèn)題。

問(wèn)題4:哪些行業(yè)從OCR中受益最大?金融,醫(yī)療保健和政府是主要受益者。

(注意:本文中使用的圖像不由作者所有,并且經(jīng)過(guò)許可。)

以上是Trocr和Zhen乳膠OCR的詳細(xì)內(nèi)容。更多信息請(qǐng)關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本站聲明
本文內(nèi)容由網(wǎng)友自發(fā)貢獻(xiàn),版權(quán)歸原作者所有,本站不承擔(dān)相應(yīng)法律責(zé)任。如您發(fā)現(xiàn)有涉嫌抄襲侵權(quán)的內(nèi)容,請(qǐng)聯(lián)系admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費(fèi)脫衣服圖片

Undresser.AI Undress

Undresser.AI Undress

人工智能驅(qū)動(dòng)的應(yīng)用程序,用于創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用于從照片中去除衣服的在線(xiàn)人工智能工具。

Clothoff.io

Clothoff.io

AI脫衣機(jī)

Video Face Swap

Video Face Swap

使用我們完全免費(fèi)的人工智能換臉工具輕松在任何視頻中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費(fèi)的代碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

功能強(qiáng)大的PHP集成開(kāi)發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺(jué)化網(wǎng)頁(yè)開(kāi)發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級(jí)代碼編輯軟件(SublimeText3)

熱門(mén)話(huà)題

Laravel 教程
1597
29
PHP教程
1488
72
Kimi K2:最強(qiáng)大的開(kāi)源代理模型 Kimi K2:最強(qiáng)大的開(kāi)源代理模型 Jul 12, 2025 am 09:16 AM

還記得今年早些時(shí)候破壞了Genai行業(yè)的大量開(kāi)源中國(guó)模型嗎?盡管DeepSeek占據(jù)了大多數(shù)頭條新聞,但Kimi K1.5是列表中的重要名字之一。模型很酷。

Grok 4 vs Claude 4:哪個(gè)更好? Grok 4 vs Claude 4:哪個(gè)更好? Jul 12, 2025 am 09:37 AM

到2025年中期,AI“軍備競(jìng)賽”正在加熱,XAI和Anthropic都發(fā)布了他們的旗艦車(chē)型Grok 4和Claude 4。這兩種模型處于設(shè)計(jì)理念和部署平臺(tái)的相反端,但他們卻在

今天已經(jīng)在我們中間走了10個(gè)驚人的人形機(jī)器人 今天已經(jīng)在我們中間走了10個(gè)驚人的人形機(jī)器人 Jul 16, 2025 am 11:12 AM

但是我們可能甚至不必等10年就可以看到一個(gè)。實(shí)際上,可以被認(rèn)為是真正有用的,類(lèi)人類(lèi)機(jī)器的第一波。 近年來(lái),有許多原型和生產(chǎn)模型從T中走出來(lái)

上下文工程是' new'及時(shí)的工程 上下文工程是' new'及時(shí)的工程 Jul 12, 2025 am 09:33 AM

直到上一年,迅速的工程被認(rèn)為是與大語(yǔ)言模型(LLM)互動(dòng)的關(guān)鍵技能。然而,最近,LLM在推理和理解能力方面已經(jīng)顯著提高。自然,我們的期望

6個(gè)任務(wù)Manus AI可以在幾分鐘內(nèi)完成 6個(gè)任務(wù)Manus AI可以在幾分鐘內(nèi)完成 Jul 06, 2025 am 09:29 AM

我相信您必須了解通用的AI代理Manus。它是幾個(gè)月前推出的,在過(guò)去的幾個(gè)月中,他們?yōu)橄到y(tǒng)添加了幾個(gè)新功能?,F(xiàn)在,您可以生成視頻,創(chuàng)建網(wǎng)站并做很多MO

建立Langchain健身教練:您的AI私人教練 建立Langchain健身教練:您的AI私人教練 Jul 05, 2025 am 09:06 AM

許多人充滿(mǎn)熱情地打入健身房,并相信自己正在正確實(shí)現(xiàn)自己的健身目標(biāo)。但是由于飲食計(jì)劃差和缺乏方向,結(jié)果不存在。雇用私人教練AL

Leia的浸入式移動(dòng)應(yīng)用將3D深度帶入日常照片 Leia的浸入式移動(dòng)應(yīng)用將3D深度帶入日常照片 Jul 09, 2025 am 11:17 AM

基于Leia專(zhuān)有的神經(jīng)深度引擎,應(yīng)用程序流程靜止圖像,并添加了自然深度以及模擬運(yùn)動(dòng)(例如Pans,Zooms和Alallax Effects),以創(chuàng)建簡(jiǎn)短的視頻卷軸,從而給人以踏入SCE的印象

這些AI模型沒(méi)有學(xué)習(xí)語(yǔ)言,他們學(xué)習(xí)了策略 這些AI模型沒(méi)有學(xué)習(xí)語(yǔ)言,他們學(xué)習(xí)了策略 Jul 09, 2025 am 11:16 AM

倫敦國(guó)王學(xué)院和牛津大學(xué)的研究人員的一項(xiàng)新研究分享了Openai,Google和Anthropic在基于迭代囚犯的困境基于的cutthroat競(jìng)爭(zhēng)中一起投擲的結(jié)果。這是沒(méi)有的

See all articles