使用 OCR 數(shù)位化財務(wù)報告時,您可能會遇到各種方法來偵測這些報告中的特定類別。例如,像 Levenshtein 演算法這樣的傳統(tǒng)方法可以用於基於編輯距離的字串匹配,使其能夠有效地處理近似匹配,例如修正拼字錯誤或文字中的微小變化。
但是,當(dāng)您需要在報告的一行中檢測多個類別時,尤其是當(dāng)這些類別可能不完全按照預(yù)期顯示或可能在語義上重疊時,挑戰(zhàn)會變得更加複雜。
在這篇文章中,我們分析了使用 Facebook 的 LASER(與語言無關(guān)的 SEntence Representations)嵌入的語義匹配方法,展示了它如何有效地處理此任務(wù)。
問題
目標(biāo)是識別給定文字行中的特定財務(wù)術(shù)語(類別)。假設(shè)我們有一組固定的預(yù)定義類別,代表所有可能感興趣的術(shù)語,例如:
[「收入」、「營業(yè)費用」、「營業(yè)利潤」、「折舊」、「利息」、「淨(jìng)利」、「稅金」、「稅後利潤」、「指標(biāo) 1」]
給定一個輸入行,例如:
「營業(yè)利潤、淨(jìng)利和稅後利潤」
我們的目標(biāo)是偵測此行中出現(xiàn)哪些識別符。
雷射語義匹配
我們不依賴精確或模糊的文本匹配,而是使用語義相似性。這種方法利用雷射嵌入來捕捉文字的語義,並使用餘弦相似度進(jìn)行比較。
執(zhí)行
預(yù)處理文字
在嵌入之前,透過將文字轉(zhuǎn)換為小寫並刪除多餘的空格來對文字進(jìn)行預(yù)處理。這確保了一致性。
def preprocess(text): return text.lower().strip()
嵌入識別符和輸入線
雷射編碼器為標(biāo)識符清單和輸入/OCR 行產(chǎn)生標(biāo)準(zhǔn)化嵌入。
identifier_embeddings = encoder.encode_sentences(identifiers, normalize_embeddings=True) ocr_line_embedding = encoder.encode_sentences([ocr_line], normalize_embeddings=True)[0]
以特異性對識別符進(jìn)行排名
較長的標(biāo)識符會根據(jù)字?jǐn)?shù)進(jìn)行排序。這有助於處理嵌套匹配,其中較長的標(biāo)識符可能包含較短的標(biāo)識符(例如,“稅後利潤”包含“利潤”)。
ranked_identifiers = sorted(identifiers, key=lambda x: len(x.split()), reverse=True) ranked_embeddings = encoder.encode_sentences(ranked_identifiers, normalize_embeddings=True)
計算相似度
使用餘弦相似度,我們測量每個標(biāo)識符與輸入行在語意上的相似程度。相似度高於指定閾值的標(biāo)識符被視為匹配。
matches = [] threshold = 0.6 for idx, identifier_embedding in enumerate(ranked_embeddings): similarity = cosine_similarity([identifier_embedding], [ocr_line_embedding])[0][0] if similarity >= threshold: matches.append((ranked_identifiers[idx], similarity))
解析嵌套匹配
為了處理重疊的標(biāo)識符,會優(yōu)先考慮較長的匹配,確保排除其中較短的匹配。
def preprocess(text): return text.lower().strip()
結(jié)果
執(zhí)行程式碼時,輸出會提供偵測到的匹配項及其相似度分?jǐn)?shù)的清單。對於範(fàn)例輸入:
identifier_embeddings = encoder.encode_sentences(identifiers, normalize_embeddings=True) ocr_line_embedding = encoder.encode_sentences([ocr_line], normalize_embeddings=True)[0]
較長且複雜的輸入的注意事項
此方法適用於單行包含多個類別的結(jié)構(gòu)化財務(wù)報告,前提是沒有太多類別或太多不相關(guān)的文字。然而,隨著較長、複雜的輸入或非結(jié)構(gòu)化的使用者生成的文字的出現(xiàn),準(zhǔn)確性可能會降低,因為嵌入可能很難專注於相關(guān)類別。對於嘈雜或不可預(yù)測的輸入,它的可靠性較差。
結(jié)論
這篇文章示範(fàn)了雷射嵌入如何成為檢測文本中多個類別的有用工具。這是最好的選擇嗎?也許不是,但這肯定是值得考慮的選項之一,尤其是在處理傳統(tǒng)匹配技術(shù)可能無法滿足的複雜場景時。
完整程式碼
ranked_identifiers = sorted(identifiers, key=lambda x: len(x.split()), reverse=True) ranked_embeddings = encoder.encode_sentences(ranked_identifiers, normalize_embeddings=True)
以上是在 Python 中使用 LASER 嵌入進(jìn)行文字標(biāo)識符的語意匹配的詳細(xì)內(nèi)容。更多資訊請關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

熱AI工具

Undress AI Tool
免費脫衣圖片

Undresser.AI Undress
人工智慧驅(qū)動的應(yīng)用程序,用於創(chuàng)建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發(fā)環(huán)境

Dreamweaver CS6
視覺化網(wǎng)頁開發(fā)工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

多態(tài)是Python面向?qū)ο缶幊讨械暮诵母拍睿浮耙环N接口,多種實現(xiàn)”,允許統(tǒng)一處理不同類型的對象。 1.多態(tài)通過方法重寫實現(xiàn),子類可重新定義父類方法,如Animal類的speak()方法在Dog和Cat子類中有不同實現(xiàn)。 2.多態(tài)的實際用途包括簡化代碼結(jié)構(gòu)、增強可擴展性,例如圖形繪製程序中統(tǒng)一調(diào)用draw()方法,或遊戲開發(fā)中處理不同角色的共同行為。 3.Python實現(xiàn)多態(tài)需滿足:父類定義方法,子類重寫該方法,但不要求繼承同一父類,只要對象實現(xiàn)相同方法即可,這稱為“鴨子類型”。 4.注意事項包括保持方

參數(shù)(parameters)是定義函數(shù)時的佔位符,而傳參(arguments)是調(diào)用時傳入的具體值。 1.位置參數(shù)需按順序傳遞,順序錯誤會導(dǎo)致結(jié)果錯誤;2.關(guān)鍵字參數(shù)通過參數(shù)名指定,可改變順序且提高可讀性;3.默認(rèn)參數(shù)值在定義時賦值,避免重複代碼,但應(yīng)避免使用可變對像作為默認(rèn)值;4.args和*kwargs可處理不定數(shù)量的參數(shù),適用於通用接口或裝飾器,但應(yīng)謹(jǐn)慎使用以保持可讀性。

迭代器是實現(xiàn)__iter__()和__next__()方法的對象,生成器是簡化版的迭代器,通過yield關(guān)鍵字自動實現(xiàn)這些方法。 1.迭代器每次調(diào)用next()返回一個元素,無更多元素時拋出StopIteration異常。 2.生成器通過函數(shù)定義,使用yield按需生成數(shù)據(jù),節(jié)省內(nèi)存且支持無限序列。 3.處理已有集合時用迭代器,動態(tài)生成大數(shù)據(jù)或需惰性求值時用生成器,如讀取大文件時逐行加載。注意:列表等可迭代對像不是迭代器,迭代器到盡頭後需重新創(chuàng)建,生成器只能遍歷一次。

類方法是Python中通過@classmethod裝飾器定義的方法,其第一個參數(shù)為類本身(cls),用於訪問或修改類狀態(tài)。它可通過類或?qū)嵗{(diào)用,影響的是整個類而非特定實例;例如在Person類中,show_count()方法統(tǒng)計創(chuàng)建的對像數(shù)量;定義類方法時需使用@classmethod裝飾器並將首參命名為cls,如change_var(new_value)方法可修改類變量;類方法與實例方法(self參數(shù))、靜態(tài)方法(無自動參數(shù))不同,適用於工廠方法、替代構(gòu)造函數(shù)及管理類變量等場景;常見用途包括從

處理API認(rèn)證的關(guān)鍵在於理解並正確使用認(rèn)證方式。 1.APIKey是最簡單的認(rèn)證方式,通常放在請求頭或URL參數(shù)中;2.BasicAuth使用用戶名和密碼進(jìn)行Base64編碼傳輸,適合內(nèi)部系統(tǒng);3.OAuth2需先通過client_id和client_secret獲取Token,再在請求頭中帶上BearerToken;4.為應(yīng)對Token過期,可封裝Token管理類自動刷新Token;總之,根據(jù)文檔選擇合適方式,並安全存儲密鑰信息是關(guān)鍵。

Python的magicmethods(或稱dunder方法)是用於定義對象行為的特殊方法,它們以雙下劃線開頭和結(jié)尾。 1.它們使對象能夠響應(yīng)內(nèi)置操作,如加法、比較、字符串表示等;2.常見用例包括對像初始化與表示(__init__、__repr__、__str__)、算術(shù)運算(__add__、__sub__、__mul__)及比較運算(__eq__、__lt__);3.使用時應(yīng)確保其行為符合預(yù)期,例如__repr__應(yīng)返回可重構(gòu)對象的表達(dá)式,算術(shù)方法應(yīng)返回新實例;4.應(yīng)避免過度使用或以令人困惑的方

Pythonmanagesmemoryautomaticallyusingreferencecountingandagarbagecollector.Referencecountingtrackshowmanyvariablesrefertoanobject,andwhenthecountreacheszero,thememoryisfreed.However,itcannothandlecircularreferences,wheretwoobjectsrefertoeachotherbuta

@property是Python中用於將方法偽裝成屬性的裝飾器,允許在訪問屬性時執(zhí)行邏輯判斷或動態(tài)計算值。 1.它通過@property裝飾器定義getter方法,使外部像訪問屬性一樣調(diào)用方法;2.搭配.setter可控制賦值行為,如校驗值合法性,不定義.setter則為只讀屬性;3.適用於屬性賦值校驗、動態(tài)生成屬性值、隱藏內(nèi)部實現(xiàn)細(xì)節(jié)等場景;4.使用時注意屬性名與私有變量名不同名,避免死循環(huán),適合輕量級操作;5.示例中Circle類限制radius非負(fù),Person類動態(tài)生成full_name屬
