Apache PDFBox 是Java 中處理PDF 文件的常用工具,支持創(chuàng)建、讀取、合併及添加水印等操作。 1. 創(chuàng)建PDF:使用PDDocument 和PDPageContentStream 添加頁面並寫入內(nèi)容;2. 讀取內(nèi)容:通過PDFTextStripper 提取文本,但無法識(shí)別掃描件;3. 合併文件:利用PDFMergerUtility 添加多個(gè)源文件並合併輸出;4. 添加水印:加載文檔後創(chuàng)建透明圖層並在指定頁面繪製水印文字或圖像。操作完成後務(wù)必關(guān)閉文檔對(duì)像以避免內(nèi)存洩漏。
處理PDF 文件在Java 中是一個(gè)常見的需求,尤其是在生成報(bào)告、操作文檔或者提取內(nèi)容時(shí)。 Apache PDFBox 是一個(gè)功能強(qiáng)大且開源的庫,可以用來創(chuàng)建、操作和提取PDF 內(nèi)容。下面是一些常見操作的實(shí)現(xiàn)方法。

創(chuàng)建一個(gè)新的PDF 文件
如果你需要從頭開始生成一個(gè)PDF,PDFBox 提供了基本的API 支持。
-
首先添加依賴(Maven 示例):
<dependency> <groupId>org.apache.pdfbox</groupId> <artifactId>pdfbox</artifactId> <version>2.0.27</version> </dependency>
創(chuàng)建並寫入內(nèi)容的基本步驟:
- 使用
PDDocument
創(chuàng)建文檔對(duì)象。 - 添加一頁並通過
PDPageContentStream
寫入文本或圖形。 - 最後記得關(guān)閉流和文檔,避免資源洩露。
示例代碼片段:

PDDocument document = new PDDocument(); PDPage page = new PDPage(); document.addPage(page); try (PDPageContentStream contentStream = new PDPageContentStream(document, page)) { contentStream.beginText(); contentStream.setFont(PDType1Font.HELVETICA_BOLD, 12); contentStream.newLineAtOffset(50, 700); contentStream.showText("Hello, PDFBox!"); contentStream.endText(); } document.save("output.pdf"); document.close();
讀取現(xiàn)有PDF 文件的內(nèi)容
提取PDF 中的文字內(nèi)容是另一個(gè)常見任務(wù),比如做關(guān)鍵詞搜索或者數(shù)據(jù)抽取。
使用PDFTextStripper
類可以輕鬆完成這個(gè)任務(wù):
PDDocument document = PDDocument.load(new File("input.pdf")); PDFTextStripper stripper = new PDFTextStripper(); String text = stripper.getText(document); System.out.println(text); document.close();
注意:有些PDF 是掃描件或者圖片形式,這類文件無法直接提取文字,需要OCR 技術(shù)輔助。
合併多個(gè)PDF 文件
有時(shí)候你需要把幾個(gè)PDF 合成一個(gè),PDFBox 的PDFMergerUtility
可以做到這一點(diǎn)。
用法大致如下:
- 創(chuàng)建
PDFMergerUtility
實(shí)例。 - 添加多個(gè)輸入源。
- 設(shè)置輸出目標(biāo)。
- 調(diào)用
mergeDocuments()
方法合併。
示例:
PDFMergerUtility merger = new PDFMergerUtility(); merger.addSource("file1.pdf"); merger.addSource("file2.pdf"); merger.setDestinationFileName("merged_output.pdf"); merger.mergeDocuments(null);
添加水印或簽名頁
給PDF 添加水印或者附加簽名頁可以通過疊加新層來實(shí)現(xiàn)。
基本思路:
- 加載原始文檔。
- 創(chuàng)建一個(gè)新的透明圖層。
- 在該圖層上繪製水印文本或圖像。
- 將圖層疊加到每一頁或指定頁面上。
這部分稍微複雜一些,涉及到PDPageContentStream
和PDImageXObject
的使用。如果只是加文字水印,可以用類似創(chuàng)建PDF 的方式,在每一頁頂部加上半透明文字即可。
基本上就這些常見操作了。 PDFBox 功能很多,但上面這幾個(gè)是最常遇到的場景。剛開始用的時(shí)候可能會(huì)覺得類名有點(diǎn)繞,不過多試幾次就熟悉了。需要注意的是,操作完記得關(guān)閉文檔對(duì)象,否則容易造成內(nèi)存洩漏。
以上是如何使用Apache PDFBox在Java中使用PDF文件?的詳細(xì)內(nèi)容。更多資訊請(qǐng)關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

熱AI工具

Undress AI Tool
免費(fèi)脫衣圖片

Undresser.AI Undress
人工智慧驅(qū)動(dòng)的應(yīng)用程序,用於創(chuàng)建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費(fèi)的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費(fèi)的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強(qiáng)大的PHP整合開發(fā)環(huán)境

Dreamweaver CS6
視覺化網(wǎng)頁開發(fā)工具

SublimeText3 Mac版
神級(jí)程式碼編輯軟體(SublimeText3)

Java支持異步編程的方式包括使用CompletableFuture、響應(yīng)式流(如ProjectReactor)以及Java19 中的虛擬線程。 1.CompletableFuture通過鍊式調(diào)用提升代碼可讀性和維護(hù)性,支持任務(wù)編排和異常處理;2.ProjectReactor提供Mono和Flux類型實(shí)現(xiàn)響應(yīng)式編程,具備背壓機(jī)制和豐富的操作符;3.虛擬線程減少並發(fā)成本,適用於I/O密集型任務(wù),與傳統(tǒng)平臺(tái)線程相比更輕量且易於擴(kuò)展。每種方式均有適用場景,應(yīng)根據(jù)需求選擇合適工具並避免混合模型以保持簡潔性

在Java中,枚舉(enum)適合表示固定常量集合,最佳實(shí)踐包括:1.用enum表示固定狀態(tài)或選項(xiàng),提升類型安全和可讀性;2.為枚舉添加屬性和方法以增強(qiáng)靈活性,如定義字段、構(gòu)造函數(shù)、輔助方法等;3.使用EnumMap和EnumSet提高性能和類型安全性,因其基於數(shù)組實(shí)現(xiàn)更高效;4.避免濫用enum,如動(dòng)態(tài)值、頻繁變更或複雜邏輯場景應(yīng)使用其他方式替代。正確使用enum能提升代碼質(zhì)量並減少錯(cuò)誤,但需注意其適用邊界。

JavaNIO是Java1.4引入的新型IOAPI,1)面向緩衝區(qū)和通道,2)包含Buffer、Channel和Selector核心組件,3)支持非阻塞模式,4)相比傳統(tǒng)IO更高效處理並發(fā)連接。其優(yōu)勢體現(xiàn)在:1)非阻塞IO減少線程開銷,2)Buffer提升數(shù)據(jù)傳輸效率,3)Selector實(shí)現(xiàn)多路復(fù)用,4)內(nèi)存映射加快文件讀寫。使用時(shí)需注意:1)Buffer的flip/clear操作易混淆,2)非阻塞下需手動(dòng)處理不完整數(shù)據(jù),3)Selector註冊(cè)需及時(shí)取消,4)NIO並非適用於所有場景。

Java的類加載機(jī)制通過ClassLoader實(shí)現(xiàn),其核心工作流程分為加載、鏈接和初始化三個(gè)階段。加載階段由ClassLoader動(dòng)態(tài)讀取類的字節(jié)碼並創(chuàng)建Class對(duì)象;鏈接包括驗(yàn)證類的正確性、為靜態(tài)變量分配內(nèi)存及解析符號(hào)引用;初始化則執(zhí)行靜態(tài)代碼塊和靜態(tài)變量賦值。類加載採用雙親委派模型,優(yōu)先委託父類加載器查找類,依次嘗試Bootstrap、Extension和ApplicationClassLoader,確保核心類庫安全且避免重複加載。開發(fā)者可自定義ClassLoader,如URLClassL

Java異常處理的關(guān)鍵在於區(qū)分checked和unchecked異常並合理使用try-catch、finally及日誌記錄。 1.checked異常如IOException需強(qiáng)制處理,適用於可預(yù)期的外部問題;2.unchecked異常如NullPointerException通常由程序邏輯錯(cuò)誤引起,屬於運(yùn)行時(shí)錯(cuò)誤;3.捕獲異常時(shí)應(yīng)具體明確,避免籠統(tǒng)捕獲Exception;4.推薦使用try-with-resources自動(dòng)關(guān)閉資源,減少手動(dòng)清理代碼;5.異常處理中應(yīng)結(jié)合日誌框架記錄詳細(xì)信息,便於後

HashMap在Java中通過哈希表實(shí)現(xiàn)鍵值對(duì)存儲(chǔ),其核心在於快速定位數(shù)據(jù)位置。 1.首先使用鍵的hashCode()方法生成哈希值,並通過位運(yùn)算轉(zhuǎn)換為數(shù)組索引;2.不同對(duì)象可能產(chǎn)生相同哈希值,導(dǎo)致衝突,此時(shí)以鍊錶形式掛載節(jié)點(diǎn),JDK8後鍊錶過長(默認(rèn)長度8)則轉(zhuǎn)為紅黑樹提升效率;3.使用自定義類作鍵時(shí)必須重寫equals()和hashCode()方法;4.HashMap動(dòng)態(tài)擴(kuò)容,當(dāng)元素?cái)?shù)超過容量乘以負(fù)載因子(默認(rèn)0.75)時(shí),擴(kuò)容並重新哈希;5.HashMap非線程安全,多線程下應(yīng)使用Concu

多態(tài)是Java面向?qū)ο缶幊痰暮诵奶匦灾唬浜诵脑陟丁耙粋€(gè)接口,多種實(shí)現(xiàn)”,它通過繼承、方法重寫和向上轉(zhuǎn)型實(shí)現(xiàn)統(tǒng)一接口處理不同對(duì)象的行為。 1.多態(tài)允許父類引用指向子類對(duì)象,運(yùn)行時(shí)根據(jù)實(shí)際對(duì)象調(diào)用對(duì)應(yīng)方法;2.實(shí)現(xiàn)需滿足繼承關(guān)係、方法重寫和向上轉(zhuǎn)型三個(gè)條件;3.常用於統(tǒng)一處理不同子類對(duì)象、集合存儲(chǔ)及框架設(shè)計(jì)中;4.使用時(shí)只能調(diào)用父類定義的方法,子類新增方法需向下轉(zhuǎn)型訪問,並註意類型安全。

Java枚舉不僅表示常量,還可封裝行為、攜帶數(shù)據(jù)、實(shí)現(xiàn)接口。 1.枚舉是類,用於定義固定實(shí)例,如星期、狀態(tài),比字符串或整數(shù)更安全;2.可攜帶數(shù)據(jù)和方法,如通過構(gòu)造函數(shù)傳值並提供訪問方法;3.可使用switch處理不同邏輯,結(jié)構(gòu)清晰;4.可實(shí)現(xiàn)接口或抽象方法,使不同枚舉值具有差異化行為;5.注意避免濫用、硬編碼比較、依賴ordinal值,合理命名與序列化。
