


Bagaimana untuk Mengekstrak Teks dengan Pemformatan daripada PDF Menggunakan iTextSharp?
Jan 11, 2025 am 10:46 AMEkstrak teks berformat menggunakan iTextSharp
Pengenalan:
iTextSharp ialah perpustakaan yang berkuasa untuk memanipulasi dan menjana dokumen PDF, tetapi kadangkala sukar untuk mengekstrak teks dengan format yang dikehendaki. Artikel ini menyediakan kaedah untuk mengekstrak maklumat teks dan pemformatan daripada PDF menggunakan iTextSharp.
Strategi pengekstrakan tersuai:
Untuk mengekstrak teks berformat, anda boleh membuat pelaksanaan ITextExtractionStrategy tersuai. Dasar ini mentakrifkan cara maklumat pemaparan teks dikendalikan.
Coretan kod:
Kod berikut mentakrifkan strategi tersuai yang menjejaki perubahan dalam garis dasar, nama fon dan saiz fon serta menjana HTML dengan gaya yang sesuai:
<code>public class TextWithFontExtractionStategy : iTextSharp.text.pdf.parser.ITextExtractionStrategy { // ... (此處省略) public void RenderText(iTextSharp.text.pdf.parser.TextRenderInfo renderInfo) { // 確定字體屬性 string curFont = renderInfo.GetFont().PostscriptFontName; if (renderInfo.GetTextRenderMode() == (int)TextRenderMode.FillThenStrokeText) { curFont += "-Bold"; } // 檢查基線、字體或字體大小的變化 Vector curBaseline = renderInfo.GetBaseline().GetStartPoint(); Single curFontSize = renderInfo.GetAscentLine().GetEndPoint()[Vector.I2] - curBaseline[Vector.I2]; if ((this.lastBaseLine == null) || (curBaseline[Vector.I2] != lastBaseLine[Vector.I2]) || (curFontSize != lastFontSize) || (curFont != lastFont)) { // 生成帶有更新樣式的HTML span result.AppendFormat("</code>
Penggunaan:
Untuk menggunakan strategi tersuai, anda boleh menentukannya semasa mengekstrak teks:
<code>PdfReader reader = new PdfReader("MyDocument.pdf"); TextWithFontExtractionStategy strategy = new TextWithFontExtractionStategy(); string textWithFormatting = PdfTextExtractor.GetTextFromPage(reader, 1, strategy);</code>
Output:
PembolehubahtextWithFormatting akan mengandungi teks yang diekstrak dengan teg HTML yang mencerminkan maklumat pemformatan, termasuk fon dan saiz fon.
Kesimpulan:
Strategi pengekstrakan tersuai ini membolehkan anda mengekstrak teks PDF dengan format yang diingini. Ini ialah alat berkuasa yang boleh digunakan untuk menghasilkan semula teks dan gaya dengan tepat dalam dokumen PDF.
Atas ialah kandungan terperinci Bagaimana untuk Mengekstrak Teks dengan Pemformatan daripada PDF Menggunakan iTextSharp?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undress AI Tool
Gambar buka pakaian secara percuma

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Clothoff.io
Penyingkiran pakaian AI

Video Face Swap
Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

STD :: Chrono digunakan dalam C untuk memproses masa, termasuk mendapatkan masa semasa, mengukur masa pelaksanaan, titik masa operasi dan tempoh, dan masa analisis pemformatan. 1. Gunakan std :: chrono :: system_clock :: sekarang () untuk mendapatkan masa semasa, yang boleh ditukar menjadi rentetan yang boleh dibaca, tetapi jam sistem mungkin tidak membosankan; 2. Gunakan std :: chrono :: steady_clock untuk mengukur masa pelaksanaan untuk memastikan monoton, dan mengubahnya menjadi milisaat, saat dan unit lain melalui duration_cast; 3. Titik masa (time_point) dan tempoh (tempoh) boleh saling beroperasi, tetapi perhatian harus dibayar kepada keserasian unit dan zaman jam (Epoch)

Volatile memberitahu pengkompil bahawa nilai pembolehubah boleh berubah pada bila -bila masa, menghalang pengkompil daripada mengoptimumkan akses. 1. Digunakan untuk daftar perkakasan, pengendali isyarat, atau pembolehubah yang dikongsi antara benang (tetapi moden C mengesyorkan STD :: atom). 2. Setiap akses dibaca secara langsung dan tulis memori dan bukannya cache kepada daftar. 3. Ia tidak memberikan keselamatan atom atau benang, dan hanya memastikan bahawa pengkompil tidak mengoptimumkan bacaan dan menulis. 4. 5. Ia tidak boleh menggantikan operasi mutexes atau atom, dan penggunaan yang berlebihan akan menjejaskan prestasi.

Terdapat terutamanya kaedah berikut untuk mendapatkan jejak timbunan dalam C: 1. Gunakan fungsi backtrace dan backtrace_symbols pada platform Linux. Dengan memasukkan maklumat simbol panggilan dan percetakan, parameter -rdynamic perlu ditambah semasa menyusun; 2. Gunakan fungsi CaptureStackBackTrace pada platform Windows, dan anda perlu menghubungkan dbghelp.lib dan bergantung pada fail PDB untuk menghuraikan nama fungsi; 3. Gunakan perpustakaan pihak ketiga seperti GoogleBreakPad atau Boost.StackTrace untuk merentas platform dan memudahkan operasi menangkap stack; 4. Dalam Pengendalian Pengecualian, menggabungkan kaedah di atas untuk mengeluarkan maklumat timbunan secara automatik di blok tangkapan

Dalam C, jenis POD (Plainolddata) merujuk kepada jenis dengan struktur mudah dan serasi dengan pemprosesan data bahasa C. Ia perlu memenuhi dua syarat: ia mempunyai semantik salinan biasa, yang boleh disalin oleh memcpy; Ia mempunyai susun atur standard dan struktur memori boleh diramal. Keperluan khusus termasuk: Semua ahli bukan statik adalah awam, tiada pembina atau pemusnah yang ditentukan oleh pengguna, tiada fungsi maya atau kelas asas, dan semua ahli yang tidak statik sendiri adalah pod. Contohnya structpoint {intx; inty;} adalah pod. Kegunaannya termasuk I/O binari, Ceroperabilitas C, Pengoptimuman Prestasi, dan lain -lain. Anda boleh menyemak sama ada jenisnya adalah pod melalui std :: is_pod, tetapi disyorkan untuk menggunakan std :: is_trivia selepas c 11.

Untuk memanggil kod Python di C, anda mesti terlebih dahulu memulakan penterjemah, dan kemudian anda boleh mencapai interaksi dengan melaksanakan rentetan, fail, atau memanggil fungsi tertentu. 1. Inisialisasi penterjemah dengan py_initialize () dan tutupnya dengan py_finalize (); 2. Jalankan kod rentetan atau pyrun_simplefile dengan pyrun_simplefile; 3. Modul import melalui pyimport_importmodule, dapatkan fungsi melalui pyobject_getattrstring, bina parameter py_buildvalue, panggil fungsi dan proses kembali

FunctionHidingInC yang berlaku slswhenaderivedclassdefinesafunctionwiththesamenamameasabaseclassfunction, makethebaseversioninaccessiblethroughthederivedclass.thishappenswhenthenthebasefunctionis'tvirtualorsignaturesdon'tmatchforoverriding, andnousingdechlorover

Di C, terdapat tiga cara utama untuk lulus fungsi sebagai parameter: menggunakan penunjuk fungsi, std :: fungsi dan ekspresi lambda, dan generik templat. 1. Penunjuk fungsi adalah kaedah yang paling asas, sesuai untuk senario mudah atau antara muka C yang serasi, tetapi kebolehbacaan yang lemah; 2. STD :: Fungsi yang digabungkan dengan ekspresi lambda adalah kaedah yang disyorkan dalam moden C, menyokong pelbagai objek yang boleh dipanggil dan jenis selamat; 3. Kaedah generik templat adalah yang paling fleksibel, sesuai untuk kod perpustakaan atau logik umum, tetapi boleh meningkatkan masa penyusunan dan jumlah kod. Lambdas yang menangkap konteks mesti diluluskan melalui fungsi STD :: atau templat dan tidak boleh ditukar terus ke dalam penunjuk fungsi.

Anullpointerinc isaspecialvalueindicatingthatapointerdoesnotpointoanyanyvalidmemorylocation, anditisusedtosafelymanageandcheckpointersbeforedereferencing.1.beforec 11,0ornullwasused,
