


Comment extraire du texte avec formatage à partir de PDF à l'aide d'iTextSharp??
Jan 11, 2025 am 10:46 AMExtraire le texte formaté à l'aide d'iTextSharp
Introduction?:
iTextSharp est une bibliothèque puissante pour manipuler et générer des documents PDF, mais il est parfois difficile d'extraire du texte au format souhaité. Cet article fournit une méthode pour extraire le texte et les informations de formatage d'un PDF à l'aide d'iTextSharp.
Stratégie d'extraction personnalisée?:
Pour extraire du texte formaté, vous pouvez créer une implémentation ITextExtractionStrategy personnalisée. Cette stratégie définit la fa?on dont les informations de rendu du texte sont traitées.
Extrait de code?:
Le code suivant définit une stratégie personnalisée qui suit les modifications de la ligne de base, du nom de la police et de la taille de la police et génère du HTML avec le style approprié?:
<code>public class TextWithFontExtractionStategy : iTextSharp.text.pdf.parser.ITextExtractionStrategy { // ... (此處省略) public void RenderText(iTextSharp.text.pdf.parser.TextRenderInfo renderInfo) { // 確定字體屬性 string curFont = renderInfo.GetFont().PostscriptFontName; if (renderInfo.GetTextRenderMode() == (int)TextRenderMode.FillThenStrokeText) { curFont += "-Bold"; } // 檢查基線、字體或字體大小的變化 Vector curBaseline = renderInfo.GetBaseline().GetStartPoint(); Single curFontSize = renderInfo.GetAscentLine().GetEndPoint()[Vector.I2] - curBaseline[Vector.I2]; if ((this.lastBaseLine == null) || (curBaseline[Vector.I2] != lastBaseLine[Vector.I2]) || (curFontSize != lastFontSize) || (curFont != lastFont)) { // 生成帶有更新樣式的HTML span result.AppendFormat("</code>
Utilisation?:
Pour utiliser une stratégie personnalisée, vous pouvez la spécifier lors de l'extraction du texte?:
<code>PdfReader reader = new PdfReader("MyDocument.pdf"); TextWithFontExtractionStategy strategy = new TextWithFontExtractionStategy(); string textWithFormatting = PdfTextExtractor.GetTextFromPage(reader, 1, strategy);</code>
Sortie?:
La variabletextWithFormatting contiendra le texte extrait avec des balises HTML reflétant les informations de formatage, y compris la police et la taille de la police.
Conclusion?:
Cette stratégie d'extraction personnalisée vous permet d'extraire du texte PDF au format souhaité. Il s'agit d'un outil puissant qui peut être utilisé pour reproduire avec précision le texte et les styles dans les documents PDF.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undress AI Tool
Images de déshabillage gratuites

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
échangez les visages dans n'importe quelle vidéo sans effort grace à notre outil d'échange de visage AI entièrement gratuit?!

Article chaud

Outils chauds

Bloc-notes++7.3.1
éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

STD :: Chrono est utilisé en C pour traiter le temps, y compris l'obtention de l'heure actuelle, la mesure du temps d'exécution, le point de fonctionnement et la durée de l'opération et le temps d'analyse de formatage. 1. Utilisez STD :: Chrono :: System_clock :: Now () pour obtenir l'heure actuelle, qui peut être convertie en une cha?ne lisible, mais l'horloge système peut ne pas être monotone; 2. Utilisez STD :: Chrono :: standard_clock pour mesurer le temps d'exécution pour assurer la monotonie, et la convertir en millisecondes, secondes et autres unités via durée_cast; 3. Point de temps (temps_point) et durée (durée) peut être interopérable, mais l'attention doit être accordée à la compatibilité des unités et à l'époque de l'horloge (époque)

Il existe principalement les méthodes suivantes pour obtenir des traces de pile dans C: 1. Utilisez des fonctions Backtrace et Backtrace_Symbols sur la plate-forme Linux. En incluant l'obtention de la pile d'appels et des informations sur le symbole d'impression, le paramètre -rdynamic doit être ajouté lors de la compilation; 2. Utilisez la fonction CaptureStackBackTrace sur la plate-forme Windows, et vous devez lier dbghelp.lib et vous fier au fichier PDB pour analyser le nom de la fonction; 3. Utilisez des bibliothèques tierces telles que Googlebreakpad ou boost.stackTrace pour multiplateforme et simplifier les opérations de capture de pile; 4. Dans la gestion des exceptions, combinez les méthodes ci-dessus pour produire automatiquement les informations de pile dans les blocs de capture

En C, le type POD (PlainoldData) fait référence à un type avec une structure simple et compatible avec le traitement des données du langage C. Il doit remplir deux conditions: il a une sémantique de copie ordinaire, qui peut être copiée par MEMCPY; Il a une disposition standard et la structure de la mémoire est prévisible. Les exigences spécifiques incluent: tous les membres non statiques sont publics, pas de constructeurs ou de destructeurs définis par l'utilisateur, pas de fonctions virtuelles ou de classes de base, et tous les membres non statiques eux-mêmes sont des pods. Par exemple, structPoint {intx; Inty;} est pod. Ses utilisations incluent les E / S binaires, l'interopérabilité C, l'optimisation des performances, etc. Vous pouvez vérifier si le type est POD via STD :: IS_POD, mais il est recommandé d'utiliser STD :: IS_TRIVIA après C 11.

Pour appeler le code Python en C, vous devez d'abord initialiser l'interprète, puis vous pouvez réaliser l'interaction en exécutant des cha?nes, des fichiers ou en appelant des fonctions spécifiques. 1. Initialisez l'interpréteur avec py_initialize () et fermez-le avec py_finalalize (); 2. Exécuter le code de cha?ne ou pyrun_simplefile avec pyrun_simplefile; 3. Importez des modules via pyimport_importmodule, obtenez la fonction via pyObject_getattrstring, construisez des paramètres de py_buildvalue, appelez la fonction et le retour de processus

FunctionHidingInc se produitwenaderiverivedClassDefinesafonctionWithTheSameAnameasAbaseClassfonction, ce qui fait que la base de la base de la base

En C, il existe trois fa?ons principales de passer les fonctions comme paramètres: en utilisant des pointeurs de fonction, des expressions de fonction STD :: et de lambda et des génériques de modèle. 1. Les pointeurs de fonction sont la méthode la plus élémentaire, adaptée à des scénarios simples ou à une interface C compatible, mais une mauvaise lisibilité; 2. STD :: Fonction combinée avec les expressions de lambda est une méthode recommandée dans le C moderne, soutenant une variété d'objets appelées et étant de type type; 3. Template Les méthodes génériques sont les plus flexibles, adaptées au code de la bibliothèque ou à la logique générale, mais peuvent augmenter le temps de compilation et le volume de code. Les lambdas qui capturent le contexte doivent être passés à travers la fonction STD :: ou le modèle et ne peuvent pas être convertis directement en pointeurs de fonction.

Anullpointerinc isasaspecialvalueINDICATINGSTATAPOInterDoOesNotPointToanyValidMemoryLocation, andisesesedTosafelyManageAndcheckpointersBeforedereencing.1.BeForec 11,0orlwasused, butnownullptrisprefort

STD :: Move ne déplace rien, il convertit simplement l'objet en référence RValue, indiquant au compilateur que l'objet peut être utilisé pour une opération de déplacement. Par exemple, lorsque l'attribution de cha?ne, si la classe prend en charge la sémantique en mouvement, l'objet cible peut prendre en charge la ressource d'objet source sans copier. Doit être utilisé dans des scénarios où les ressources doivent être transférées et sensibles aux performances, comme le retour des objets locaux, l'insertion de conteneurs ou l'échange de propriété. Cependant, il ne doit pas être abusé, car il dégénérera en une copie sans structure mobile, et le statut d'objet d'origine n'est pas spécifié après le mouvement. Utilisation appropriée lors du passage ou du retour d'un objet peut éviter des copies inutiles, mais si la fonction renvoie une variable locale, l'optimisation RVO peut déjà se produire, l'ajout de std :: Move peut affecter l'optimisation. Les erreurs sujets aux erreurs incluent une mauvaise utilisation sur les objets qui doivent encore être utilisés, les mouvements inutiles et les types non movables
