Parse pdf avec itextsharp (récupération du texte, pas ocr)

Soyez le premier à donner votre avis sur cette source.

Snippet vu 9 090 fois - Téléchargée 18 fois

Contenu du snippet

Récupération du texte dans un PDF
Ajouter la référence à itextsharp.dll
Je pense que cette source est plus fiable que celle qui utilise PKTokeniser

Source / Exemple :


Imports iTextSharp.text.pdf
    

Public Function ParsePDF(ByVal FileName As String) As String
        Dim txt As String = ""
        Dim reader As New PdfReader(FileName)
        Dim parser1 As New parser.PdfReaderContentParser(reader)
        Dim strat As parser.SimpleTextExtractionStrategy
        For i = 1 To reader.NumberOfPages
            strat = parser1.ProcessContent(i, New parser.SimpleTextExtractionStrategy)
            txt = txt + strat.GetResultantText()
        Next
        Return txt

    End Function

A voir également

Ajouter un commentaire

Commentaire

Messages postés
3
Date d'inscription
lundi 21 mai 2007
Statut
Membre
Dernière intervention
8 juillet 2019

Marche super bien, merci ! Facile à intégrer dans un projet en plus.

Vous n'êtes pas encore membre ?

inscrivez-vous, c'est gratuit et ça prend moins d'une minute !

Les membres obtiennent plus de réponses que les utilisateurs anonymes.

Le fait d'être membre vous permet d'avoir un suivi détaillé de vos demandes et codes sources.

Le fait d'être membre vous permet d'avoir des options supplémentaires.