Parse pdf avec itextsharp (récupération du texte, pas ocr)

Contenu du snippet

Récupération du texte dans un PDF
Ajouter la référence à itextsharp.dll
Je pense que cette source est plus fiable que celle qui utilise PKTokeniser

Source / Exemple :


Imports iTextSharp.text.pdf
    

Public Function ParsePDF(ByVal FileName As String) As String
        Dim txt As String = ""
        Dim reader As New PdfReader(FileName)
        Dim parser1 As New parser.PdfReaderContentParser(reader)
        Dim strat As parser.SimpleTextExtractionStrategy
        For i = 1 To reader.NumberOfPages
            strat = parser1.ProcessContent(i, New parser.SimpleTextExtractionStrategy)
            txt = txt + strat.GetResultantText()
        Next
        Return txt

    End Function

A voir également

Vous n'êtes pas encore membre ?

inscrivez-vous, c'est gratuit et ça prend moins d'une minute !

Les membres obtiennent plus de réponses que les utilisateurs anonymes.

Le fait d'être membre vous permet d'avoir un suivi détaillé de vos demandes et codes sources.

Le fait d'être membre vous permet d'avoir des options supplémentaires.