Convertion PDF [Résolu]

Signaler
Messages postés
210
Date d'inscription
jeudi 11 août 2005
Statut
Membre
Dernière intervention
27 novembre 2009
-
Messages postés
1
Date d'inscription
dimanche 16 novembre 2003
Statut
Membre
Dernière intervention
3 mars 2008
-
Bonjour
Je suis a la recherche d'une classe de convertion de fichiers PDF (gratuite de preference!!) en texte ou n'importe quoi d'exploitable.
J'ai deja essaye d'utiliser la classe PDFBox mais le problème c'est que les phrases sont coupées au profit de la mise en page. Ce qui ne m'arrange pas car moi cette convertion est destinée a une traduction et comme vous pouvez l'imaginer une pharse coupée en deux ne sera pas traduite comme il le faut par la suite.
Pour l'instant le seul autil que j'ai trouvé est une SDK de BCL qui s'appelle easyPDF mais elle n'est pas gratuite. Donc avant de me lancer plus loin avec cette SDK, je voulais voir si vous connaissiez d'autres outils gratuits répondant à mes obligations.
Merci d'avance
Ju

5 réponses

Messages postés
210
Date d'inscription
jeudi 11 août 2005
Statut
Membre
Dernière intervention
27 novembre 2009

SAlut a tous
Voici un petit résultat de mes investigations à ce sujet:
- J'ai trouvé une classe PDFBox, gratuite qui est en fait une classe Java, il faut donc y associer un émulateur pour pouvoir l'utiliser en .NET. Je ne trouve plus le lien qui explique comment faire mais en faisant une recherche sur le site de PDFBoxe je suis sur qu'il doit etre possible de retrouver les info. Le problème de cette classe c'est qu'elle ne reconnait pas les phrases. En effet elle garde juste la mise en page par contre un phrase qui commence sur une ligne et se termine sur une autre est coupée, ce qui n'est pas génant pour une appli qui a juste besoin de la mise en page mais pour une appli de traduction comme moi c'est vraiment bloquant!!
- Sinon il y a XPDF qui est une appli console open source. Elle permet de garder la construction de phrases mais dans ce cas là elle pert la mise en page. Du cou il faut faire un choix entre mise en page et structure de phrases. Et moi ce qui me gene c'est le fait que ce soit une appli console , un peu plus chiant a gérer.
- Et pour finir il y a BCL easyPDF, qui est payant par contre, mais qui permet de garder la structure des phrases et la mise en page. Par contre une phrase sur deux pages est coupée.

Donc voila j'espère que mes investigations pourront aider des gesn et je suis toujours ouvert a d'autres idées pour la culture générale.

a+
Messages postés
1024
Date d'inscription
mardi 4 février 2003
Statut
Membre
Dernière intervention
7 juin 2010
62
Hello,

A ta place, j'essaierais avec un outil en ligne de commande, comme pdftotxt, que tu peux trouver chez http://www.foolabs.com/xpdf/.

Amicalement, SharpMao

"C'est pas parce qu'ils sont nombreux à avoir tort qu'ils ont raison!"
(Coluche / 1944-1986 / Pensées et anecdotes)
Messages postés
210
Date d'inscription
jeudi 11 août 2005
Statut
Membre
Dernière intervention
27 novembre 2009

Merci pour ta réponse. Ce qui me dérange c'est que ce soit un outil en ligne de commande mais je vais tester quand même.
Messages postés
210
Date d'inscription
jeudi 11 août 2005
Statut
Membre
Dernière intervention
27 novembre 2009

Je viens de tester il fait bien ce que je veux mais le ik, c'est qu'il coupe les phrases qui se trouvent sur deux pages. Ce qui est un peu embettant. En plus c'est vraiment du tout ou rien soit on garde le layout et la les phrases sont coupées, soit on ne garde pas le layout et la tout est à la suite et on perd les paragraphes.
Je le garde sous le coude mais continu mes investigations et je suis ouverts à d'autres propositions.
Merci
Ju
Messages postés
1
Date d'inscription
dimanche 16 novembre 2003
Statut
Membre
Dernière intervention
3 mars 2008

Bonjour SoyYo,

Quelques minutes après t'avoir envoyer un private message, j'ai effectivement trouvé une manière de lire un fichier PDF en Csharp à l'aide de PdfBox.

On ajoute les référence suivantes au projet :
<li class="MsoNormal" style="margin: 0cm 0cm 0pt;">IKVM.GNU.Classpath.dll

</li><li class="MsoNormal" style="margin: 0cm 0cm 0pt;">PDFBox-0.7.3.dll

</li><li class="MsoNormal" style="margin: 0cm 0cm 0pt;">FontBox-0.1.0-dev.dll

</li><li class="MsoNormal" style="margin: 0cm 0cm 0pt;">IKVM.Runtime.dll</li>Exemple d'utilisation en console :

using System;

using org.pdfbox.pdmodel;

using org.pdfbox.util;

 

namespace PDFReader

{

    classProgram

    {

        staticvoid Main(string[] args)

        {

            PDDocument doc = PDDocument.load("lopreacamasa.pdf");

            PDFTextStripper pdfStripper = newPDFTextStripper();

            Console.Write(pdfStripper.getText(doc));

        }

    }

}

J'ai aussi les mêmes problèmes que toi au niveau des phrases retournées.
Je vous tiendrais au courant de mes possibles avancés dans ce domaine.

Cordialement,
Glouferu.

P.S.: Voici ma source => http://studentclub.ro/lucians_weblog/archive/2007/03/22/read-from-a-pdf-file-using-c.aspx