Convertion PDF

Résolu
cs_SoyYo Messages postés 210 Date d'inscription jeudi 11 août 2005 Statut Membre Dernière intervention 27 novembre 2009 - 4 janv. 2008 à 10:46
Glouferu Messages postés 1 Date d'inscription dimanche 16 novembre 2003 Statut Membre Dernière intervention 3 mars 2008 - 3 mars 2008 à 10:44
Bonjour
Je suis a la recherche d'une classe de convertion de fichiers PDF (gratuite de preference!!) en texte ou n'importe quoi d'exploitable.
J'ai deja essaye d'utiliser la classe PDFBox mais le problème c'est que les phrases sont coupées au profit de la mise en page. Ce qui ne m'arrange pas car moi cette convertion est destinée a une traduction et comme vous pouvez l'imaginer une pharse coupée en deux ne sera pas traduite comme il le faut par la suite.
Pour l'instant le seul autil que j'ai trouvé est une SDK de BCL qui s'appelle easyPDF mais elle n'est pas gratuite. Donc avant de me lancer plus loin avec cette SDK, je voulais voir si vous connaissiez d'autres outils gratuits répondant à mes obligations.
Merci d'avance
Ju

5 réponses

cs_SoyYo Messages postés 210 Date d'inscription jeudi 11 août 2005 Statut Membre Dernière intervention 27 novembre 2009
3 mars 2008 à 09:47
SAlut a tous
Voici un petit résultat de mes investigations à ce sujet:
- J'ai trouvé une classe PDFBox, gratuite qui est en fait une classe Java, il faut donc y associer un émulateur pour pouvoir l'utiliser en .NET. Je ne trouve plus le lien qui explique comment faire mais en faisant une recherche sur le site de PDFBoxe je suis sur qu'il doit etre possible de retrouver les info. Le problème de cette classe c'est qu'elle ne reconnait pas les phrases. En effet elle garde juste la mise en page par contre un phrase qui commence sur une ligne et se termine sur une autre est coupée, ce qui n'est pas génant pour une appli qui a juste besoin de la mise en page mais pour une appli de traduction comme moi c'est vraiment bloquant!!
- Sinon il y a XPDF qui est une appli console open source. Elle permet de garder la construction de phrases mais dans ce cas là elle pert la mise en page. Du cou il faut faire un choix entre mise en page et structure de phrases. Et moi ce qui me gene c'est le fait que ce soit une appli console , un peu plus chiant a gérer.
- Et pour finir il y a BCL easyPDF, qui est payant par contre, mais qui permet de garder la structure des phrases et la mise en page. Par contre une phrase sur deux pages est coupée.

Donc voila j'espère que mes investigations pourront aider des gesn et je suis toujours ouvert a d'autres idées pour la culture générale.

a+
3
SharpMao Messages postés 1024 Date d'inscription mardi 4 février 2003 Statut Membre Dernière intervention 7 juin 2010 69
4 janv. 2008 à 11:08
Hello,

A ta place, j'essaierais avec un outil en ligne de commande, comme pdftotxt, que tu peux trouver chez http://www.foolabs.com/xpdf/.

Amicalement, SharpMao

"C'est pas parce qu'ils sont nombreux à avoir tort qu'ils ont raison!"
(Coluche / 1944-1986 / Pensées et anecdotes)
0
cs_SoyYo Messages postés 210 Date d'inscription jeudi 11 août 2005 Statut Membre Dernière intervention 27 novembre 2009
4 janv. 2008 à 11:17
Merci pour ta réponse. Ce qui me dérange c'est que ce soit un outil en ligne de commande mais je vais tester quand même.
0
cs_SoyYo Messages postés 210 Date d'inscription jeudi 11 août 2005 Statut Membre Dernière intervention 27 novembre 2009
4 janv. 2008 à 11:28
Je viens de tester il fait bien ce que je veux mais le ik, c'est qu'il coupe les phrases qui se trouvent sur deux pages. Ce qui est un peu embettant. En plus c'est vraiment du tout ou rien soit on garde le layout et la les phrases sont coupées, soit on ne garde pas le layout et la tout est à la suite et on perd les paragraphes.
Je le garde sous le coude mais continu mes investigations et je suis ouverts à d'autres propositions.
Merci
Ju
0

Vous n’avez pas trouvé la réponse que vous recherchez ?

Posez votre question
Glouferu Messages postés 1 Date d'inscription dimanche 16 novembre 2003 Statut Membre Dernière intervention 3 mars 2008
3 mars 2008 à 10:44
Bonjour SoyYo,

Quelques minutes après t'avoir envoyer un private message, j'ai effectivement trouvé une manière de lire un fichier PDF en Csharp à l'aide de PdfBox.

On ajoute les référence suivantes au projet :
<li class="MsoNormal" style="margin: 0cm 0cm 0pt;">IKVM.GNU.Classpath.dll

</li><li class="MsoNormal" style="margin: 0cm 0cm 0pt;">PDFBox-0.7.3.dll

</li><li class="MsoNormal" style="margin: 0cm 0cm 0pt;">FontBox-0.1.0-dev.dll

</li><li class="MsoNormal" style="margin: 0cm 0cm 0pt;">IKVM.Runtime.dll</li>Exemple d'utilisation en console :

using System;

using org.pdfbox.pdmodel;

using org.pdfbox.util;

 

namespace PDFReader

{

    classProgram

    {

        staticvoid Main(string[] args)

        {

            PDDocument doc = PDDocument.load("lopreacamasa.pdf");

            PDFTextStripper pdfStripper = newPDFTextStripper();

            Console.Write(pdfStripper.getText(doc));

        }

    }

}

J'ai aussi les mêmes problèmes que toi au niveau des phrases retournées.
Je vous tiendrais au courant de mes possibles avancés dans ce domaine.

Cordialement,
Glouferu.

P.S.: Voici ma source => http://studentclub.ro/lucians_weblog/archive/2007/03/22/read-from-a-pdf-file-using-c.aspx
0
Rejoignez-nous