OCR (UTILISATION DE TESSNET2.DLL)

wahab007 Messages postés 7 Date d'inscription lundi 31 décembre 2007 Statut Membre Dernière intervention 17 août 2010 - 1 oct. 2009 à 17:38
 REDA - 13 mai 2014 à 17:06
Cette discussion concerne un article du site. Pour la consulter dans son contexte d'origine, cliquez sur le lien ci-dessous.

https://codes-sources.commentcamarche.net/source/50628-ocr-utilisation-de-tessnet2-dll

SVP ; il est ou le dossier lang pour placer le dico français ??!
Bonjour
J'ai bien lu tout les infos et je crois avoir fait toutes les modifs mais j'ai toujours une fermeture de la fenêtre à la ligne "OCR.Init(sPath, sLang, False)"

je programme sous Seven avec une machine 64bit avec Microsoft Visual Studio 10

j'utilise la dll 64 bit

Merci de m'aider
J'ai pu trouver le lien de la langue francaise et ca fonctionne chez moi mnt correctement. j'ai visual studio 10.
Lien pour la langue francaise: http://code.google.com/p/tesseract-ocr/downloads/detail?name=tesseract-2.00.fra.tar.gz&can=2&q=

Merci pour le tutoriel
bouv Messages postés 1411 Date d'inscription mercredi 6 août 2003 Statut Membre Dernière intervention 3 mars 2019 1
21 janv. 2013 à 23:00
Les liens sont fonctionnels. Le problème vient de VBFrance qui ajoute un espace à la position 48 dans mes liens. J'ai beau modifier ma description rien n'y fait. Il faut supprimer ces espaces manuellement pour utiliser les liens.

http://www.pixel-technology.com/freeware/tessnet2/
(VBFrance ajoute un espace dans /tessnet2/)

http://code.google.com/p/tesseract-ocr/downloads/list
(VBFrance ajoute un espace dans /downloads/)
Je me corrige, le nouveau lien du fichier dll du tesnet_32 fonctionne mais celui pour les langues je ne les trouves pas. merci de remettre ca a jour et de minformer via commentaire
Bonjour,
les liens pour les fichiers Dll et les dictionnaires ne fonctionnent plus, est ce que vous pouvez les reactualiser et me les préciser en commentaire ? Merci
aftanakin Messages postés 1 Date d'inscription vendredi 9 mai 2003 Statut Membre Dernière intervention 9 mai 2012
9 mai 2012 à 16:04
Salut la foule!

J'utilise VB Express 2010 et j'aimerais utiliser tessnet2 pour une petite application perso.
Si j'interviens ici, c'est parce que moi aussi, je rencontre un problème malgré une lecture attentive de ce forum (et d'autres encore). J'ai peut-être oublié quelque chose mais quoi?

- J'ai téléchargé et utilisé le zip
- J'ai été chercher le fichier tessnet2_32.dll qui se trouve maintenant dans \bin\Debug
- J'ai créer et modifier un fichier de configuration pour le Framework
- On retrouve dans ce même répertoire celui de tessdata avec les fichiers français indiqués ci-dessus.
- VB Express 2010 ouvre correctement le projet, pas d'erreur reconnue et tessnet2_32.dll est bien dans les références.

J'ai d'abord rencontré un problème car à l'instruction "OCR.Init(sPath, sLang, False)", il m'indiquait qu'il ne trouvait pas la source "tessnet2.cpp" mais j'ai été la chercher sur l'Internet.

Malgré tout ça, l'exécution ne va pas plus loin que l'instruction "OCR.Init(sPath, sLang, False)" :(

J'ai ajouté du code dans la procédure "cmdOCR_Click" pour attraper l'erreur mais il n'y en pas.

Une idée? Une piste de recherche?

Merci d'avance.
cs_Patrice99 Messages postés 1221 Date d'inscription jeudi 23 août 2001 Statut Membre Dernière intervention 9 septembre 2018
2 mai 2012 à 15:38
Salut, voici comment trouver l'erreur : F5 depuis Visual Studio : Menu Déboguer : Exceptions : tout cocher ! puis relancer avec F5.
bouv Messages postés 1411 Date d'inscription mercredi 6 août 2003 Statut Membre Dernière intervention 3 mars 2019 1
2 mai 2012 à 09:33
Exécute le programme en mode debug pas à pas et voit quelle ligne fait planter le logiciel.
Ça fait longtemps que je n'ai pas touché ni à VB ni à ce code. De mémoire, il n'y a pas (assez ?) de gestion d'erreur. Tessnet2 est très sensible, le moindre truc qui ne lui convient pas (oubli de charger une image, image trop petite, trop grosse...) et il fait tout planter.

Si tu n'y arrives toujours pas, relances moi en MP.
guizalmont Messages postés 1 Date d'inscription mardi 8 janvier 2008 Statut Membre Dernière intervention 3 février 2012
3 févr. 2012 à 17:10
Bonjour,

Que pensez vous de la qualité d'OCR ?
J'ai fait des tests en Police 40 sur une feuille blanche et le résultat est décevant.

Merci pour vos retours.

Cdt
rastarocket49 Messages postés 2 Date d'inscription mercredi 30 novembre 2005 Statut Membre Dernière intervention 23 janvier 2012
23 janv. 2012 à 09:25
J'ai réglé le problème, et oui le résultat est déjà fournis dans un tableau, je ne l'avais pas remarqué
merci quand même :D
bouv Messages postés 1411 Date d'inscription mercredi 6 août 2003 Statut Membre Dernière intervention 3 mars 2019 1
20 janv. 2012 à 08:15
Bonjour,
Si je ne me trompe le résultat est déjà fourni sous forme de tableau.
Pouvez-vous être plus précis.
Cdt
rastarocket49 Messages postés 2 Date d'inscription mercredi 30 novembre 2005 Statut Membre Dernière intervention 23 janvier 2012
16 janv. 2012 à 10:51
bonjour,
Je n'arrive pas a récupérer les données de l'OCR, j'explique il faut que je fasse un contrôle sur le résultat.
Je doit vérifié que un mot apparait dans l'image avec le résultat de l'ocr et je n'y arrive pas,
il faudrait que je puisse mettre le résultat de l'ocr dans un tableau pour que je puisse l'exploiter
merci pour les futures réponses en espérant avoir été clair :)
bouv Messages postés 1411 Date d'inscription mercredi 6 août 2003 Statut Membre Dernière intervention 3 mars 2019 1
4 déc. 2011 à 19:06
PCMANPROGRAMMEUR>>Monsieur n'a déposé aucune source sur le site et se permet de juger. Pour information, le code fonctionne parfaitement sous VB 2010 !

1°- La description fournie tous les liens pour télécharger les ressources et explique comment les utiliser.

2°- Merci de lire le règlement : http://www.vbfrance.com/reglement.aspx
"On ne fournit pas un programme ou une ressource compilée."

3°- Les zip ne doivent pas dépasser 1 Mo. Or la DLL fait 4.6 Mo à elle seule et le dictionnaire français fait 1 Mo. Impossible donc de la joindre à mon zip.

Si vous souhaitez de l'aide pour utiliser ma source, votre prochain message devra contenir les mots suivants : bonjour, SVP et merci.
pcmanprogrammeur Messages postés 126 Date d'inscription dimanche 27 mars 2005 Statut Membre Dernière intervention 16 octobre 2010
4 déc. 2011 à 16:41
Le jour où quelqu'un arrivera à faire marcher ce projet sous VB .Net 2010, ce serait super de mettre à disposition les sources ...
Le créateur du poste, il crée une archive sans les DLL et tout se qui va bien. C'est comme si j'allais acheter une voiture sans moteur ... TRES INTELLIGENT !!!
marlouf2002 Messages postés 1 Date d'inscription vendredi 14 novembre 2003 Statut Membre Dernière intervention 22 septembre 2011
22 sept. 2011 à 11:47
Bonjour à tous,

J'ai aussi un problème lorsque j'arrive dans ma fonction Init , les dossiers sont au bon endroit et les fichiers de langue sont là aussi. J'ai les runtime pour visual studio 2010 mais dans ce projet je dois absolument etre en Visual studio 2008 mais j'ai le le microsoft visual c++ 2008 redistributable qui en pricipe contient les runtime .
Je travaille sur un seven 64 bits.
Quelqu'un peut il m'aider merci d'avance.
paltron Messages postés 1 Date d'inscription mercredi 15 septembre 2004 Statut Membre Dernière intervention 15 juin 2011
15 juin 2011 à 23:13
Bonjour à tous,

Quelques réponses qui peuvent vous aider :

pour vb10 :
il faut expliquer au projet qu'il a le droit au framework 4.0 (il est pas puni qd même !!)

donc faut ajouter un nouvel élément ==> fichier de configuration
ajouter les lignes suivantes :

<?xml version="1.0" encoding="utf-8" ?>
<configuration>

<startup useLegacyV2RuntimeActivationPolicy="true">
<supportedRuntime version="v4.0" />
</startup>

un fichier app.config est créé dans le rep de travail.
attention parfois il s'appelle app1.config (apparemment ça marche pas)

ensuite pour ceux à qui l'appli plante :

en plus de toutes les recommandations déjà cité plus haut assurez vous d'avoir dans le rep "lang" TOUS les fichiers nécessaires :
fra.DangAmbigs
fra.freq-dawg
fra.inttemp
fra.normproto
fra.pffmtable
fra.traineddata
fra.unicharset
fra.user-words
fra.word-dawg

ils sont disponible dans l'archive tesseract-2.00.fra.tar
l'archive fra.traineddata ne contient que le fichier fra.traineddata

bon dev à tous
vvalancony Messages postés 1 Date d'inscription jeudi 29 octobre 2009 Statut Membre Dernière intervention 29 mars 2011
29 mars 2011 à 23:58
Bonjour,

Cette source est ce que je cherche depuis un certain temps.
Je suis d"butant sur vb.net et utilise vb 2010 express.
La conversion s'est bien passé mais dès que je clique sur un des bouton j'ai une erreur :
L'exception System.IO.FileLoadException n'a pas été gérée
Message=L'assembly en mode mixte est créé avec la version 'v2.0.50727' du runtime et ne peut pas être chargé dans le runtime 4.0 sans d'autres informations de configuration.

Est ce que quelqu'un pourrait m'aider à comprendre ?

Merci
Vincent Valancony
TomsGrano Messages postés 3 Date d'inscription mardi 3 août 2010 Statut Membre Dernière intervention 11 mars 2011
11 mars 2011 à 11:00
Merci je vais voir ce que ça donne
bouv Messages postés 1411 Date d'inscription mercredi 6 août 2003 Statut Membre Dernière intervention 3 mars 2019 1
11 mars 2011 à 09:50
Désolé je ne saurai pas bien t'aider, je ne code pas en C#

Sinon vérifies que les runtimes C++ 2008 sont bien installés selon ta version de Windows :
X86 : http://www.microsoft.com/downloads/details.aspx?FamilyID=a5c84275-3b97-4ab7-a40d-3802b2af5fc2&displaylang=en
X64 : http://www.microsoft.com/downloads/details.aspx?FamilyID=ba9257ca-337f-4b40-8c14-157cfdffee4e&displaylang=en
TomsGrano Messages postés 3 Date d'inscription mardi 3 août 2010 Statut Membre Dernière intervention 11 mars 2011
11 mars 2011 à 09:13
Merci, je l'avais déjà trouvé et justement j'ai un problème sur l’exécution de ce code.

Cette ligne : ocr.Init(@"c:\temp", "fra", false); // To use correct tessdata

fais planter le programme le programme sans aucun message d'erreur.
bouv Messages postés 1411 Date d'inscription mercredi 6 août 2003 Statut Membre Dernière intervention 3 mars 2019 1
10 mars 2011 à 16:54
bouv Messages postés 1411 Date d'inscription mercredi 6 août 2003 Statut Membre Dernière intervention 3 mars 2019 1
10 mars 2011 à 16:54
Un exemple CSharp est fourni à cette adresse
TomsGrano Messages postés 3 Date d'inscription mardi 3 août 2010 Statut Membre Dernière intervention 11 mars 2011
10 mars 2011 à 14:23
Bonjour,

je souhaite faire une application C# qui reconnait un texte a partir d'une image, donc la dll Tessnet2 est parfaite pour ça. Mais j'ai le même problème que ZZMANSHOW et FLOP47000 lorsque je clique sur le bouton OCR le programme se termine cela provient de la fonction OCR.init même après avoir vérifié les runtimes mon problème persiste et les liens Free sont mort.

Pour information, je programme sous Seven avec une machine 64bit avec Microsoft Visual Studio 2008 Pro.

De plus ou serait il possible de trouver un documentation complète sur les fonctions de la lib Tessnet?

Merci
Kedubon Messages postés 4 Date d'inscription vendredi 30 avril 2010 Statut Membre Dernière intervention 14 avril 2011
4 nov. 2010 à 19:34
Bonjour la jeunesse,
Malgré mon age avancé, je ne suis que débutant :-)
Ceci dit, j'ai beau lire tous vos échanges, j'en reste au point où je peux lancer TesseractOCT
et lorsque j'ai choisi l'image à traiter, la fenêtre disparait lorsque je clique sur OCR.
Et j'ai pourtant installé la runtime C++ 2008 pour mon Vista 32bits.

Quelqu'un de votre confrérie aurait il la sympathie de me dire où je bug ? Merci
Ce que je ne comprends pas non plus, c'est :
- où se trouve le dossier \bin\Debug
- où se trouve le dossier \lang
Car quand j'ouvre Bin.zip puis release32, je n'ai que 4 fichier et pas de répertoires.
bokkaa Messages postés 1 Date d'inscription lundi 11 mai 2009 Statut Membre Dernière intervention 21 octobre 2010
21 oct. 2010 à 17:02
Bonjour,

J'ai importé le projet sous VS 2005, j'ai modifié le projet pour qu'il passe sur le frameword 2.0 et non 3.5 et donc installé le c++ runtime 2008.
Mais, comme cité plus haut, j'ai toujours le problème qui fait que : l'appli quitte sans erreur lorsque je click sur "OCR".

A priori, en approfondissant, cela viendrai de la méthode OCR.init. Mon paramètre sPath n'est peut être pas bon mais même avec les paramètre d'origine j'obtiens le même résultat.

Je précise au passage que j'ai bien copié tessnet2_dll dans \bin\debug et que j'ai collé un peu partout les fichier de lang :D.

Si quelqu'un utilise la même plateforme et à résolut le problème, je suis tout ouï!
Merci
flop47000 Messages postés 5 Date d'inscription dimanche 22 mai 2005 Statut Membre Dernière intervention 26 août 2010
2 août 2010 à 17:35
Merci à toi BOUV!
C'est impec' pour moi, sans doute à cause des runtimes C++ 2008 ou je ne sais pas.
Je te remercie encore une fois! :D
bouv Messages postés 1411 Date d'inscription mercredi 6 août 2003 Statut Membre Dernière intervention 3 mars 2019 1
26 juil. 2010 à 23:52
ZZMANSHOW et FLOP47000

Désolé pour le délai de réponse mais le temps me manque.

Tout d'abord vérifiez que les runtimes C++ 2008 sont installés :
X86 : http://www.microsoft.com/downloads/details.aspx?FamilyID=a5c84275-3b97-4ab7-a40d-3802b2af5fc2&displaylang=en
X64 : http://www.microsoft.com/downloads/details.aspx?FamilyID=ba9257ca-337f-4b40-8c14-157cfdffee4e&displaylang=en

Ensuite essayez ça et dites moi si ça plante encore :
- Code source complet (lang et DLL compris) : http://dl.free.fr/uNWfgrM9e
- Version compilée : http://dl.free.fr/uBK24SADo

PS : Merci d'essayer avec l'image fournie ET avec une image de votre choix.

Enfin, merci de me préciser :
- Votre version de Windows (XP, Vista, 7) et s'il s'agit d'un 32 ou 64 bits
- Votre version de Visual Basic (Express, Pro) et le millésime
flop47000 Messages postés 5 Date d'inscription dimanche 22 mai 2005 Statut Membre Dernière intervention 26 août 2010
26 juil. 2010 à 21:34
Bonjour! J'ai le même problème que ZZMANSHOW.
Quand je click sur "OCR", le programme se ferme. Pourtant le dictionnaire "fra" est bien placé dans "/Lang/" sans sous dossiers et la dll est bien à la racine du fichier tout comme "/Lang/".
De plus, j'ai même récréer la référence à la dll.
Si on peux m'aider, je suis preneur... :O
marwenferchichi Messages postés 3 Date d'inscription mardi 20 octobre 2009 Statut Membre Dernière intervention 22 juillet 2010
22 juil. 2010 à 09:47
Bonjour ,
je vous remerciez pour le code...je suis un étudiant je suis entrain de dev une application GED avec .Net(niveau débutant) et je cherche un module en c#(plus spécifique :mon application et en silverlight) qui me permet:
-parcourir un dossier
-sélectionner un fichier PDF que se trouve sur le dossier
-convertir le fichier pdf a un ensemble de fichier image.
Merci d'avance
zzmanshow Messages postés 41 Date d'inscription mardi 23 mars 2004 Statut Membre Dernière intervention 18 mars 2010
20 avril 2010 à 00:15
C'est ce que j'ai fait Bouv et le programme se ferme toujours au lieu de faire ceux pour quoi il est conçu....je suis totalement largué là ! :(
keikun59 Messages postés 73 Date d'inscription mardi 15 mars 2005 Statut Membre Dernière intervention 18 novembre 2010 1
19 avril 2010 à 20:39
Bonjour,

Super sujet d'échange ! Car ce n'est pas facile de faire un OCR.

J'ai effectué quelques tests de cette DLL, mais quand le texte est trop petit cela ne marche pas.
Exemple d'image :
http://keikun.phpnet.org/cs/servletDate.png
http://keikun.phpnet.org/cs/servletTexte.png

Avez vous une idée pour réussir à interpréter le texte ou les caractères?

Merci
bouv Messages postés 1411 Date d'inscription mercredi 6 août 2003 Statut Membre Dernière intervention 3 mars 2019 1
14 avril 2010 à 09:17
Etrange... Tu peux éventuellement recréer la référence à la DLL
zzmanshow Messages postés 41 Date d'inscription mardi 23 mars 2004 Statut Membre Dernière intervention 18 mars 2010
13 avril 2010 à 21:22
Salut Bouv,

J'ai bien placé la dll dans le dossier \bin\Debug et installer les fichiers dictionnaires à la racine de 'lang' (donc sans le dossier 'fra') mais le programme se ferme toujours après avoir chargé une image et après avoir cliqué sur OCR.
bouv Messages postés 1411 Date d'inscription mercredi 6 août 2003 Statut Membre Dernière intervention 3 mars 2019 1
5 avril 2010 à 09:53
Je n'ai effectivement pas précisé cela :

- La dll doit être dans le dossier de l'executable. (en mode IDE, utiliser le dossier \bin\Debug)
- Les fichiers dictionnaires doivent être directement dans le dossier lang sans dossier fra

Fais moi signe si cela ne fonctionne toujours pas.
zzmanshow Messages postés 41 Date d'inscription mardi 23 mars 2004 Statut Membre Dernière intervention 18 mars 2010
5 avril 2010 à 00:44
Salut à tous :)

J'ai un problème ou alors il y a quelque chose que je n'ai pas fait correctement. J'installer bien le fichier dll + le dossier "fra" dans le dossier "lang".

Je lance l'application, je sélectionne l'image et je clique sur le bouton "OCR"...

Problème :
A partir de là, le programme se ferme.

Quelqu'un a t'il une solution ?

Merci d'avance :)
cs_BillWates Messages postés 1 Date d'inscription vendredi 17 octobre 2003 Statut Membre Dernière intervention 27 décembre 2009
27 déc. 2009 à 21:28
Merci pour ce code très bien écrit et expliqué. Il me règle 80% d'un problème que j'avais.
bouv Messages postés 1411 Date d'inscription mercredi 6 août 2003 Statut Membre Dernière intervention 3 mars 2019 1
9 déc. 2009 à 15:39
Salut,
Des liens sont fournis dans la description et la conclusion de la source.
Tu y trouvera tout ce que tu souhaites.
adams_001 Messages postés 5 Date d'inscription lundi 23 avril 2007 Statut Membre Dernière intervention 18 novembre 2009
9 déc. 2009 à 15:29
salut tous le monde,
qui peut m'aider à trouver quelque documentation sur
tessnet2_32.dll??
wahab007 Messages postés 7 Date d'inscription lundi 31 décembre 2007 Statut Membre Dernière intervention 17 août 2010
5 oct. 2009 à 11:51
salut tout le monde , je suis très ému de la solidarité sur codes sources.je me lance tout de suite dans les recherches et je vous tient informé. grand merci.
gillardg Messages postés 3275 Date d'inscription jeudi 3 avril 2008 Statut Membre Dernière intervention 14 septembre 2014 2
4 oct. 2009 à 16:13
salut,
pour l'ocr si vous disposer de office 2007
il y a un composant ocr très performant
Microsoft Office Document Imaging 12.0 Type Library

exemple d'utilisation en C#
http://www.codeproject.com/KB/office/OCRDemo.aspx
bouv Messages postés 1411 Date d'inscription mercredi 6 août 2003 Statut Membre Dernière intervention 3 mars 2019 1
4 oct. 2009 à 13:35
Pour l'utilisation de composants VB.Net dans VB6 (et inversement), voir les codes déposés ici :
http://www.codeproject.com/KB/vb-interop/
cs_Patrice99 Messages postés 1221 Date d'inscription jeudi 23 août 2001 Statut Membre Dernière intervention 9 septembre 2018
4 oct. 2009 à 09:07
Pour faire des recherches plein texte en VB6 et VB.Net, de documents en .doc .html et .txt, voir VBTextFinder ici :
www.vbfrance.com/code.aspx?ID=46695
Pour les documents Pdf, certains ont un contenu que l'on peut extraire en .txt, sinon il faut imprimer en mode image et utiliser cette source OCR pour extraire le texte (normalement elle devrait fonctionner en VB6, à vérifier).

Le problème c'est que pour manipuler des fichiers pdf, il faudra probablement passer en DotNet, et peut être même en C#, voici les liens que j'ai commencé à compiler (j'ai quand même noté un lien en VB6 !) :

- Indexation des documents pdf (code source en C++ MFC)
Code to extract plain text from a PDF file
Source code that shows how to decompress and extract text from PDF documents
www.codeproject.com/KB/cpp/ExtractPDFText.aspx
Et en DotNet : Using the IFilter interface to extract text from various document types
www.codeproject.com/KB/cs/IFilter.aspx

- PDF Viewer Control Without Acrobat Reader Installed (supporte aussi les derniers pdf incompatibles avec Acrobat Reader 5)
www.codeproject.com/KB/applications/PDFViewerControl.aspx

- OpenPdf.Net : www.vbfrance.com/codes/OPENPDF-NET_46727.aspx

- Creating PDF with nFOP
www.codeproject.com/KB/dotnet/nfop.aspx

- Creating PDF Tables using C# (.NET 2.0) and iTextSharp
www.codeproject.com/KB/cs/iTextSharpPdfTables.aspx
http://downloads.sourceforge.net/itextsharp/itextsharp-4.0.2-dll.zip

- Tutorials on creating PDF files using C# (.NET 2.0)
www.codeproject.com/cs/library/iTextSharpTutorial.asp

- Convertisseur Pdf (images sur disque en Pdf)
www.csharpfr.com/codes/CONVERTISSEUR-PDF_37711.aspx
Et en VB6 : Classe pdf pour images
www.vbfrance.com/code.aspx?ID=37946

- Digital Signatures and PDF Documents
www.codeproject.com/showcase/digitalsignatures.asp

- GIOS PDF Splitter and Merger
The first open source PDF splitter and merger tool written in C#
www.codeproject.com/KB/cs/giospdfsplittermerger.aspx

- Converting PDF to Text in C#
www.codeproject.com/KB/string/pdf2text.aspx
bouv Messages postés 1411 Date d'inscription mercredi 6 août 2003 Statut Membre Dernière intervention 3 mars 2019 1
3 oct. 2009 à 15:50
Pour la compatibilité VB6, ce n'est que mon avis.
A vrai dire cela fait bien longtemps que je n'utilise plus VB6 donc je ne suis pas très sûr.

Ce que je sais : tessnet est un portage en .Net de la dll tesseract créé par HP en 1995 désormais maintenue à jour par google en Open Source.
Si tessnet n'est pas compatible avec VB6 ?? alors peut-être que tesseract le sera ??

Plus d'info, voir ici : http://code.google.com/p/tesseract-ocr/

++
wahab007 Messages postés 7 Date d'inscription lundi 31 décembre 2007 Statut Membre Dernière intervention 17 août 2010
3 oct. 2009 à 15:38
bouv>Avec VB6 je ne pense pas. Va falloir te mettre en .NET

salut moi je travail sur un projet en vb6 ou on me demande d'intégrer une fonction capable de faire des recherches full-text dans des fichiers pdf,doc, txt ... ça fais un bout de temps que je cherche mais j'avoue que je suis bloqué. avec les .txt sa marche ,le problem j'arrive pas avec les pdf,doc et fichiers images. Merci pour vos contributions
bouv Messages postés 1411 Date d'inscription mercredi 6 août 2003 Statut Membre Dernière intervention 3 mars 2019 1
3 oct. 2009 à 09:31
Pour la conversion VB.Net, j'y ai également pensé afin de m'affranchir du transport de la DLL... Mais ça semble effectivement très hard et surtout les perf seraient à chier... Il faut déjà quelques secondes à la DLL C++ pour scanner l'image alors en VB
cs_Patrice99 Messages postés 1221 Date d'inscription jeudi 23 août 2001 Statut Membre Dernière intervention 9 septembre 2018
3 oct. 2009 à 09:15
Salut, ta source fonctionne bien, il faut juste laisser une marge importante à gauche de l'image, sinon la reconnaissance est plutôt bonne. Par contre, la source du moteur OCR est en C++.Net 2008 : c'est quasiment impossible de convertir le code en VB.Net : ya des pointeurs partout, dommage qu'elle ne soit pas en C# !
cs_Patrice99 Messages postés 1221 Date d'inscription jeudi 23 août 2001 Statut Membre Dernière intervention 9 septembre 2018
2 oct. 2009 à 11:34
Super : je vais sans doute pouvoir récupérer les dico dans plusieurs langues pour mon indexeur de documents ! (VBTextFinder)
cs_bigboss9 Messages postés 162 Date d'inscription jeudi 22 janvier 2004 Statut Membre Dernière intervention 20 juillet 2013
2 oct. 2009 à 06:45
Enfin quelqu'un se réveil sur ce site !
bouv Messages postés 1411 Date d'inscription mercredi 6 août 2003 Statut Membre Dernière intervention 3 mars 2019 1
1 oct. 2009 à 21:30
Merci pour vos commentaires.

Wahab007>>Avec VB6 je ne pense pas. Va falloir te mettre en .NET

Adn56>>Pour l'orthographe... ça dois pouvoir se faire sans trop de mal grâce au dictionnaire fourni. Mais ce n'est pas dans mes projets.

Par contre j'envisage d'utiliser ce code dans mon logiciel de OpenTwain pour la génération de PDF.
Plutot que d'ajouter un JPG au PDF je pourrais ajouter directement le texte du document pour réduire la taille des fichiers.
Ou pourquoi pas ajouter le texte masqué derrière le JPG pour conserver une fidélité au document source et également pouvoir effectuer des recherches Full Text dans le contenu des PDF.
Les PDF pourraient être générés au choix avec ou sans OCR. Mais il faut que je trouve un peu de temps pour tout ça.

Bonne prog
++
Adn56 Messages postés 1172 Date d'inscription jeudi 24 mai 2007 Statut Membre Dernière intervention 28 septembre 2013 1
1 oct. 2009 à 17:48
Clair ! sympa comme tout, merci !
Tu crois que bientôt il corrigera les fautes d'hortographes MDR ^__^
wahab007 Messages postés 7 Date d'inscription lundi 31 décembre 2007 Statut Membre Dernière intervention 17 août 2010
1 oct. 2009 à 17:38
salut bouv il est formidable ce code, c'est une grande avancée. courage. il n ya pas un moyen d'utiliser cette dll avec vb6. merci
Rejoignez-nous