Connaître le type d'un document

Résolu
kiboumz Messages postés 120 Date d'inscription mercredi 17 septembre 2003 Statut Membre Dernière intervention 18 mai 2007 - 16 août 2006 à 18:05
kiboumz Messages postés 120 Date d'inscription mercredi 17 septembre 2003 Statut Membre Dernière intervention 18 mai 2007 - 18 août 2006 à 14:59
Bonjour,

J'aimerais savoir comment faire pour reconnaître le type qu'un document est.

Ex : Comment savoir qu'un document est un document word sans regarder son extension.

Un site existe peut-être pour dire ce qui rend unique chaque type de document ?

Les formats que je recherche sont word, excel et pdf.

Merci!
a+

9 réponses

Dolphin Boy Messages postés 630 Date d'inscription vendredi 5 mai 2006 Statut Membre Dernière intervention 17 février 2007
17 août 2006 à 21:54
Effectivement, vu sous cet angle...


Quoique dans le cas de Word 8 la véritable chaine est "Microsoft Word 8.0" avec, avant et après, au moins un caractère nul (00 en hexa).
A voir si dans un fichier Excel la même chaine saisie est encadrée par des caractères nuls.
Je sais c'est fragile mais, en cherchant bien, je suis sur qu'on peut trouver d'autres clés, par exemple, sur le même document j'ai trouvé les caractères :
W o r d D o c u m e n t
chacun séparés par un caractère nul. En Hexa ça donne  :


57 00 6F 00 72 00 64 00 44 00 6F 00 63 00 75 00 6D 00 65 00 6E 00 74 00


Dans Excel la même chaine saisie n'est pas codée de la même façon (j'ai fait la recherche dans un classeur Excel, même avec un document Word inséré dedans).
Bon, tout ça c'est peut être pas très complet. Reste à voir s'il n'y a pas d'autres clés pour Word (en clair ou non), de voir pour les autres types de fichiers puis de mettre en pratique. Pour ce soir, je vais te laisser cogiter là-dessus (je dois me lever à 3h demain).

Bonne recherche
3
cs_philcam Messages postés 132 Date d'inscription dimanche 12 août 2001 Statut Membre Dernière intervention 17 octobre 2008
16 août 2006 à 19:41
Salut,
je pense qu'il n'y a rien dans les fichiers qui détermine si c'est des fichiers XLS ou DOC, la preuve c'est que sans extension windows ne sait pas avec quoi ouvrir un fichier, si tu enlèves l'extension xls a un fichier excel l'icône change en icône générique et windows ne sait plus quel type de fichier c'est.
Faudrait les ouvrir avec un editeur hexa pour voir si y'a un répère quelconque mais je ne pense pas.
C'est ce que je pense mais je peux me tromper, on verra si y'en a d'autres qui ont plus d'infos.
A+
0
cs_philcam Messages postés 132 Date d'inscription dimanche 12 août 2001 Statut Membre Dernière intervention 17 octobre 2008
16 août 2006 à 19:54
Bon, j'ai peut-être été un peu vite, voilà ce qu'on voit quand on ouvre 2 fichiers word et excel dans un éditeur hexa :

alors je ne sais plus quoi penser !!


faut attendre l'avis d'un expert
0
Dolphin Boy Messages postés 630 Date d'inscription vendredi 5 mai 2006 Statut Membre Dernière intervention 17 février 2007
16 août 2006 à 20:05
Salut


Désolé de te contredire il y a quelque chose (je dirais même plusieurs choses) qui détermine l'origine d'un document.
La preuve : essayez de juste renommer l'extension de Doc en Xls ou inversement (ou d'autres types), puis double-cliquez sur ce fichier vous verrez que Windows essaie d'ouvrir (là n'a pas tort) mais Excel ou Word ou autres ne reconnaissent pas le format. Je dirais même plus, essayez de lire un fichier Excel version 2002 avec une version 97.
Ma conclusion, ça doit être une usine à gaz infernale d'essayer de reconnaître l'origine d'un document et surtout de sa version.
Mais bon, comme je ne détiens pas la science infuse, il y a peut-être une solution que quelqu'un d'autre t'apportera ?
0

Vous n’avez pas trouvé la réponse que vous recherchez ?

Posez votre question
kiboumz Messages postés 120 Date d'inscription mercredi 17 septembre 2003 Statut Membre Dernière intervention 18 mai 2007
17 août 2006 à 17:14
Salut,

Merci pour vos deux réponses,

Je sais que binairement, il doit y avoir quelquechose qui rend différent un document word d'un document excel, mais cela peut être très long à analyser et trouver ...

C'est pour ça que j'ai cherché un site Web qui avait peut-être déjà trouvé c'est distinction, mais je n'en ai pas trouvé ...

Merci
a+
0
Dolphin Boy Messages postés 630 Date d'inscription vendredi 5 mai 2006 Statut Membre Dernière intervention 17 février 2007
17 août 2006 à 19:39
Une petite piste possible :
Je n'ai pas écrit le scanner de fichier mais j'ai juste utilisé un éditeur Hexa (Hackman Hex Editor) et j'ai utilisé sa fonction search avec "Word 8" (sur un doc Word 97) et j'ai trouvé la correspondance indiquant donc, quelque soit l'extension, que ce fichier était bien un document Word 97.
Il y a surement quelque chose à faire avec ça. Par exemple charger le fichier comme un fichier texte ou binaire et faire une recherche de cette chaine.
Pour les correspondances des différentes versions de Word :
http://fr.wikipedia.org/wiki/Microsoft_Word
Pour excel et PDF, ça doir pouvoir se trouver aussi.

J'espère que ça t'avance dans ta recherche ?
0
Dolphin Boy Messages postés 630 Date d'inscription vendredi 5 mai 2006 Statut Membre Dernière intervention 17 février 2007
17 août 2006 à 19:42
philcam> On ne voit pas tes images car elles se trouvent sur ton disque et on n'y a pas accès.
0
kiboumz Messages postés 120 Date d'inscription mercredi 17 septembre 2003 Statut Membre Dernière intervention 18 mai 2007
17 août 2006 à 20:26
Salut,

J'avais effectivement essayé de voir avec un logiciel hexadécimal si je pouvais trouvé le mot clé "Word" ou "Word 8". Le problème que j'ai trouvé est sque i je fais une recherche pour savoir si le document contient "Word 8" et que je suis dans un document excel et que quelqu'un a écrit dans le document excel exactement "Word 8" ...

Je sais que je pousse loin et que la possibilité est minime, mais j'aime mieux prévoir ...

Merci
a+
0
kiboumz Messages postés 120 Date d'inscription mercredi 17 septembre 2003 Statut Membre Dernière intervention 18 mai 2007
18 août 2006 à 14:59
Salut,

Merci pour tes conseils,

Avec cela, je devrais être capable de pondre une solution efficace et viable.

Merci
a+
0
Rejoignez-nous