Connaître le type d'un document

Résolu
Messages postés
120
Date d'inscription
mercredi 17 septembre 2003
Statut
Membre
Dernière intervention
18 mai 2007
-
Messages postés
120
Date d'inscription
mercredi 17 septembre 2003
Statut
Membre
Dernière intervention
18 mai 2007
-
Bonjour,

J'aimerais savoir comment faire pour reconnaître le type qu'un document est.

Ex : Comment savoir qu'un document est un document word sans regarder son extension.

Un site existe peut-être pour dire ce qui rend unique chaque type de document ?

Les formats que je recherche sont word, excel et pdf.

Merci!
a+

9 réponses

Messages postés
630
Date d'inscription
vendredi 5 mai 2006
Statut
Membre
Dernière intervention
17 février 2007

Effectivement, vu sous cet angle...


Quoique dans le cas de Word 8 la véritable chaine est "Microsoft Word 8.0" avec, avant et après, au moins un caractère nul (00 en hexa).
A voir si dans un fichier Excel la même chaine saisie est encadrée par des caractères nuls.
Je sais c'est fragile mais, en cherchant bien, je suis sur qu'on peut trouver d'autres clés, par exemple, sur le même document j'ai trouvé les caractères :
W o r d D o c u m e n t
chacun séparés par un caractère nul. En Hexa ça donne  :


57 00 6F 00 72 00 64 00 44 00 6F 00 63 00 75 00 6D 00 65 00 6E 00 74 00


Dans Excel la même chaine saisie n'est pas codée de la même façon (j'ai fait la recherche dans un classeur Excel, même avec un document Word inséré dedans).
Bon, tout ça c'est peut être pas très complet. Reste à voir s'il n'y a pas d'autres clés pour Word (en clair ou non), de voir pour les autres types de fichiers puis de mettre en pratique. Pour ce soir, je vais te laisser cogiter là-dessus (je dois me lever à 3h demain).

Bonne recherche
Messages postés
132
Date d'inscription
dimanche 12 août 2001
Statut
Membre
Dernière intervention
17 octobre 2008

Salut,
je pense qu'il n'y a rien dans les fichiers qui détermine si c'est des fichiers XLS ou DOC, la preuve c'est que sans extension windows ne sait pas avec quoi ouvrir un fichier, si tu enlèves l'extension xls a un fichier excel l'icône change en icône générique et windows ne sait plus quel type de fichier c'est.
Faudrait les ouvrir avec un editeur hexa pour voir si y'a un répère quelconque mais je ne pense pas.
C'est ce que je pense mais je peux me tromper, on verra si y'en a d'autres qui ont plus d'infos.
A+
Messages postés
132
Date d'inscription
dimanche 12 août 2001
Statut
Membre
Dernière intervention
17 octobre 2008

Bon, j'ai peut-être été un peu vite, voilà ce qu'on voit quand on ouvre 2 fichiers word et excel dans un éditeur hexa :

alors je ne sais plus quoi penser !!


faut attendre l'avis d'un expert
Messages postés
630
Date d'inscription
vendredi 5 mai 2006
Statut
Membre
Dernière intervention
17 février 2007

Salut


Désolé de te contredire il y a quelque chose (je dirais même plusieurs choses) qui détermine l'origine d'un document.
La preuve : essayez de juste renommer l'extension de Doc en Xls ou inversement (ou d'autres types), puis double-cliquez sur ce fichier vous verrez que Windows essaie d'ouvrir (là n'a pas tort) mais Excel ou Word ou autres ne reconnaissent pas le format. Je dirais même plus, essayez de lire un fichier Excel version 2002 avec une version 97.
Ma conclusion, ça doit être une usine à gaz infernale d'essayer de reconnaître l'origine d'un document et surtout de sa version.
Mais bon, comme je ne détiens pas la science infuse, il y a peut-être une solution que quelqu'un d'autre t'apportera ?
Messages postés
120
Date d'inscription
mercredi 17 septembre 2003
Statut
Membre
Dernière intervention
18 mai 2007

Salut,

Merci pour vos deux réponses,

Je sais que binairement, il doit y avoir quelquechose qui rend différent un document word d'un document excel, mais cela peut être très long à analyser et trouver ...

C'est pour ça que j'ai cherché un site Web qui avait peut-être déjà trouvé c'est distinction, mais je n'en ai pas trouvé ...

Merci
a+
Messages postés
630
Date d'inscription
vendredi 5 mai 2006
Statut
Membre
Dernière intervention
17 février 2007

Une petite piste possible :
Je n'ai pas écrit le scanner de fichier mais j'ai juste utilisé un éditeur Hexa (Hackman Hex Editor) et j'ai utilisé sa fonction search avec "Word 8" (sur un doc Word 97) et j'ai trouvé la correspondance indiquant donc, quelque soit l'extension, que ce fichier était bien un document Word 97.
Il y a surement quelque chose à faire avec ça. Par exemple charger le fichier comme un fichier texte ou binaire et faire une recherche de cette chaine.
Pour les correspondances des différentes versions de Word :
http://fr.wikipedia.org/wiki/Microsoft_Word
Pour excel et PDF, ça doir pouvoir se trouver aussi.

J'espère que ça t'avance dans ta recherche ?
Messages postés
630
Date d'inscription
vendredi 5 mai 2006
Statut
Membre
Dernière intervention
17 février 2007

philcam> On ne voit pas tes images car elles se trouvent sur ton disque et on n'y a pas accès.
Messages postés
120
Date d'inscription
mercredi 17 septembre 2003
Statut
Membre
Dernière intervention
18 mai 2007

Salut,

J'avais effectivement essayé de voir avec un logiciel hexadécimal si je pouvais trouvé le mot clé "Word" ou "Word 8". Le problème que j'ai trouvé est sque i je fais une recherche pour savoir si le document contient "Word 8" et que je suis dans un document excel et que quelqu'un a écrit dans le document excel exactement "Word 8" ...

Je sais que je pousse loin et que la possibilité est minime, mais j'aime mieux prévoir ...

Merci
a+
Messages postés
120
Date d'inscription
mercredi 17 septembre 2003
Statut
Membre
Dernière intervention
18 mai 2007

Salut,

Merci pour tes conseils,

Avec cela, je devrais être capable de pondre une solution efficace et viable.

Merci
a+