Comment détecter une chaine en UTF-8

Najdar Messages postés 29 Date d'inscription mardi 4 novembre 2003 Statut Membre Dernière intervention 20 mars 2006 - 17 mars 2006 à 11:21
Najdar Messages postés 29 Date d'inscription mardi 4 novembre 2003 Statut Membre Dernière intervention 20 mars 2006 - 20 mars 2006 à 09:18
Bonjour,


Auriez-vous une méthode pour détecter qu'une chaine est en UTF-8 ?

Je travail avec des fichiers Xml provenant de beaucoup de sources. Tous ces fichiers devraient être codée en UTF-8, mais cela n'est pas toujours le cas. J'aimerais savoir quand je dois décoder l'UTF-8.

Merci

2 réponses

katsankat Messages postés 571 Date d'inscription vendredi 30 décembre 2005 Statut Membre Dernière intervention 12 juillet 2012 3
18 mars 2006 à 18:49
Salut :)

Par défaut, le format est UTF-8.

Sinon le charset doit être précisé. Si ce n'est pas le cas, alors le
document n'est pas valide. Il existe des validateurs de documents XML.
0
Najdar Messages postés 29 Date d'inscription mardi 4 novembre 2003 Statut Membre Dernière intervention 20 mars 2006
20 mars 2006 à 09:18
Merci,

Effectivement, j'ai détecté le problème car mon parser refusait certains documents. En encodant ces documents en Utf8, plus de problème.
Je dois traiter des xml de sources très multiples et ... très suceptibles. Je ne peux pas leur dire que leur xml est mal fait, mal encodé.
J'ai donc deux solutions :
1- Encoder les documents en UTF8 lorsque le parser les refuse;
2 -Encoder les documents quand je detecte un chaine non UTF8.

Je préférerai le seconde solution qui me semble plus propre.
Si vous avez une idée...

Merci
0
Rejoignez-nous