Traitement des textes

Résolu
cs_ismailfk Messages postés 37 Date d'inscription vendredi 2 décembre 2005 Statut Membre Dernière intervention 8 juillet 2009 - 5 avril 2008 à 22:57
cs_ismailfk Messages postés 37 Date d'inscription vendredi 2 décembre 2005 Statut Membre Dernière intervention 8 juillet 2009 - 8 avril 2008 à 21:45
Bonjour,
est ce que vous pouvez m'aider? En faite, je suis entrain de traiter les textes. C'est à dire, (fichier .txt ou rtf ou doc ...) je veux avoir la structure de ce texte (le titre, le paragraphe, sections, ...). L'entrée de l'application est un fichier contient un texte et la sortie la structure de ce texte (titre, titres des paragraphes ...)

2 réponses

Ombitious_Developper Messages postés 2333 Date d'inscription samedi 28 février 2004 Statut Membre Dernière intervention 26 juillet 2013 38
6 avril 2008 à 12:02
Salut:

Ce problème peut être à un simple problème d'algorithmique.

1. La première approche: Lire tout le contenu du fichier texte dans un buffer.

Pour détecter une paragraphe il faut détecter la séquence "\n\n".

Pour détecter une phrase il faut détecter "\n".

Pour les mots on peut les obtenir en découpant une phrase, utilises la méthode split() de la classe String ou bien la classe StringTokenizer.

2. La deuxième approche: Lire à partir du fichier et analyser au fûr et à mesure

Utilises la classe StreamTokenizer, c'est un analyseur de flux configurable.

Les remarques déja citées restent valables.

Bonne programmation.
3
cs_ismailfk Messages postés 37 Date d'inscription vendredi 2 décembre 2005 Statut Membre Dernière intervention 8 juillet 2009
8 avril 2008 à 21:45
Est ce qu'il y'a une possiblité de connaitre le police d'un mot dans un texte taille, s'il est en gras ...
0