Svp j'ai besoin d'une réponse s'il existe: utilisation de streamtokenizer
monoleilaaa
Messages postés7Date d'inscriptionlundi 19 avril 2010StatutMembreDernière intervention 8 mai 2010
-
4 mai 2010 à 02:35
monoleilaaa
Messages postés7Date d'inscriptionlundi 19 avril 2010StatutMembreDernière intervention 8 mai 2010
-
5 mai 2010 à 22:59
salut
j'ai un projet en java, tout d'abord je doit lire un fichier contient des document en HTML sont separer par les 2 balise <DOC> et </DOC> je veux lire ses document mot a mot et determiner pour chaque document(identifiant ,titre, longeur (nombre de terme), URL, un tableau de terme se dernier et un autre class appele terme (racine, tf(nombre d'occurence dans le document ),..) je pence dans se cas utiliser la class StreamTokenizer
voici un exmple de début document
<DOC>
<DOCNO>G00-00-0000000</DOCNO>
<DOCHDR>
http://www.aspe.hhs.gov HTTP/1.0 200 OK
Date: Wed, 30 Jan 2002 17:00:23 GMT
Server: WebSitePro/3.0.37
Accept-ranges: bytes
Content-type: text/html
Last-modified: Fri, 18 Jan 2002 19:04:17 GMT
Content-length: 8228
</DOCHDR>
<!DOCTYPE HTML PUBLIC "-//w3c//dtd html 4.0 transitional//en" "http://www.w3.org/TR/REC-html40/loose.dtd">
<HTML>
<HEAD>
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=iso-8859-1">
<META HTTP-EQUIV="Window-target" CONTENT="_top">
<META NAME="keywords"
CONTENT="heath, health care, long term care, disability, aging, evaluation, welfare, income, poverty, poverty guidelines, service delivery, data, research, policy, children, youth, families, abuse, neglect, foster care, child care, child development, family preservation, teen pregnancy, domestic violence, immigrants, immigration, child support, fatherhood, welfare reform, welfare dependency, welfare to work, welfare outcomes,">
<META NAME="descr
...
c.a.d j'ai besoin seulement des mots entre les balise
qui peut m'aider comment je peut utiliser la class Streamtokenizer dans ce cas et merci d'avence
A voir également:
Svp j'ai besoin d'une réponse s'il existe: utilisation de streamtokenizer
monoleilaaa
Messages postés7Date d'inscriptionlundi 19 avril 2010StatutMembreDernière intervention 8 mai 2010 4 mai 2010 à 23:26
salut
ok, dans ma projet le fichier que je veux lire est un fichier de type "nomfich.dat" pas "nomfich.xml" (dans ce cas la est ce que je peut utiliser la class StreamTokenizer)
je fait se programme en utilisant les class xml mais je trouve un problem
}catch(ParserConfigurationException pce)
{
System.out.println("Erreur de configuration du parseur DOM");
System.out.println("lors de l'appel à fabrique.newDocumentBuilder();");
}catch(SAXException se)
{
System.out.println("Erreur lors du parsing du document");
System.out.println("lors de l'appel à construteur.parse(fin)");
}catch(IOException ioe){
System.out.println("Erreur d'entrée/sortie");
System.out.println("lors de l'appel à construteur.parse(fin)");
}
}
}
l'excution ma donner
Erreur lors du parsing du document
lors de l'appel à construteur.parse(fin)
Vous n’avez pas trouvé la réponse que vous recherchez ?
johnjjj
Messages postés120Date d'inscriptiondimanche 4 avril 2010StatutMembreDernière intervention24 septembre 2012 5 mai 2010 à 15:02
bonjours
j'ai pas bien compris votre question
si tu veux manipuler un ficher XML avec java c'est tres facile il faut travailler avec JDOM parser DOM ou SAX
Si tu veux lire un ficher .dat il faut desérialiser le ficher et traviler
tranquillement
monoleilaaa
Messages postés7Date d'inscriptionlundi 19 avril 2010StatutMembreDernière intervention 8 mai 2010 5 mai 2010 à 22:59
ben
exactement mon projet est la premiere étape de la réalisation d'un moteur de recherche (la représentation de la base documentaire du moteur de recherche ), cette étape est consiste a lire un dossier qui contient 2 fichier zip et le transformer en 2 fichier dat je fait cette partie
puis je veux lire les 2 fichier dat est construire 2 class document et terme comme j'indiquer dans mon 1er question
ensuite je veux stoker ses information de chaque document et de chaque terme dans un fichier sérialisable pour que le 2eme group puissent l'utiliser dans la 2eme étape l'indexation