se petit script sert à nettoyer un fichier texte qui contient des chaine de caractère nettoyer les ponctuation, supprimer la redandance , supprimer les chiffre,et écrire le résultat dans un autre fichier qui seras contienne un texte brut
vraiment c'est mon premier essai vous pouvez modifier et develloper
merci
#! /usr/bin/ python
# -*- coding: utf-8 -*
import sys
import string
begin_word=""
end_word="\n"
def isnewword(wordsearch):
isnewword=True
outfsearch=outf
outfsearch.seek(0)
for linesearch in outfsearch:
if linesearch.find(wordsearch)!=-1:
return False
if outline.find(wordsearch)!=-1:
return False
return isnewword
try:
inf=open(sys.argv[1],'rb')
except IndexError:
print "erreur ... pas de fichier IN"
sys.exit()
try:
outf=open(sys.argv[2],'wb+')
except IndexError:
outf=open(sys.argv[1]+".out",'wb+')
for line in inf:
line=''.join([word if word not in string.punctuation else " " for word in line])
line=line.lower()
line=line.split()
outline=""
for word in line:
word= begin_word + " ".join(word) + end_word
if isnewword(word)==True:
outline=outline + word
outf.write(outline)
inf.close()
outf.close()
Modifié par YepoMax le 23/05/2014 à 12:02
Vous n'êtes pas encore membre ?
inscrivez-vous, c'est gratuit et ça prend moins d'une minute !
Les membres obtiennent plus de réponses que les utilisateurs anonymes.
Le fait d'être membre vous permet d'avoir un suivi détaillé de vos demandes et codes sources.
Le fait d'être membre vous permet d'avoir des options supplémentaires.