Nettoyer un fichier texte

Contenu du snippet

se petit script sert à nettoyer un fichier texte qui contient des chaine de caractère nettoyer les ponctuation, supprimer la redandance , supprimer les chiffre,et écrire le résultat dans un autre fichier qui seras contienne un texte brut
vraiment c'est mon premier essai vous pouvez modifier et develloper
merci


#! /usr/bin/ python
# -*- coding: utf-8 -*
import sys
import string
begin_word=""
end_word="\n"
def isnewword(wordsearch):
    isnewword=True
    outfsearch=outf
    outfsearch.seek(0)
    for linesearch in outfsearch:        
        if linesearch.find(wordsearch)!=-1:
            return False
    if outline.find(wordsearch)!=-1:
        return False
    return isnewword
try:
    inf=open(sys.argv[1],'rb')
except IndexError:
    print "erreur ... pas de fichier IN"
    sys.exit()
try:
    outf=open(sys.argv[2],'wb+')
except IndexError:
    outf=open(sys.argv[1]+".out",'wb+')
for line in inf:
    line=''.join([word if word not in string.punctuation else " " for word in line])
    line=line.lower()
    line=line.split()
    outline=""
    for word in line:
        word= begin_word + " ".join(word) +  end_word
        if isnewword(word)==True:
            outline=outline + word 
    outf.write(outline)
inf.close()
outf.close()

Compatibilité : python 2.7

A voir également

Vous n'êtes pas encore membre ?

inscrivez-vous, c'est gratuit et ça prend moins d'une minute !

Les membres obtiennent plus de réponses que les utilisateurs anonymes.

Le fait d'être membre vous permet d'avoir un suivi détaillé de vos demandes et codes sources.

Le fait d'être membre vous permet d'avoir des options supplémentaires.