Nettoyer un fichier texte

0/5 (1 avis)

Snippet vu 9 613 fois - Téléchargée 15 fois

Contenu du snippet

se petit script sert à nettoyer un fichier texte qui contient des chaine de caractère nettoyer les ponctuation, supprimer la redandance , supprimer les chiffre,et écrire le résultat dans un autre fichier qui seras contienne un texte brut
vraiment c'est mon premier essai vous pouvez modifier et develloper
merci


#! /usr/bin/ python
# -*- coding: utf-8 -*
import sys
import string
begin_word=""
end_word="\n"
def isnewword(wordsearch):
    isnewword=True
    outfsearch=outf
    outfsearch.seek(0)
    for linesearch in outfsearch:        
        if linesearch.find(wordsearch)!=-1:
            return False
    if outline.find(wordsearch)!=-1:
        return False
    return isnewword
try:
    inf=open(sys.argv[1],'rb')
except IndexError:
    print "erreur ... pas de fichier IN"
    sys.exit()
try:
    outf=open(sys.argv[2],'wb+')
except IndexError:
    outf=open(sys.argv[1]+".out",'wb+')
for line in inf:
    line=''.join([word if word not in string.punctuation else " " for word in line])
    line=line.lower()
    line=line.split()
    outline=""
    for word in line:
        word= begin_word + " ".join(word) +  end_word
        if isnewword(word)==True:
            outline=outline + word 
    outf.write(outline)
inf.close()
outf.close()

Compatibilité : python 2.7

A voir également

Ajouter un commentaire Commentaire
YepoMax Messages postés 74 Date d'inscription samedi 8 décembre 2012 Statut Membre Dernière intervention 14 juin 2014 20
Modifié par YepoMax le 23/05/2014 à 12:02
Votre script deviendra déjà plus intéressant si vous enfermez tout dans une fonction avec comme argument le fichier source, le fichier destination ^^

Vous n'êtes pas encore membre ?

inscrivez-vous, c'est gratuit et ça prend moins d'une minute !

Les membres obtiennent plus de réponses que les utilisateurs anonymes.

Le fait d'être membre vous permet d'avoir un suivi détaillé de vos demandes et codes sources.

Le fait d'être membre vous permet d'avoir des options supplémentaires.