Nettoyer un fichier texte

Soyez le premier à donner votre avis sur cette source.

Snippet vu 5 126 fois - Téléchargée 12 fois

Contenu du snippet

se petit script sert à nettoyer un fichier texte qui contient des chaine de caractère nettoyer les ponctuation, supprimer la redandance , supprimer les chiffre,et écrire le résultat dans un autre fichier qui seras contienne un texte brut
vraiment c'est mon premier essai vous pouvez modifier et develloper
merci


#! /usr/bin/ python
# -*- coding: utf-8 -*
import sys
import string
begin_word=""
end_word="\n"
def isnewword(wordsearch):
    isnewword=True
    outfsearch=outf
    outfsearch.seek(0)
    for linesearch in outfsearch:        
        if linesearch.find(wordsearch)!=-1:
            return False
    if outline.find(wordsearch)!=-1:
        return False
    return isnewword
try:
    inf=open(sys.argv[1],'rb')
except IndexError:
    print "erreur ... pas de fichier IN"
    sys.exit()
try:
    outf=open(sys.argv[2],'wb+')
except IndexError:
    outf=open(sys.argv[1]+".out",'wb+')
for line in inf:
    line=''.join([word if word not in string.punctuation else " " for word in line])
    line=line.lower()
    line=line.split()
    outline=""
    for word in line:
        word= begin_word + " ".join(word) +  end_word
        if isnewword(word)==True:
            outline=outline + word 
    outf.write(outline)
inf.close()
outf.close()

Compatibilité : python 2.7

A voir également

Ajouter un commentaire

Commentaire

YepoMax
Messages postés
74
Date d'inscription
samedi 8 décembre 2012
Statut
Membre
Dernière intervention
14 juin 2014
14
Votre script deviendra déjà plus intéressant si vous enfermez tout dans une fonction avec comme argument le fichier source, le fichier destination ^^

Vous n'êtes pas encore membre ?

inscrivez-vous, c'est gratuit et ça prend moins d'une minute !

Les membres obtiennent plus de réponses que les utilisateurs anonymes.

Le fait d'être membre vous permet d'avoir un suivi détaillé de vos demandes et codes sources.

Le fait d'être membre vous permet d'avoir des options supplémentaires.