Recherche d'une chaine dans des fichiers

Contenu du snippet

Ce script est destiné à la recherche de fichiers qui contiennent une chaîne de caractère dans un ensemble de fichiers contenus dans un répertoire parent ou dans des sous répertoires du répertoire parent.

L'utilité de ce script est de retrouver les fichiers à modifier lorsqu'on connait la chaîne recherchée, mais pas les fichiers concernés. Cette méthode est beaucoup moins 'sure' et beaucoup moins 'professionnelle' qu'un débugage, mais elle est aussi beaucoup plus rapide (surtout si vous ne maîtrisez pas le language ou si les programmes ne sont pas commentés).

Le script va analyser l'intégralité des fichiers présents dans le répertoire parent et tous les sous répertoires. Dans chaque fichier, une recherche de la chaîne est effectuée. Si la chaîne est détectée, on sauvegarde le chemin d'accés et le nom du fichier en question.

Attention, il est possible que certains fichiers ne soit pas traités correctement. Deux raisons à celà :
  • La première (qui vous sera annoncé sur la console) est liée aux droits d'accés des fichiers. Il est évident que les restrictions habituelles de lecture restent opérationnelles.
  • La deuxième (qui est tranparente pour l'utilisateur) est liée à la manière dont est écrite le fichier. En effet, la fonction utilisée pour l'analyse du fichier (read) peut détecter la fin du fichier avant l'heure... Ceci étant, pour l'application décrite au dessus (recherche de chaîne dans des fichiers de type texte/programme) ce type d'erreur est peu probable.


Pour rentrer un peu plus dans le vif du sujet, ce script utilise la classe os.path qui permet entre autre de gérer l'arboréscance des répertoires et les fichier. Vous remarquerez que j'ai fais un effort considérable sur les commentaires afin que ce programme soit d'une part adaptable facilement, et que d'autre part, il puisse servir d'exemple/tutorial. Vous noterez également que j'ai pris en compte la portabilité de l'application (windows/linux) grâce à la variable 'port'.

Source / Exemple :


import os.path

def searchCode(pathIn='',chaine='',port='\\'):
	"""Recherche dans le repertoire et les sous repertoires 'path' la chaine de caractere 'chaine'
	et retourne une liste des chemins vers les fichiers ou la chaine a ete trouvee.
	La variable 'port' permet de porter ce script de linux a windows en un clin d'oueil ;-)"""
	fileOut=[]#Initialisation d'une liste representant les chemins vers fichiers ou la chaine a ete trouvee
	error=0
	for root, dirs, fileIn in os.walk(pathIn):
		#Lecture des differents fichiers du repertoire root
		for i in range(0,len(fileIn)):
			try:
				#'Lecture du fichier' fileIn[i],'situe dans le repertoire',root
				fichier=open(root+port+fileIn[i],'r')#Ouverture du fichier
				data=fichier.read()#Lecture des donnees sauvegardees sous forme de liste
				if data.count(chaine):#Teste si la chaine est contenue dans le fichier
					#'La chaine a ete trouvee',data.count(chaine),'fois.'
					fileOut=fileOut+[root+port+fileIn[i]]#sauvegarde du chemin dans une liste
					fichier.close()#Fermeture du fichier
			except:
				print 'Erreur lors du traitement du fichier', str(root+port+fileIn[i])
				error=error+1
	print 'Traitement termine, '+str(len(fileOut))+' fichier(s) contenant la chaine. '+str(error)+' erreur(s)'
	return fileOut

#Programme principal de test de la fonction
print 'Bonjour, et bienvenu,\nPour tout renseignement, contacter tonny.rosca@gmail.com'
sortie=searchCode(pathIn='D:\\xampplite\\htdocs\\lewebvuparguigui',chaine='Lire la suite')
for i in range(0,len(sortie)):
	print 'Le fichier '+str(sortie[i])+' contient la chaine recherchee.'

Conclusion :


Pour avoir la dernière version, ou tout simplement motiver ma participation, visitez mon site (je mettrai bientôt en ligne une seconde version de ce script écrit sous forme de classe avec une interface graphique Tkinter):
http://gdaveau.free.fr

A voir également

Vous n'êtes pas encore membre ?

inscrivez-vous, c'est gratuit et ça prend moins d'une minute !

Les membres obtiennent plus de réponses que les utilisateurs anonymes.

Le fait d'être membre vous permet d'avoir un suivi détaillé de vos demandes et codes sources.

Le fait d'être membre vous permet d'avoir des options supplémentaires.