Chercher des doublons de sous chaines de caractere

steph4487 Messages postés 1 Date d'inscription mardi 23 août 2022 Statut Membre Dernière intervention 23 août 2022 - 23 août 2022 à 21:28
Whismeril Messages postés 19029 Date d'inscription mardi 11 mars 2003 Statut Contributeur Dernière intervention 26 avril 2024 - 24 août 2022 à 11:54

Bonjour,

jai un tres grand texte( envoron 20 000 pages) , je l'ai changé en liste avec python, pour pouvoir utiliser une boucle for dessus.

Au depart de mon probleme, je cherchais tous les doublons dune chaine dans le reste du texte, en utilisant la fonction chercher/ remplacer dans open office. Jai utilisé aussi les regex pour pouvoir entrer deux chaines ou plus ds ma recherche de doublons. Mais meme ca, ca reste trop tempivore! 

Donc je souhaite combiner regex et boucle for ds python pour:

_dire quune chaine a au moins 30 caracteres, en la rentrant sous forme de regex dans une boucle for.

_ grace a cette boucle for, pouvoir entrer comme parametre que je cherche une egalite stricte de cette chaine de 30 caracteres.

Quelqun a une idee de comment je pourrais ecrire ca dans mon code python ??

MERCI !

3 réponses

Whismeril Messages postés 19029 Date d'inscription mardi 11 mars 2003 Statut Contributeur Dernière intervention 26 avril 2024 656
23 août 2022 à 22:19

Bonsoir

_dire quune chaine a au moins 30 caracteres,

Pas besoin d'une regex pour ça, len() suffit

je cherche une egalite stricte de cette chaine de 30 caracteres.

Et ça c'est le contraire d'une regex

Plutôt, que proposer les solutions que tu crois adéquats (et tu as peut-être raison), peux tu expliquer mieux ton besoin, et juste ton besoin.


0
steppi26 Messages postés 3 Date d'inscription jeudi 23 avril 2015 Statut Membre Dernière intervention 24 août 2022
24 août 2022 à 11:05

Avec plaisir !

Mon besoin est de 'nettoyer' mon texte. Ils est au format txt.

Il fait 20 000 pages. Avec des morceaux de phrases qui se repetent et sont eparpillés dans tout le document.

Attention, c'est bien des morceaux de phrases (= de chaines de caracteres ?) qui sont en doubles, pas juste les mots. 
je souhaite donc un code capable (sous python de preference) de traquer ces morceaux de phrases et ne garder qu'un seul exemplaire de chaque.

Est-ce que mon probleme est mieux cernable ainsi ?

0
Whismeril Messages postés 19029 Date d'inscription mardi 11 mars 2003 Statut Contributeur Dernière intervention 26 avril 2024 656
24 août 2022 à 11:54

Donc tu ne sais pas à l'avance quels sont ces morceaux de phrase.


0
Rejoignez-nous