Regex pour scrapper rss

rale12 Messages postés 8 Date d'inscription vendredi 3 juin 2022 Statut Membre Dernière intervention 7 juin 2022 - 3 juin 2022 à 18:20
rale12 Messages postés 8 Date d'inscription vendredi 3 juin 2022 Statut Membre Dernière intervention 7 juin 2022 - 7 juin 2022 à 13:49
Bonjour,

J'ai un plugin wp automatic qui scrappe du texte et je voudrais qu'il ne scrappe pas les images
j'ai remarqué qu'on pouvait faire un template pour customiser l'article, le post qu'on souhaite dans le plugin
<br>[matched_content] çà doit être du langage regex?
Comment dire au scraper de ne pas intégrer les images qui ont ce code en général ci-dessous :
<img class="wp-image-" class="wp-image-1509766" srcset="https://
J'ai bien regardé les paramètres dans la doc :
https://s3.amazonaws.com/valvepress/documentation/index.html

Il y a pas mal de réglages qui évitent d'utiliser du code mais il y a pas de paramètres pour éviter de scraper des images dans le corps du post html, on peut strip les images mises en avant mais c'est tout.
Une idée de code dans le post template?
Merci

13 réponses

Whismeril Messages postés 19022 Date d'inscription mardi 11 mars 2003 Statut Contributeur Dernière intervention 17 avril 2024 656
3 juin 2022 à 18:59
Bonsoir
Peux tu poster un extrait du code html que tu veux scrapper?
0
rale12 Messages postés 8 Date d'inscription vendredi 3 juin 2022 Statut Membre Dernière intervention 7 juin 2022
3 juin 2022 à 20:27
en fait je scrappe plusieurs sites donc j'ai pas un code précis mais ce qui ressort dans le scrap c'est toujours ca pour les images : <img class="wp-image-" class="wp-image- srcset="https://
je voudrais faire un code regex pour empecher qu'ils scrappent les balises images, est ce possible?
0
Whismeril Messages postés 19022 Date d'inscription mardi 11 mars 2003 Statut Contributeur Dernière intervention 17 avril 2024 656
3 juin 2022 à 20:32
Oui certainement.
Mais pour tester, il faut un morceau de code exemple
0
rale12 Messages postés 8 Date d'inscription vendredi 3 juin 2022 Statut Membre Dernière intervention 7 juin 2022
Modifié le 5 juin 2022 à 09:45
ok désolé j'avais pas compris

Il peut sembler assez standard à l'extérieur - et a même une poignée Instagram ironique "1StockX3M" collée sur le hayon - ce X3 M est tout sauf cela. Doté d'une mise à niveau de Pure Turbos, le moteur six cylindres en ligne développe désormais une puissance colossale de 750 chevaux et 940 Newton-mètres (691 livres-pied) de couple. En faisant le calcul, c'est une augmentation massive de 240 ch et 340 Nm (250 lb-pi) par rapport au véhicule standard.

<noscript>

<img class="alignnone size-medium wp-image-371295" src="https://cdn.bmwblog.com/wp-content/uploads/2020/04/The-All-New-BMW-X3-M-Competition-AU-Model-18-830x553.jpg" alt="La toute nouvelle BMW X3 M Competition AU modèle 18 830x553" width="830" height="553" srcset="https://cdn.bmwblog.com/wp-content/uploads/2020/04/The-All-New-BMW-X3-M-Competition-AU-Model-18-830x553.jpg 830w, https://cdn.bmwblog.com/wp-content/uploads/2020/04/The-All-New-BMW-X3-M-Competition-AU-Model-18-1024x683.jpg 1024w, https://cdn.bmwblog.com/wp-content/uploads/2020/04/The-All-New-BMW-X3-M-Competition-AU-Model-18-768x512.jpg 768w, https://cdn.bmwblog.com/wp-content/uploads/2020/04/The-All-New-BMW-X3-M-Competition-AU-Model-18-1536x1024.jpg 1536w, https://cdn.bmwblog.com/wp-content/uploads/2020/04/The-All-New-BMW-X3-M-Competition-AU-Model-18-300x200.jpg 300w, https://cdn.bmwblog.com/wp-content/uploads/2020/04/The-All-New-BMW-X3-M-Competition-AU-Model-18.jpg 1920w" sizes="(max-width: 830px) 100vw, 830px" title="image de la toute nouvelle BMW X3 M Competition AU modèle 18 830x553"/>

</noscript>

<img class="lazyload alignnone size-medium wp-image-371295" title="image de la toute nouvelle BMW X3 M Competition AU modèle 18 830x553" src="https://cdn.bmwblog.com/wp-content/uploads/2020/04/The-All-New-BMW-X3-M-Competition-AU-Model-18-830x553.jpg" srcset="https://cdn.bmwblog.com/wp-content/uploads/2020/04/The-All-New-BMW-X3-M-Competition-AU-Model-18-830x553.jpg 830w, https://cdn.bmwblog.com/wp-content/uploads/2020/04/The-All-New-BMW-X3-M-Competition-AU-Model-18-1024x683.jpg 1024w, https://cdn.bmwblog.com/wp-content/uploads/2020/04/The-All-New-BMW-X3-M-Competition-AU-Model-18-768x512.jpg 768w, https://cdn.bmwblog.com/wp-content/uploads/2020/04/The-All-New-BMW-X3-M-Competition-AU-Model-18-1536x1024.jpg 1536w, https://cdn.bmwblog.com/wp-content/uploads/2020/04/The-All-New-BMW-X3-M-Competition-AU-Model-18-300x200.jpg 300w, https://cdn.bmwblog.com/wp-content/uploads/2020/04/The-All-New-BMW-X3-M-Competition-AU-Model-18.jpg 1920w" alt="La toute nouvelle BMW X3 M Competition AU modèle 18 830x553" width="830" height="553" data-sizes="(max-width: 830px) 100vw, 830px" />


Avec le moteur de 3,0 litres fortement amélioré, la BMW X3 M Competition accélère à 62 mph (100 km / h) à partir d'un arrêt en 2,91 secondes stupéfiantes, ce qui est essentiellement un territoire de supercar. Tout aussi impressionnant est le temps qu'il faut pour atteindre 124 mph (200 km/h) à partir de zéro - seulement 9,6 secondes. Le SUV amplifié a parcouru le quart de mile en 10,53 secondes. Dans une course ultérieure, il a continué à accélérer à 180 mph (290 km / h).
0

Vous n’avez pas trouvé la réponse que vous recherchez ?

Posez votre question
Whismeril Messages postés 19022 Date d'inscription mardi 11 mars 2003 Statut Contributeur Dernière intervention 17 avril 2024 656
Modifié le 3 juin 2022 à 23:28
Ok

Dans cet exemple, il semble y avoir plusieurs fois la même image avec différentes définitions (j'imagine pour s'adapter à la taille de l'appareil qui visionne le site).
Une option peut être de sélectionner la balise img entière.
  • exemple avec le moteur regex PHP > 7.3

<img class.*?\/>
On voit qu'il y a 2 matchs

Une autre option peut-être de sélectionner uniquement le chemin de l'image (là je n'ai paramétré que 3 extensions possibles, il faudra probablement étoffer)
https?:\/.*?\.(jpg|bmp|png)
Cette fois 14 matchs

En espérant, que ton scrappeur, ne prenne pas ce qui match.








0
rale12 Messages postés 8 Date d'inscription vendredi 3 juin 2022 Statut Membre Dernière intervention 7 juin 2022
Modifié le 4 juin 2022 à 09:52
tu veux dire qu'il faut que je rajoute ce code à peaufiner pour exclure tous les types d'images:
https?:\/.*?\.(jpg|bmp|png)
à l'intérieur du plugin c'est à dire ici : https://www.zupimages.net/viewer.php?id=22%2F22%2F85rz.png
0
Whismeril Messages postés 19022 Date d'inscription mardi 11 mars 2003 Statut Contributeur Dernière intervention 17 avril 2024 656
5 juin 2022 à 06:45
Je te dis que cette regex capture un chemin d'image (comme tu peux le voir en cliquant sur le lien associé à la syntaxe).
Après je ne sais pas comment fonctionne ton scrapper et si c'est ça qu'il attend
0
rale12 Messages postés 8 Date d'inscription vendredi 3 juin 2022 Statut Membre Dernière intervention 7 juin 2022
5 juin 2022 à 18:27
moi je cherche juste a supprimer les chemins d'image du scrap
0
Whismeril Messages postés 19022 Date d'inscription mardi 11 mars 2003 Statut Contributeur Dernière intervention 17 avril 2024 656
6 juin 2022 à 06:38
Dans ton premier message tu as dit penser avoir besoin d'une regex.
Je t'en propose 2.
Maintenant soit tu essayes et si ça te va tant mieux, si ça ne va pas, tu peux revenir ici expliquer ce que ça a donné.
Soit je ne peux rien pour toi
0
rale12 Messages postés 8 Date d'inscription vendredi 3 juin 2022 Statut Membre Dernière intervention 7 juin 2022
6 juin 2022 à 11:54
Bonjour,
on a pas du se comprendre
je cherchais comment faire pour utiliser tes regex, j'ai trouvé ou
du coup j'ai mis tes deux regex dans Strip parts after extracting content using REGEX dans le plugin
alors ca marche sur certains sites, d'autres pas et d'autres ca scrape pas tout le texte mais ca enleve les photos avec un texte souligné...
Après c'est déjà pas mal car je veux absolument limiter les photos hotlink....et ca m'a l'air assez complexe pour trouver un regex homogène qui s'adapte à tous les sites.
0
Whismeril Messages postés 19022 Date d'inscription mardi 11 mars 2003 Statut Contributeur Dernière intervention 17 avril 2024 656
6 juin 2022 à 21:36
Je pense qu'il faut utiliser l'une ou l'autre, mais pas les 2.

Peux tu poster un exemple de chaque type de site où ça ne marche pas et dire ce qu'est le texte souligné?
0
rale12 Messages postés 8 Date d'inscription vendredi 3 juin 2022 Statut Membre Dernière intervention 7 juin 2022
7 juin 2022 à 12:31
voici un exemple de texte souligné déjà html et visuel en pièce jointe:
<noscript><picture class="alignwide size-full wp-image-47988"><source type="image/webp" srcset=".webp 1200w, .webp 300w, .webp 1024w, .webp 768w, .webp 400w, .webp 451w, .webp 420w, .webp 840w, .webp 150w" sizes="(max-width: 1024px) 100vw, 860px"/><img src="" alt="La capucine en pot a besoin de soleil" width="1200" height="799" srcset=" 1200w, 300w, 1024w, 768w, 400w, 451w, 420w, 840w, 150w" sizes="(max-width: 1024px) 100vw, 860px"/></picture></noscript>

La capucine demande un sol fertile et léger, mais si l'irrigation est maîtrisée, <strong>servira le substrat universel de pratiquement n'importe quelle marque</strong>:

<noscript><picture class="alignwide size-full wp-image-47989"><source type="image/webp" srcset=".webp 1200w, .webp 300w, .webp 1024w, .webp 768w, .webp 400w, .webp 420w, .webp 840w, .webp 150w" sizes="(max-width: 1024px) 100vw, 860px"/><img src="" alt="La capucine pousse en pot" width="1200" height="900" srcset=" 1200w, 300w, 1024w, 768w, 400w, 420w, 840w, 150w" sizes="(max-width: 1024px) 100vw, 860px"/></picture></noscript>
0
rale12 Messages postés 8 Date d'inscription vendredi 3 juin 2022 Statut Membre Dernière intervention 7 juin 2022
7 juin 2022 à 13:49
https://feeds.feedburner.com/BmwBlog
site ou ca ne marche pas
0
Rejoignez-nous