Récupérer l'extrait d'une page web distante

Question

Bonjour tout le monde :) Voilà je prépare un petit projet perso (qui sera partagé quand il sera, au moins, beau a regarder ^^) Je souhaiterais savoir comment récupérer un extrait de page web, manière aux publications sur facebook : on rentre une url et le script sort un texte d'une longueur donnée (disons par exemple 300 caractères) correspondant je pense au premier paragraphe du corps de la page; J'ai essayé avec ça : $contenuepage = file_get_contents($adresse); preg_match_all("#(.*?)#is", $contenuepage,$page); $extrait = strip_tags($page[0][0]); $extrait = trim(substr($extrait, 0, 300)); mais cela me sort toutes les balises et les javascripts ... Il n'existerait pas de manière plus simple ? comment je dois faire ?? Merci de votre attention Pierre-Emm

nagaD.scar · Answer

salut le contenu que tu récupère est au format html, et son contenu est brut => il est normal de récupérer tout un contenu qui ne t'interesse pas ( mise en page, dynamisme, etc.). Par contre, il nous faudrai un peu plus de détails, comme un exemple de contenu à interpréter (tu parle de paragraphe, ce qu'il faut c'est le détecter => en fonction de quoi? il y a quoi autour? ). Je pense que tu as quelques question à de poser dans un premier temps. Par exemple, tu souhaite récupérer les 300 premiers caractères d'un bloc de texte => tu peux identifier des blocs par les balises (

par exemple), mais il ne faut pas que les balises soient interprété comme tel => il y en aura à ignorer [titre, href, etc. ] d'autre à exclure [div, table, list, etc.]) . Bref toutes ces petites choses qui te permettront d'isoler la partie qui t'interesse. naga

cs_pebayart · Answer

Merci Nagashima :)

Les pages pour lesquelles je souhaite un extrait sont aléatoires ... ainsi que leur structure ... 
je ne sais pas ce qu'il y a autour;

Donc ce n'est pas forcément un paragraphe ... ce peux très bien être dans une cellule de tableau, selon comment la page a était codé;

C'est vraiment comme sur facebook, tu rentre une url, il te sort un extrait de la page (avec une image) et hop tu publie;


En faite je suis entrain de me faire un gestionnaire de favoris, et je voudrais que cela affiche un résumé des pages indexés :)

Récupérer l'extrait d'une page web distante

2 réponses

Votre réponse

Discussions similaires