Maurimaure
Messages postés20Date d'inscriptionmardi 13 novembre 2012StatutMembreDernière intervention13 novembre 2012
-
14 avril 2005 à 12:08
Maurimaure
Messages postés20Date d'inscriptionmardi 13 novembre 2012StatutMembreDernière intervention13 novembre 2012
-
18 avril 2005 à 17:58
Maurimaure
Messages postés20Date d'inscriptionmardi 13 novembre 2012StatutMembreDernière intervention13 novembre 2012 14 avril 2005 à 12:15
Bonjour,
j'aimerais ecrire un script php qui me permet de générer un flux RSS
pour les sites qui en possédent pas. par exemple je donne l'url du site
à mon script et il me genere un flux RSS
On m'a proposé
d'utiliser des expressions réguliéres pour récuperer le titre, le lien
et la description de chaque article. mais j'ai du mal à mettre les
idées en places.
Alors j'aimerais avoir votre réflexion la-dessus, l'avez vous déja creer?
malalam
Messages postés10839Date d'inscriptionlundi 24 février 2003StatutMembreDernière intervention 2 mars 201025 14 avril 2005 à 22:47
Je viens de relire un peu mieux...
Ton idee ne me parait pas franchement realisable.
Je m'explique :
chaque site a des infos differentes, des facons differentes de les
presenter...parfois tu n'auras pas d'auteur, ou de sujet, ou...etc.
Les expressions regulieres ? Elles ne vont pas te servir a grandchose : tu vas baser tes motifs sur quoi ?
Creer un flux, c'est facile. Avec DOM_xml, ou tout simplement en concatenant des chaines...
L'automatiser pour qu'il soit adaptable a TOUTES les situations...?
Certains auront leur news en dur (html), d'autres generees par une bdd...
Et puis, tu sauras comment ce que tu dois recuperer ? Avec l'url du
site ? Vers ou ? quelle page ? La page news ? Ah...et si il y en a
plusieurs de pages news, chacune avec une url differente du genre
www.monsite.com/content.php&news=128674 ? (donc generees
probablement par une base de donnees).
Ce qui est faisable, c'est creer un site pour creer des flux RSS, mais
qui prend des parametres. Bref, un script que le webmaster de tel ou
tel site doit faire tourner lui-meme, et lui donner les bons
parametres. Le probleme : il y en a deja des milliers...
Mais un truc universel...je n'y crois pas. En tous cas pas APRES coup
(le mec a deja son systeme de news). Avant, ok : tu fait un syndicat de
sites, qui ont une charte precise a suivre pour leur news, et toi tu
fournis donc la creation automatique du flux RSS pour ces sites. Mais
il faut que tout soit bien conforme a ton generateur.
Pire, n'oublions pas qu'il y a plusieurs versions du xml RSS...
Bref...creer un parseur de flux rss, c'est facile (meme un qui
comprenne les 3...oui 3 il me semble) versions du xml rss. Creer un
script a qui les webmasters devront passer des parametres, c'est facile
aussi. Mais ces 2 scripts existent deja en bcp bcp d'exemplaires sur le
net. Ce que tu proposes toi me parait tout simplement impossible.
Maurimaure
Messages postés20Date d'inscriptionmardi 13 novembre 2012StatutMembreDernière intervention13 novembre 2012 15 avril 2005 à 11:50
Bonjour,
Merci beaucoup pour ta reponse.
Effectivement le développement d'un script universelle je l'ai abondonné car tous les sites sont différnets...
Mais je pense construir le flux RSS à partir de la source html du site
moyenement des expressions régulières que je vais donner à mon script
pour chaque site.
Alors si tu as une idée au si tu trouve un script déja développé n'hésites pas ...
merci encore
Vous n’avez pas trouvé la réponse que vous recherchez ?
Maurimaure
Messages postés20Date d'inscriptionmardi 13 novembre 2012StatutMembreDernière intervention13 novembre 2012 18 avril 2005 à 10:33
Bonjour,
Merci bcp pour le temps que tu m'a consacré.
j'ai l'impression que tu ne m'as pas bien compris. ou alors c'est moi que n'ai pas compris tes propositions.
Je m'explique :
je doit écrire un script PHP (scraper) qui permet de créer un flux RSS à partir du code HTML.
ce script j'aimerais qu'il soit le plus genérique possible le mieux
c'est que l'utilisateur donne l'url du site qui voulait scraper et le
script lui genére un flux RSS.
Alors si c'est ça que tu comprenais alors je n'ai pas bien compris ce que tu me proposes.
malalam
Messages postés10839Date d'inscriptionlundi 24 février 2003StatutMembreDernière intervention 2 mars 201025 18 avril 2005 à 10:38
Comme je te t'ai dit, un generique, cela me parait impossible pour les raisons que j'ai evoquees.
Tu ne sauras jamais comment tel ou tel webmaster gere ses news. Tu ne peux pas parser un fichier dont tu ne connais pas la structure.
Je donne des exemples ce sera peut-etre plus clair :
le titre peut etre dans un div
dans un span
entre des balises
etc etc...
il peut aussi s'appeler Titre, News, Actu du 18/05/2005, Titre de l'actu du...etc etc...
l'auteur peut-etre un lien, ou non. Et il peut etre n'importe ou. Il peut s'appeler auteur, ou pseudo, ou nom du redacteur, ou...etc etc...
Je ne vois pas comment tu peux parser dans ces conditions.
Maurimaure
Messages postés20Date d'inscriptionmardi 13 novembre 2012StatutMembreDernière intervention13 novembre 2012 18 avril 2005 à 12:40
Ok je suis d'accords avec toi.
C'est pour cela je parlais des expReg .
par exemple j'écrit mon script et chaque fois que je veux scraper un
site je change seulement l'expReg qui me permet d'identifier le titre,
le lien et la description.
tu es d'accords?
si un script de ce genre a déja été developpé j'aimerais bien le voir.