cs_doudoupe
Messages postés3Date d'inscriptionmercredi 12 mars 2008StatutMembreDernière intervention16 septembre 2011
-
13 sept. 2011 à 13:39
cs_doudoupe
Messages postés3Date d'inscriptionmercredi 12 mars 2008StatutMembreDernière intervention16 septembre 2011
-
16 sept. 2011 à 15:26
Bonjour à tous.
J'aimerais développer un petit programme qui me permettrait de récupérer des articles de Google Actualité et des vidéos Youtube par mot-clé. L'idéal serait de les stocker en BDD (titre/corps/provenance/auteur/url pour les articles et juste url youtube pour les vidéos).
L'idée c'est d'intégrer ce contenu sur un site/blog, du genre : "Les actus de 'MonMotClé' " et éventuellement automatiser la mise à jour.
Pour faire simple, j'ai trouvé wp-robot qui est un module Wordpress (php) qui récupère du contenu depuis différentes sources en fonction d'un mot-clé et qui insère le tout dans un template. C'est tout à fait ce que je recherche à faire, mais j'aimerais transposer cela vers Java.
Vers quelle piste devrais-je m'orienter ?
Merci beaucoup.
cs_doudoupe
Messages postés3Date d'inscriptionmercredi 12 mars 2008StatutMembreDernière intervention16 septembre 2011 14 sept. 2011 à 12:30
Merci Fauchmanne.
En ce qui concerne les vidéos Youtube, c'est réglé, l'API fournie par google est très simple d'utilisation, du moins pour ce qui est de la récupération.
Par contre je bloque toujours sur les articles de google news. Pour le moment, je récupère un JSON depuis le service google https://ajax.googleapis.com/ajax/services/search/news?v=1.0&q=KEYWORD&hl=fr.
Alors avec ça je récupère seulement titre/résumé/url/related stories et d'autres metas moins importantes pour moi.
Mais pas l'article au complet.
Y a t'il une meilleure solution que de récupérer les URLs de chaques entrée du JSON et d'aspirer le contenu de chacune puis parser pour récupérer le contenu ?
De plus, j'ai constaté que google a dépricié son API Google News Search. Y a t'il un autre moyen à jour pour récupérer les mêmes données ?
A partir de là, je récupère le JSON et accède aux champs qui m'interesse (titre/provenance/chapeau/url). Le chapeau, il s'agit du début de l'article, comme ça je dirait environ 300char.
2) A partir de l'url, j'utilise l'API yahoo (avec le YQL) pour accéder à la news et surtout à son contenu (article entier).
3) Je récupère ainsi le contenu html du 'div' contenant l'article. Selon les différentes sources, un fichier properties se charge d'appliquer le bon xpath.
Et je récupère mon contenu dans un DOMDocument que je parse.
Mon problème est que Google Actualité à beaucoup de sources... Et récupérer les xpath de chaque source, c'est beaucoup de travail. Sans compter qu'il peut changer s'il y a une mise à jour du site source.
On en revient donc à ma question initiale, n'y a t'il pas une API qui me permettent de récupérer tout d'un coup ? Et surtout sans avoir à passer par les xpath ?