Récupération de contenu

cs_doudoupe Messages postés 3 Date d'inscription mercredi 12 mars 2008 Statut Membre Dernière intervention 16 septembre 2011 - 13 sept. 2011 à 13:39
cs_doudoupe Messages postés 3 Date d'inscription mercredi 12 mars 2008 Statut Membre Dernière intervention 16 septembre 2011 - 16 sept. 2011 à 15:26
Bonjour à tous.

J'aimerais développer un petit programme qui me permettrait de récupérer des articles de Google Actualité et des vidéos Youtube par mot-clé. L'idéal serait de les stocker en BDD (titre/corps/provenance/auteur/url pour les articles et juste url youtube pour les vidéos).

L'idée c'est d'intégrer ce contenu sur un site/blog, du genre : "Les actus de 'MonMotClé' " et éventuellement automatiser la mise à jour.

Pour faire simple, j'ai trouvé wp-robot qui est un module Wordpress (php) qui récupère du contenu depuis différentes sources en fonction d'un mot-clé et qui insère le tout dans un template. C'est tout à fait ce que je recherche à faire, mais j'aimerais transposer cela vers Java.

Vers quelle piste devrais-je m'orienter ?
Merci beaucoup.

3 réponses

Fauchmanne Messages postés 35 Date d'inscription vendredi 27 février 2009 Statut Membre Dernière intervention 26 septembre 2011 1
14 sept. 2011 à 09:32
Vers de la programmation Java ?
0
cs_doudoupe Messages postés 3 Date d'inscription mercredi 12 mars 2008 Statut Membre Dernière intervention 16 septembre 2011
14 sept. 2011 à 12:30
Merci Fauchmanne.

En ce qui concerne les vidéos Youtube, c'est réglé, l'API fournie par google est très simple d'utilisation, du moins pour ce qui est de la récupération.

Par contre je bloque toujours sur les articles de google news. Pour le moment, je récupère un JSON depuis le service google https://ajax.googleapis.com/ajax/services/search/news?v=1.0&q=KEYWORD&hl=fr.
Alors avec ça je récupère seulement titre/résumé/url/related stories et d'autres metas moins importantes pour moi.
Mais pas l'article au complet.

Y a t'il une meilleure solution que de récupérer les URLs de chaques entrée du JSON et d'aspirer le contenu de chacune puis parser pour récupérer le contenu ?

De plus, j'ai constaté que google a dépricié son API Google News Search. Y a t'il un autre moyen à jour pour récupérer les mêmes données ?
0
cs_doudoupe Messages postés 3 Date d'inscription mercredi 12 mars 2008 Statut Membre Dernière intervention 16 septembre 2011
16 sept. 2011 à 15:26
Voici ma démarche actuelle (pour les articles):

1) Récupération des News (ou plutot entete de News)
URL googleNewsUrl = new URL("https://ajax.googleapis.com/ajax/services/search/news?v=1.0&q=" + keyword + "&hl=fr");

A partir de là, je récupère le JSON et accède aux champs qui m'interesse (titre/provenance/chapeau/url). Le chapeau, il s'agit du début de l'article, comme ça je dirait environ 300char.

2) A partir de l'url, j'utilise l'API yahoo (avec le YQL) pour accéder à la news et surtout à son contenu (article entier).
URL yahooApiUrl = new URL("http://query.yahooapis.com/v1/public/yql?q=" + yQuery);

Où yQuery correspond à :
select * from html where url="http://source.com/actualite/news1.html" and xpath='//div[@id="article-body"]'


3) Je récupère ainsi le contenu html du 'div' contenant l'article. Selon les différentes sources, un fichier properties se charge d'appliquer le bon xpath.
Et je récupère mon contenu dans un DOMDocument que je parse.

Mon problème est que Google Actualité à beaucoup de sources... Et récupérer les xpath de chaque source, c'est beaucoup de travail. Sans compter qu'il peut changer s'il y a une mise à jour du site source.
On en revient donc à ma question initiale, n'y a t'il pas une API qui me permettent de récupérer tout d'un coup ? Et surtout sans avoir à passer par les xpath ?

Merci :)
0