Strompedia : analyser le sens des mots (c#/mysql/php)

Soyez le premier à donner votre avis sur cette source.

Vue 9 906 fois - Téléchargée 520 fois

Description

LES DES MOTS, DES CONCEPTES A PARTIR DES DONNES DU WEB :
Strompedia est un outil d'analyse de donnée massive.

Le FEEDER C# :
1) Donner un mot a analyser
2) Démarrer le feeding : le feeder lancer un requete google sur ce mot, et analyse les pages retourné une par une. Il associe ce mot avec ses mots voisins dans chaqune des pages (à environ 200 caractère de profondeur pour chaque occurence du mot dans la page.) Pour 1 mots, le feeder récupèrer près de 1000 mots associée. En faisant des réquetes massive, on obtient des mots qui reviennent souvent. Ce sont pas des synonymes mais des mots proche l'un de l'autre. D'ou le terme Stormpedia. (Mélange de Wikipedia et BrainStroming)
3) Tout les informations sont stockées en temps réel dans une base de donnée MySql.
4) Vous pouvez consulter les résultats de l'analyse grace au Client web.
5) Pour chaque mots, vous avez les mots les plus frequents trouvé a partir de ce mots (Child words), mais aussi les mots qui ont retourné ce mot dans une page (Mother word).
6) Pour chaque liens de mots, on peut retrouver la URL source et l'emplacement dans la page avec l'onglet Info.

Ce projet necessite EasyPHP et Visual Studio
Le script de création de la base est fournis dans "Creation_BD.sql".

Bien évidament, la base de donnée prend vite du poid... C'est pourquoi ce concept serrai bien applicable dans le cadre du clustering.

Source / Exemple :


Voir Zip...

Conclusion :


J'attends vos commentaires

Codes Sources

A voir également

Ajouter un commentaire Commentaires
Messages postés
26
Date d'inscription
mardi 22 juillet 2003
Statut
Membre
Dernière intervention
11 décembre 2007

Merci Thiosyiasar, ca va m'etre tres utile !
Messages postés
186
Date d'inscription
lundi 11 mars 2002
Statut
Membre
Dernière intervention
30 novembre 2010
3
Salut Djine,

Projet intéressant :)
Si tu veux gagner du temps , voici un parseur html :

http://www.csharpfr.com/codes/PARSER-HTML_41034.aspx

A+
Messages postés
302
Date d'inscription
samedi 22 octobre 2005
Statut
Membre
Dernière intervention
2 novembre 2008
4
Très beau travail.
Je précise juste que pour faire tournier mysql et Php il n'est pas obligatoire d'avoir easy php
Messages postés
26
Date d'inscription
mardi 22 juillet 2003
Statut
Membre
Dernière intervention
11 décembre 2007

Vous pouver boucler la recherche pour qu'elle tourne toute une nuit en décommentant.
//RestartFeeder(); dans Feeder.cs

Le problème c'est que j'utilise un controle HTMLDocumentClass pour recupèrer le contenu des pages.
Et de temps en temps des popups s'ouvrent quand je charge des pages pleines de saloperie...

Pour remédier a ce problème, je suis en train de programmer un déparseur HTML pour me passer de ce controle .

Vous n'êtes pas encore membre ?

inscrivez-vous, c'est gratuit et ça prend moins d'une minute !

Les membres obtiennent plus de réponses que les utilisateurs anonymes.

Le fait d'être membre vous permet d'avoir un suivi détaillé de vos demandes et codes sources.

Le fait d'être membre vous permet d'avoir des options supplémentaires.