DeepPeep était un moteur de recherche visant à explorer et indexer toutes les bases de données du Web public. Contrairement aux moteurs de recherche traditionnels, qui explorent les pages Web existantes et leurs hyperliens, DeepPeep ambitionnait de permettre l'accès au Web profond , c'est-à-dire au contenu du Web accessible uniquement via des requêtes saisies dans les bases de données. Le projet a débuté à l' Université de l'Utah et était supervisé par Juliana Freire , professeure associée au sein du groupe WebDB de l'École d'informatique de cette université. L'objectif était de rendre accessible 90 % du contenu du Web, selon Freire. Le projet a exploité une version bêta de son moteur de recherche et a été financé par l'Université de l'Utah et une subvention de 243 000 $ de la National Science Foundation . Il a suscité un intérêt mondial.
Google , Yahoo et autres moteurs de recherche, DeepPeep permet aux utilisateurs de saisir un mot-clé et renvoie une liste de liens et de bases de données contenant des informations relatives à ce mot-clé.Cependant, ce qui distinguait DeepPeep des autres moteurs de recherche, c'est que DeepPeep utilise le robot d'exploration ACHE , l'« identification hiérarchique des formulaires », le « regroupement contextuel des formulaires » et « LabelEx » pour localiser, analyser et organiser les formulaires Web afin de permettre un accès facile aux utilisateurs.
ACHE Crawler
Le robot d'exploration ACHE est utilisé pour collecter des liens et emploie une stratégie d'apprentissage qui augmente le taux de collecte au fur et à mesure de ses recherches. Ce qui distingue ACHE des autres robots d'exploration, c'est que ces derniers sont spécialisés dans la collecte de pages Web possédant des propriétés ou des mots-clés spécifiques. ACHE, quant à lui, intègre un classificateur de pages qui lui permet d'éliminer les pages non pertinentes d'un domaine, ainsi qu'un classificateur de liens qui les trie selon leur pertinence par rapport à un sujet donné. Par conséquent, ACHE télécharge en priorité les liens Web les plus pertinents et économise des ressources en évitant de télécharger des données inutiles.
Identification hiérarchique des formes
Afin d'éliminer davantage les liens et résultats de recherche non pertinents, DeepPeep utilise le cadre d'identification hiérarchique des formulaires (HIFI) qui classe les liens et les résultats de recherche en fonction de la structure et du contenu du site web. Contrairement à d'autres méthodes de classification qui s'appuient uniquement sur les libellés des formulaires web pour leur organisation, HIFI utilise à la fois la structure et le contenu du formulaire. Grâce à ces deux éléments, HIFI organise les formulaires web de manière hiérarchique, classant ainsi leur pertinence par rapport au mot-clé cible.
Clustering contextuel
En l'absence de domaine d'intérêt ou lorsque le domaine spécifié comporte plusieurs définitions, DeepPeep doit segmenter le formulaire web et le regrouper par domaines similaires. Le moteur de recherche utilise un clustering contextuel pour regrouper les liens similaires au sein d'un même domaine, en modélisant le formulaire web en ensembles d'hyperliens et en exploitant son contexte pour la comparaison. Contrairement à d'autres techniques qui nécessitent une extraction complexe des étiquettes et un prétraitement manuel des formulaires web, le clustering contextuel est automatique et utilise les métadonnées pour gérer les formulaires web riches en contenu et comportant de multiples attributs.
LabelEx
DeepPeep extrait également des informations appelées métadonnées de ces pages, ce qui permet un meilleur classement des liens et des bases de données grâce à LabelEx, une méthode de décomposition et d'extraction automatique des métadonnées. Les métadonnées sont des données issues des liens web qui fournissent des informations sur d'autres domaines. LabelEx identifie la correspondance entre les éléments et leurs libellés et l'utilise pour extraire les métadonnées avec précision, contrairement aux méthodes classiques qui utilisaient des règles d'extraction spécifiques et manuelles.
Classement
Lorsque les résultats de recherche s'affichent après la saisie d'un mot-clé par l'utilisateur, DeepPeep classe les liens selon trois critères : le contenu du terme, le nombre de backlinks et le PageRank . Le contenu du terme est déterminé par le contenu du lien et sa pertinence. Les backlinks sont des hyperliens qui redirigent l'utilisateur vers un autre site web. Le PageRank, qui classe les sites web dans les résultats des moteurs de recherche, prend en compte la quantité et la qualité des liens pointant vers un site afin d'en déterminer l'importance. Les informations relatives au PageRank et aux backlinks proviennent de sources externes telles que Google , Yahoo et Bing .
Lancement de la version bêta
La version bêta de DeepPeep a été lancée et ne couvrait que sept domaines : automobile, billets d’avion, biologie, livres, hôtels, emploi et location. Sous ces sept domaines, DeepPeep offrait l’accès à 13 000 formulaires web. Le site web était accessible à l’adresse DeepPeep.org , mais il est inactif depuis la suppression de la version bêta.
Plus d articles de Worldlex Wiki
Revenez a l index pour explorer davantage de pages sur l histoire, la science, la culture, la geographie et la societe en francais.
Explorer l index