Web profond

Web dont le contenu n'est pas indexé par les moteurs de recherche classiques . Il se distingue du web de surface , accessible à tous les internautes . L'informaticien Michael K. Bergman est à l'origine de ce terme, qu'il a inventé en 2001 dans le cadre de l'indexation des moteurs de recherche

Les sites du web profond sont accessibles par une URL directe ou une adresse IP , mais peuvent nécessiter la saisie d'un mot de passe ou d'autres informations de sécurité pour accéder à leur contenu. Parmi les usages du web profond figurent la messagerie web , les services bancaires en ligne , le stockage en nuage , les pages et profils de réseaux sociaux à accès restreint , ainsi que les forums web exigeant une inscription pour consulter le contenu. On y trouve également des services payants tels que la vidéo à la demande et certains magazines et journaux en ligne.

web sombre » a eu lieu en 2009, lorsque la terminologie de la recherche sur le web profond a été abordée en lien avec les activités illégales se déroulant sur le Freenet et le darknet . Ces activités criminelles incluent le commerce de mots de passe personnels , de faux documents d'identité , de stupéfiants , de meurtres , de torture , de pornographie de viol , d'armes à feu et de pornographie infantile .

Depuis lors, suite à leur utilisation dans les médias pour traiter du site web illégal Silk Road , les médias ont généralement employé l'expression « web profond » comme synonyme de « web sombre » ou « darknet » , une comparaison que certains jugent inexacte et qui, par conséquent, est devenue une source de confusion persistante . Les journalistes de Wired, Kim Zetter et Andy Greenberg recommandent d'utiliser ces termes de manière distincte. Alors que le web profond désigne tout site inaccessible par un moteur de recherche classique, le web sombre est une partie du web profond intentionnellement dissimulée et inaccessible par les navigateurs et méthodes standards

Contenu non indexé

Bergman, dans un article sur le web profond publié dans The Journal of Electronic Publishing , mentionne que Jill Ellsworth a utilisé le terme « Web invisible » en 1994 pour désigner les sites web qui n’étaient référencés par aucun moteur de recherche. Bergman cite un article de Frank Garcia paru en janvier 1996 :

Il s'agirait d'un site web au design probablement correct, mais ses auteurs n'ont pas pris la peine de l'inscrire auprès des moteurs de recherche. Résultat : impossible de le trouver ! Vous êtes invisibles. C'est ce que j'appelle le Web invisible.

Une autre utilisation précoce du terme Invisible Web a été faite par Bruce Mount et Matthew B. Koll de Personal Library Software , dans une description du programme No. 1 Deep Web trouvée dans un communiqué de presse de décembre 1996.

La première utilisation du terme spécifique deep web , désormais généralement accepté, est apparue dans l'étude Bergman de 2001 mentionnée ci-dessus.

Méthodes d'indexation

Les méthodes qui empêchent l'indexation des pages Web par les moteurs de recherche traditionnels peuvent être classées dans une ou plusieurs des catégories suivantes :

Web contextuel : pages dont le contenu varie selon les contextes d’accès (par exemple, plages d’adresses IP du client ou séquence de navigation précédente).
Contenu dynamique : pages dynamiques , qui sont renvoyées en réponse à une requête soumise ou accessibles uniquement via un formulaire, en particulier si des éléments d’entrée de domaine ouvert (tels que des champs de texte) sont utilisés ; ces champs sont difficiles à parcourir sans connaissance du domaine .
Contenu à accès limité : sites qui limitent l’accès à leurs pages de manière technique (par exemple, en utilisant la norme d’exclusion des robots ou des CAPTCHA , ou la directive « no-store », qui empêchent les moteurs de recherche de les parcourir et d’en créer des copies en cache ). Ces sites peuvent proposer un moteur de recherche interne pour explorer ces pages.
Contenu non HTML/texte : contenu textuel encodé dans des fichiers multimédias (image ou vidéo) ou dans des formats de fichiers spécifiques non reconnus par les moteurs de recherche.
Sites web privés : sites nécessitant une inscription et une connexion (ressources protégées par mot de passe).
Contenu scripté : pages accessibles uniquement par des liens générés par JavaScript , ainsi que contenu téléchargé dynamiquement depuis des serveurs Web via des solutions Flash ou Ajax .
Logiciels : certains contenus sont intentionnellement dissimulés sur Internet et accessibles uniquement via des logiciels spécifiques, tels que Tor , I2P ou d’autres logiciels du darknet. Par exemple, Tor permet aux utilisateurs d’accéder anonymement à des sites web utilisant l’ adresse du serveur .onion , masquant ainsi leur adresse IP.
Contenu non lié : pages qui ne sont pas liées par d’autres pages, ce qui peut empêcher les robots d’exploration du Web d’y accéder. Ce contenu est appelé pages sans liens entrants (ou backlinks). De plus, les moteurs de recherche ne détectent pas toujours tous les backlinks des pages Web analysées.
Archives du Web : Les services d’archivage du Web, tels que la Wayback Machine, permettent de consulter des versions archivées de pages Web à différentes époques, y compris des sites devenus inaccessibles et non indexés par les moteurs de recherche comme Google. La Wayback Machine peut être qualifiée de programme permettant d’explorer le Web profond, car les archives Web antérieures ne peuvent être indexées, les versions passées des sites étant impossibles à consulter par une recherche. Tous les sites Web sont mis à jour régulièrement, c’est pourquoi les archives du Web sont considérées comme faisant partie du Web profond.

Types de contenu

Bien qu’il ne soit pas toujours possible de découvrir directement le contenu d’un serveur Web spécifique afin de l’indexer, un site peut potentiellement être accessible indirectement (en raison de vulnérabilités informatiques ).

Pour découvrir du contenu sur le Web, les moteurs de recherche utilisent des robots d'exploration qui suivent les hyperliens via des numéros de port virtuels de protocole connus . Cette technique est idéale pour découvrir du contenu sur le Web de surface, mais elle est souvent inefficace pour trouver du contenu du Web profond. Par exemple, ces robots ne tentent pas de trouver les pages dynamiques résultant de requêtes de bases de données en raison du nombre indéterminé de requêtes possibles. Il a été constaté que ce problème peut être partiellement résolu en fournissant des liens vers les résultats de requêtes, mais cela pourrait involontairement gonfler la popularité d'un site du Web profond.

DeepPeep , Intute , Deep Web Technologies , Scirus et Ahmia.fi sont quelques-uns des moteurs de recherche qui ont accédé au web profond. Intute, faute de financement, est devenu une archive statique temporaire en juillet 2011. Scirus a cessé ses activités fin janvier 2013.

Les chercheurs étudient les méthodes d'exploration automatique du web profond, y compris les contenus accessibles uniquement par des logiciels spécifiques comme Tor . En 2001, Sriram Raghavan et Hector Garcia-Molina (Département d'informatique de l'Université de Stanford) ont présenté un modèle architectural pour un robot d'exploration du web caché. Ce robot utilisait des termes clés fournis par les utilisateurs ou extraits des interfaces de requête pour interroger un formulaire web et explorer le contenu du web profond. Alexandros Ntoulas, Petros Zerfos et Junghoo Cho ( UCLA) ont créé un robot d'exploration du web caché qui générait automatiquement des requêtes pertinentes à soumettre aux formulaires de recherche . Plusieurs langages de requêtes de formulaires (par exemple, DEQUEL ) ont été proposés. Outre l'émission de requêtes, ils permettent également l'extraction de données structurées à partir des pages de résultats. Un autre effort est DeepPeep, un projet de l' Université de l'Utah financé par la National Science Foundation , qui a collecté des sources web cachées (formulaires web) dans différents domaines grâce à de nouvelles techniques de crawling ciblées.

Les moteurs de recherche commerciaux ont commencé à explorer des méthodes alternatives pour explorer le web profond. Le protocole Sitemap (développé et introduit par Google en 2005) et OAI-PMH sont des mécanismes qui permettent aux moteurs de recherche et autres parties intéressées de découvrir les ressources du web profond sur certains serveurs web. Ces deux mécanismes permettent aux serveurs web de publier les URL accessibles, ce qui permet la découverte automatique de ressources non directement liées au web de surface. Le système d'exploration du web profond de Google calcule les soumissions pour chaque formulaire HTML et ajoute les pages HTML résultantes à l'index du moteur de recherche Google. Les résultats ainsi affichés représentent un millier de requêtes par seconde vers le contenu du web profond. Dans ce système, le précalcul des soumissions est effectué à l'aide de trois algorithmes :

sélection des valeurs d'entrée pour les champs de recherche textuelle acceptant des mots-clés,
identifier les entrées qui n'acceptent que des valeurs d'un type spécifique (par exemple, date) et
sélectionner un petit nombre de combinaisons d'entrées qui génèrent des URL adaptées à l'inclusion dans l'index de recherche Web.

En 2008, pour faciliter l'accès et la recherche des services cachés Tor par les utilisateurs du suffixe .onion , Aaron Swartz a conçu Tor2web , une application proxy permettant d'y accéder via les navigateurs web courants. Grâce à cette application, les liens du web profond apparaissent comme une séquence aléatoire de lettres suivie du domaine de premier niveau .onion .