Le web se compose de données et de pages venant de sources différentes et se scinde au moins en deux parties distinctes : d'un côté le web "visible", c'est à dire indexable par les moteurs de recherche "classiques" et de l'autre le web invisible. L'idée de la croissance exponentielle du nombre d'information et du nombre de pages accessibles est devenue un lieu commun. Mais sur la taille actuelle du web les experts sont divisés. Une étude vient de paraître qui indique que la taille du web visible serait à ce jour de 11,5 milliards de pages. Rappelons que Google en indexe à lui seul 8 milliards et que l'étude essaie donc de prendre en compte le taux de recouvrement existant entre les moteurs. Rappelons également que depuis le doublement historique de la taille d'index de Google, nombreuses sont les pages satellites, publicitaires et autres doublons qui constituent de facto cet immense corpus. A quand une impossible étude sur la taille du web "pertinent" ?
[ info glanée sur Totem-Consult ]
OE

Commentaires