m-tribune

Un site dédié au management et à la performance de l'organisation

Des machines et des hommes




Les années se suivent et le Web demeure l'apanage du plus grand moteur de recherches de l'histoire. Depuis sa création à la fin des années 90, Google a en effet effectué une irrésistible ascension sur la toile en devenant même le moteur de recherches le plus utilisé de ces dernières années. Ce succès toujours croissant chez les internautes n'est pourtant pas venu tout seul, car les performances de Google sont unanimement reconnues par la majorité. En quelques poignées de secondes, celui-ci parvient à présenter une liste de résultats correspondant au plus près à n'importe quelle requête saisie par les internautes. Comment donc Google fonctionne-t-il ? Un site spécialement mis en place par le moteur de recherches présente quelques détails qui permettent d'en savoir un peu plus sur son fonctionnement général.


Comment fonctionne Google ?
Crawl et indexation, une phase essentielle pour répertorier les milliards de pages

Google est aujourd'hui le principal partenaire des internautes lorsqu'il s'agit de lancer une recherche sur Internet, un immense univers qui rassemble pas moins de 30 000 milliards de pages individuelles. Selon les chiffres évoqués par le moteur de recherches, quelque 100 milliards de requêtes lui sont adressés mensuellement. Comment donc fait Google pour s'y retrouver entre ce nombre très élevé de recherches et ces pages comptabilisées en plusieurs milliers de milliards ? La première partie du travail du moteur correspond en réalité à la phase dite de crawl et d'indexation. Aussi, en amont de toute requête, Google s'emploie à tout instant à parcourir le Web pour lire chaque page dans son intégralité. Ce processus est réalisé grâce à plusieurs milliers de robots, qui sont en fait des logiciels communément appelés bots, spiders ou encore crawlers. Leur seul objectif est de lire les pages et de rapporter leur contenu dans la base de données du moteur.

Au fur et à mesure qu'ils détectent des liens au sein des contenus parcourus, ils se dirigent vers les pages liées et renvoient les informations à la base de données. Cette opération se répète à l'infini, car il est imaginable que chaque page renvoie le robot vers une autre page, et ainsi de suite. La base de données complétée par les contenus lus par les robots n'est autre que l'index de Google. À ce jour, il représente un volume ahurissant de données dépassant les 100 millions de gigaoctets, répartis dans des datacenters installés aux quatre coins de la planète. Le classement de cet index est primordial, aussi, de nombreux critères sont utilisés pour identifier chaque page : des informations relatives aux mots et à leur emplacement par exemple, ou encore leur date de publication, mais également leur contenu en photos et/ou en vidéo.


Un algorithme taillé pour des performances redoutables

Mise à part la phase de crawl et d'indexation, le second rouage de toute requête sur Google s'appuie sur l'algorithme du moteur de recherches. Les responsables de la firme de Palo Alto n'exposent finalement que peu de détails sur cette phase précise de chaque recherche. Tout comme les bots et les crawlers, les algorithmes sont des programmes et des formules informatiques. Globalement, ils sont cette fois créés pour naviguer parmi les milliards de pages indexées, y trouver les indices correspondant aux mots recherchés puis renvoyer la réponse la plus appropriée et la plus pertinente à la requête de l'internaute. Plus de 200 signaux ou indices particuliers sont retenus par les algorithmes de Google pour lui permettre de deviner ce qu'attend précisément l'internaute pour chaque recherche. Cela peut par exemple être la région à partir de laquelle la requête a été lancée, ou encore les termes figurant sur les sites Web, mais également la fréquence d'actualisation de son contenu.

Entre la saisie de la requête et l'affichage de tous les résultats correspondants, l'algorithme de Google aura passé 1/8ième  de seconde à traiter les informations selon les différents critères inscrits au sein de ses nombreuses formules. Le processus de recherche et l'affichage de la page de résultats sont au cœur d'un immense travail d'améliorations pour lequel les ingénieurs de Google sont mobilisés. Aussi, des innovations comme la recherche instantanée ou le Knowledge Graph ont été intégrées au moteur pour améliorer l'expérience de ses utilisateurs et leur promettre la meilleure liste de résultats possibles.


La lutte contre les spams, un combat quotidien pour Google

Une autre grande partie du travail de Google repose enfin sur la lutte contre le spam. Selon le moteur de recherches, plusieurs millions de ce type de malveillance sont créés chaque jour sur le Web. Aussi, pour empêcher que les résultats affichés ne contiennent ce type de pages, à la puissance de filtrage de l'algorithme sont joints plusieurs examens manuels pour une identification infaillible. De fait, si l'algorithme n'a pas réussi à rétrograder les spams dans les méandres du classement des pages Web listées, les équipes d'examinateurs se chargent de les déceler. Les effets de cette lutte contre les spams sont multiples. Tout d'abord, les éditeurs de sites n'auront pas à s'inquiéter, car ils ne seront pas devancés par ces pages indésirables sur les résultats affichés par le moteur. Ensuite, les internautes apprécieront la pertinence des réponses, car elles ne contiennent pas de spam.