Pour qu’une page, et donc un site, soit présent dans les pages de résultat de recherche de Google, cette page doit passer à travers un processus de “découverte” en deux étapes : le crawl (exploration), et l’indexation. 


Le crawl est l’action de Google de visiter les pages web en suivant les liens présents sur les pages (exploration du site). Cela fonctionne avec des programmes informatiques appelés robots, bot ou crawlers. Ils visitent les pages et “lisent” le contenu via le code HTML de la page. 


Lors de la visite de la page, celle-ci est “indexée” : son code est sauvegardé dans l’index de Google, ce qui permet de ressortir son contenu dans les résultats de recherche lors d’une requête de l’internaute. 


Une page est crawlée de manière plus ou moins régulière selon plusieurs paramètres, notamment la fréquence de mise à jour du site. Ceci permet à Google d’actualiser la version de la page qu’il a dans son index. 


Peut-on empêcher Google de crawler et d’indexer une page ? Oui, soit avec le fichier robots.txt, soit avec la balise meta robot. 


Le premier est un fichier qui indique des répertoires complets du site à interdire d’accès aux robots. Il permet aussi d’indiquer des pages spécifiques que l’on ne souhaite pas voir indexées, comme les pages de retour de formulaire, ou la page plan du site qui n’a pas d’intérêt en SEO. 


La balise meta robot est un bout de code indiquant aux robots s’ils peuvent suivre les liens présents sur la page ou indexer son contenu. 


Dans WordPress, le fichier robots.txt est éditable via l’outil Yoast. Nous ne vous conseillons pas de l’éditer sans demander conseil au préalable. 


Concernant la balise meta robot, elle est disponible sur les pages via l’extension Yoast SEO.


Dans certains cas, Google peut décider de ne pas indexer une URL qu’il a visité. Cela se produit si la page en question possède peu de texte, un contenu de maigre qualité (répétition de mots-clés, pas de valeur ajoutée), ou un contenu qui existe sur plusieurs autres pages sur le web, ou sur votre site (on parle alors de contenu dupliqué, interne ou externe).


Explication détaillée du fonctionnement de Googlebot (en anglais) : https://varvy.com/googlebot.html