Noindex dans le robots.txt : Google dit officiellement non

le 03 Juil 2019
2 min de lecture
Noindex dans le robots.txt : Google dit officiellement non

A partir du 1er septembre 2019, Google abandonnera définitivement la prise en compte de la directive Noindex dans le fichier robots.txt dans le but de standardiser de manière officielle son protocole d’interprétation, développé il y a 25 ans par Martijn Koster.

Bien que cette consigne n’ait jamais été validée officiellement par le moteur de recherche, elle restait efficace pour permettre aux webmasters de désindexer les urls en masse notamment dans le cas où la gestion par meta robots était compliquée.

Comme on peut le lire dans le communiqué officiel de Google :

« Les moteurs de recherche ne peuvent indexer que les pages qu’ils connaissent, donc bloquer la page pour éviter qu’elle ne soit explorée signifie généralement que son contenu ne sera pas indexé. Bien que le moteur de recherche puisse également indexer une URL à partir de liens d’autres pages, sans voir le contenu lui-même, nous visons à rendre ces pages moins visibles à l’avenir ».

Par ailleurs, Google précise que le robots.txt est destiné à la gestion du crawl des robots et non pas à l’indexation.

En parallèle, Google a open-sourcé sur Github son interpréteur de règles pour tester n’importe quel fichier robots.txt.

Aperçu du code C++ permettent d’interpréter les règles d’un fichier robots.txt

Fin du Noindex dans le robots.txt : Quels impacts ?

Tout cela signifie que les sites qui utilisaient le Noindex dans leur robots.txt devront revoir leur façon de gérer l’indexation (meta robots ou X-Robots-Tag noindex, 404/410, etc).

Dans le cas où le Noindex: (blocage de l’indexation) serait couplé systématiquement avec un Disallow: (blocage du crawl), ce changement n’aura que peu d’impact. Pour rester en alerte suite à ce changement, il est toujours possible de suivre l’évolution du nombre de pages marquées comme « Indexée malgré le blocage par le fichier robots.txt » dans la Google Search Console.

Ce changement s’accompagne aussi à d’autres évolutions majeures, comme l’utilisation maintenant possible du robots.txt pour tous les protocoles (ftp par exemple) et la mise en cache du fichier dont les règles continueront d’être appliquées même si le site est indisponible.

Nous ne manquerons pas de vous tenir informés de l’évolution de la situation.

Vous avez un projet ?

Vous aimerez aussi

Google ouvre une nouvelle voie au sujet des cookies tiers sur Chrome

Google ouvre une nouvelle voie au sujet des cookies tiers sur Chrome

Webanalytics

Et si les cookies tiers demeuraient sur Chrome ? Google a subtilement émis l’hypothèse le 22 juillet 2024 lors d’une [...]
Google leak – Part 4 : du machine learning à tous les étages

Google leak – Part 4 : du machine learning à tous les étages

SEO

Jusqu’en 2013, avec l’invention de Word2vec par Google, et le déploiement de Hummingbird, le premier vrai dispositif de query expansion, [...]