Robots.txt et SEO - Le guide ultimeRobots.txt est un fichier simple mais important qui peut déterminer le sort de votre site Web dans les pages de résultats des moteurs de recherche (SERP).

Les erreurs Robots.txt font partie des erreurs SEO les plus courantes que vous trouverez généralement dans un rapport d'audit SEO. En fait, même les professionnels du référencement les plus expérimentés sont sensibles aux erreurs robots.txt.

C'est pourquoi il est important de mieux comprendre le fonctionnement du fichier robots.txt.

En comprenant les bases, vous serez en mesure de créer le fichier robots.txt parfait qui facilite l'exploration et l'indexation de vos pages par les moteurs de recherche.

Dans ce guide, nous couvrirons:

  • Qu'est-ce que robots.txt
  • Pourquoi le fichier robots.txt est-il important
  • Comment trouver votre fichier robots.txt
  • Syntaxe des robots.txt
  • Comment créer un fichier robots.txt
  • Comment vérifier si votre fichier robots.txt fonctionne
  • Meilleures pratiques de Robots.txt

À la fin de cet article, vous disposerez d'un fichier robots.txt optimisé pour le référencement pour votre site Web.

Plongeons-nous dans le vif du sujet.

Qu'est-ce que Robots.txt?

Robots.txt est un fichier texte créé par les propriétaires de sites Web qui indique aux moteurs de recherche comment explorer les pages de votre site Web. En d'autres termes, un fichier robots.txt indique aux moteurs de recherche où il peut et ne peut pas accéder à votre site.

Selon Google:

Robots.txt est principalement utilisé pour gérer le trafic des robots d'exploration vers votre site, et généralement pour garder une page hors de Google, en fonction du type de fichier.

Par exemple, si vous ne souhaitez pas que Google indexe une page spécifique sur votre site, vous pouvez utiliser le fichier robots.txt pour empêcher Googlebot (le robot d'exploration de Google) d'explorer cette page.

Pourquoi Robots.txt est-il important?

Contrairement à la croyance populaire, avoir un fichier robots.txt n'est pas indispensable pour tous les sites Web.

Si votre site Web comporte très peu de pages, vous n’avez pas besoin de créer un fichier robots.txt pour votre site Web.

Google a suffisamment évolué pour savoir quelles pages indexer et quelles pages ignorer sur votre site.

Cela dit, c'est généralement un Meilleures pratiques SEO pour avoir un fichier robots.txt, même si vous avez un petit site Web.

Pourquoi?

Parce que cela vous donne plus de contrôle sur les pages que vous souhaitez que les robots d'exploration Web indexent.

Examinons de plus près les 5 principales raisons pour lesquelles vous souhaitez créer un fichier robots.txt pour votre site Web:

  • Bloquer les pages privées des robots des moteurs de recherche: Vous pouvez utiliser le fichier robots.txt pour bloquer les pages privées de votre site Web. Votre page de connexion ou les versions intermédiaires des pages de votre site doivent être inaccessibles au grand public. C'est ici que vous pouvez utiliser le fichier robots.txt pour empêcher d'autres personnes d'accéder à ces pages.
  • Optimisez votre budget d'exploration: Le budget d'exploration correspond au nombre de pages que Googlebot explorera chaque jour. Si vous rencontrez des difficultés pour indexer toutes les pages importantes, vous êtes peut-être confronté à un problème de budget d'exploration. C'est un cas où vous pouvez utiliser le fichier robots.txt pour optimisez votre budget d'exploration en bloquant l'accès aux pages sans importance.
  • Empêcher l'exploration du contenu dupliqué: Si le même contenu apparaît sur plusieurs pages, vous pouvez utiliser le fichier robots.txt pour empêcher les pages en double de se classer dans les SERPs. Il s'agit d'un problème courant rencontré par les sites Web de commerce électronique, qui peut être facilement évité en ajoutant des directives simples à votre fichier robots.txt.
  • Empêchez les fichiers de ressources d'apparaître dans les SERPs: Robots.txt peut vous aider à empêcher l'indexation des fichiers de ressources tels que les PDF, les images et les vidéos.
  • Empêcher la surcharge du serveur: Vous pouvez utiliser le fichier robots.txt pour spécifier un délai d'exploration afin d'éviter de surcharger votre site de requêtes.

Comment trouver votre fichier Robots.txt

Si vous disposez déjà d'un fichier robots.txt, il est très facile de le trouver.

Tapez simplement yoursitename.com/robots.txt dans votre navigateur, et si votre site contient un fichier robots.txt, il devrait ressembler à ceci:

robots.txt - 99signals

Si votre site ne possède pas de fichier robots.txt, vous trouverez une page vide.

Syntaxe de Robots.txt

Avant de créer un fichier robots.txt, vous devez vous familiariser avec la syntaxe utilisée dans un fichier robots.txt. Voici les 4 composants les plus courants que vous remarquerez dans votre fichier robots.txt:

  • Agent utilisateur: Il s'agit du nom du robot d'exploration Web auquel vous donnez des instructions d'exploration. Chaque moteur de recherche a un nom d'agent utilisateur différent. Exemple: Googlebot est le nom de l'agent utilisateur de Google.
  • Refuser: Il s'agit de la directive utilisée pour demander à un agent utilisateur de ne pas explorer une URL spécifique.
  • Autoriser: Cette directive est utilisée pour demander à un agent utilisateur d'explorer une page, même si sa page parente n'est pas autorisée.
  • Plan du site: Il s'agit de la directive utilisée pour spécifier l'emplacement de votre plan de site XML aux moteurs de recherche.

Comment créer un fichier Robots.txt

Si votre site ne possède pas de fichier robots.txt, il est facile d'en créer un. Vous pouvez utiliser n'importe quel éditeur de texte pour créer un fichier robots.txt.

Si vous utilisez un Mac, vous pouvez créer votre fichier robots.txt à l'aide de l'application TextEdit.

Ouvrez le document texte et commencez à taper des directives.

Par exemple, si vous souhaitez que Google indexe toutes vos pages et masque simplement la page d'administration, créez un fichier robots.txt qui ressemble à ceci:

Agent utilisateur: *
Interdire: / wp-admin /

Une fois que vous avez terminé de taper toutes les directives, enregistrez le fichier sous "robots.txt".

Vous pouvez également utiliser ceci générateur de robots.txt gratuit par SEOptimer pour générer votre fichier robots.txt.

Générateur Robots.txt

Si vous souhaitez éviter de faire des erreurs de syntaxe lors de la création de votre fichier robots.txt, je vous recommande vivement d'utiliser un générateur robots.txt. Même une petite erreur de syntaxe peut désindexer votre site, alors assurez-vous que votre fichier robots.txt est correctement configuré.

Une fois que votre fichier robots.txt est prêt, téléchargez-le dans le répertoire racine de votre site Web.

Utilisez un client FTP comme Filezilla pour placer le fichier texte dans le répertoire racine du domaine. Par exemple, le fichier robots.txt de yoursitename.com devrait être accessible à yoursitename.com/robots.txt.

Comment vérifier si votre Robots.txt fonctionne

Une fois que vous avez téléchargé votre fichier robots.txt dans votre répertoire racine, vous pouvez le valider à l'aide de Testeur robots.txt dans Google Search Console.

L'outil robots.txt Tester vérifiera si votre robots.txt fonctionne correctement. Si vous avez bloqué l'exploration d'URL dans votre fichier robots.txt, l'outil Tester vérifiera si les URL spécifiques sont effectivement bloquées par les robots d'exploration Web.

Outil de test Robots.txt par Google

Maintenant, ce n'est pas parce que votre fichier robots.txt est validé une fois, cela ne signifie pas qu'il sera sans erreur pour toujours.

Les erreurs Robots.txt sont assez courantes. Un fichier robots.txt mal configuré peut affecter l'exploration de votre site. Vous devez donc être à l'affût des problèmes et vous assurer que votre fichier robots.txt ne contient aucune erreur.

Le moyen le plus efficace de vérifier votre fichier robots.txt pour les problèmes consiste à utiliser Google Search Console. Connectez-vous à votre compte Google Search Console et accédez au rapport "Couverture" dans la section "Index".

S'il y a des erreurs et des avertissements liés à votre fichier robots.txt, vous les trouverez dans le rapport "Couverture".

Vous pouvez également utiliser un outil comme SEMrush pour auditer votre fichier robots.txt pour les erreurs.

Si vous avez un abonnement SEMrush actif, exécutez régulièrement des audits de site sur votre site pour maintenir la santé SEO technique de votre site et pour identifier et corriger les erreurs robots.txt.

Pour rechercher des erreurs dans votre fichier robots.txt, consultez votre dernier rapport de synthèse d'audit de site et recherchez le "Mises à jour de Robots.txt " widget. Vous verrez si SEMrushBot a pu explorer votre fichier robots.txt.

Widget Robots.txt - SEMrush

Si vous avez apporté des modifications au fichier robots.txt, SEMrush affichera le nombre de modifications apportées depuis la dernière exploration.

Plus important encore, SEMrush mettra également en évidence les problèmes avec vos fichiers robots.txt et fournira des recommandations sur la façon de les résoudre pour améliorer l'exploration et l'indexabilité de votre site Web.

Note latérale: SEMrush est un puissant logiciel de référencement qui peut vous aider avec plus qu'une simple analyse technique de référencement. Vous pouvez l'utiliser pour effectuer des recherches de mots-clés, des analyses de backlinks, des recherches de concurrents et bien plus encore. Essayez SEMrush Pro gratuitement pendant 30 jours.

Meilleures pratiques Robots.txt

Maintenant que vous connaissez les principes de base du fichier robots.txt, jetons un coup d'œil à quelques-unes des bonnes pratiques à suivre:

1. Robots.txt est sensible à la casse

Le nom du fichier robots.txt est sensible à la casse. Assurez-vous donc que le fichier est nommé "robots.txt" (et non robots.TXT, ROBOTS.TXT, Robots.Txt, etc.)

2. Placez le fichier Robots.txt dans le répertoire principal

Votre fichier robots.txt doit être placé dans le répertoire principal de votre site. Si votre fichier robots.txt est placé dans un sous-répertoire, il ne sera pas trouvé.

Mal:

yoursitename.com/page/robots.txt

Bien:

yoursitename.com/robots.txt

3. Utilisez des caractères génériques pour contrôler la manière dont les moteurs de recherche explorent votre site Web

Vous pouvez utiliser deux caractères génériques dans votre fichier robots.txt: le caractère générique (*) et le caractère générique ($). L'utilisation de ces Caractères génériques robots.txt vous aide à contrôler la façon dont les moteurs de recherche explorent votre site Web. Examinons chacun de ces caractères génériques:

(*) Caractère générique

Vous pouvez utiliser le caractère générique (*) dans votre fichier robots.txt pour adresser tous les agents utilisateurs (moteurs de recherche). Par exemple, si vous souhaitez empêcher tous les robots des moteurs de recherche d'explorer votre page d'administration, votre fichier robots.txt devrait ressembler à ceci:

Agent utilisateur: *
Interdire: / wp-admin /

($) Caractère générique

Le caractère générique ($) indique la fin d'une URL. Par exemple, si vous souhaitez empêcher les robots d'indexation de tous les fichiers PDF de votre site, votre fichier robots.txt devrait ressembler à ceci:

Agent utilisateur: *
Interdire: /*.pdf$

4. Utilisez les commentaires pour référence future

Les commentaires dans votre fichier robots.txt peuvent être utiles aux développeurs et aux autres membres de l'équipe qui ont accès au fichier. Ils peuvent également être utilisés pour référence future.

Pour ajouter des commentaires à votre fichier robots.txt, tapez la clé de hachage (#) et entrez votre commentaire.

Voici un exemple:

# Cela empêche Googlebot d'explorer yoursitename.com/directory1/
Agent utilisateur: googlebot
Interdire: / répertoire1 /

Les robots d'exploration Web ignorent les lignes contenant un hachage.

5. Créez un fichier Robots.txt distinct pour chaque sous-domaine

Chaque sous-domaine nécessite son propre fichier robots.txt. Par conséquent, si une section de votre site est hébergée sur un sous-domaine différent, vous devrez créer deux fichiers robots.txt distincts.

Par exemple, le blog de HubSpot est hébergé sur un sous-domaine et possède son propre fichier robots.txt:

HubSpot Robots.txt

Dernières pensées

Robots.txt est peut-être un simple fichier texte, mais c'est un puissant outil de référencement. Un fichier robots.txt optimisé peut améliorer l'indexabilité de vos pages et augmenter la visibilité de votre site dans les résultats de recherche.

Pour plus de détails sur la création du fichier robots.txt parfait, vous pouvez vous référer à ceci Guide robots.txt par Google.

Si vous avez trouvé cet article utile, partagez-le sur Twitter en utilisant le lien ci-dessous:

Articles Liés

Robots.txt et SEO - Le guide ultime