Robots.txt est un fichier simple mais important qui peut déterminer le sort de votre site Web dans les pages de résultats des moteurs de recherche (SERP).
Les erreurs Robots.txt font partie des erreurs SEO les plus courantes que vous trouverez généralement dans un rapport d'audit SEO. En fait, même les professionnels du référencement les plus expérimentés sont sensibles aux erreurs robots.txt.
C'est pourquoi il est important de mieux comprendre le fonctionnement du fichier robots.txt.
En comprenant les bases, vous serez en mesure de créer le fichier robots.txt parfait qui facilite l'exploration et l'indexation de vos pages par les moteurs de recherche.
Dans ce guide, nous couvrirons:
À la fin de cet article, vous disposerez d'un fichier robots.txt optimisé pour le référencement pour votre site Web.
Plongeons-nous dans le vif du sujet.
Robots.txt est un fichier texte créé par les propriétaires de sites Web qui indique aux moteurs de recherche comment explorer les pages de votre site Web. En d'autres termes, un fichier robots.txt indique aux moteurs de recherche où il peut et ne peut pas accéder à votre site.
Selon Google:
Robots.txt est principalement utilisé pour gérer le trafic des robots d'exploration vers votre site, et généralement pour garder une page hors de Google, en fonction du type de fichier.
Par exemple, si vous ne souhaitez pas que Google indexe une page spécifique sur votre site, vous pouvez utiliser le fichier robots.txt pour empêcher Googlebot (le robot d'exploration de Google) d'explorer cette page.
Contrairement à la croyance populaire, avoir un fichier robots.txt n'est pas indispensable pour tous les sites Web.
Si votre site Web comporte très peu de pages, vous n’avez pas besoin de créer un fichier robots.txt pour votre site Web.
Google a suffisamment évolué pour savoir quelles pages indexer et quelles pages ignorer sur votre site.
Cela dit, c'est généralement un Meilleures pratiques SEO pour avoir un fichier robots.txt, même si vous avez un petit site Web.
Pourquoi?
Parce que cela vous donne plus de contrôle sur les pages que vous souhaitez que les robots d'exploration Web indexent.
Examinons de plus près les 5 principales raisons pour lesquelles vous souhaitez créer un fichier robots.txt pour votre site Web:
Si vous disposez déjà d'un fichier robots.txt, il est très facile de le trouver.
Tapez simplement yoursitename.com/robots.txt dans votre navigateur, et si votre site contient un fichier robots.txt, il devrait ressembler à ceci:
Si votre site ne possède pas de fichier robots.txt, vous trouverez une page vide.
Avant de créer un fichier robots.txt, vous devez vous familiariser avec la syntaxe utilisée dans un fichier robots.txt. Voici les 4 composants les plus courants que vous remarquerez dans votre fichier robots.txt:
Si votre site ne possède pas de fichier robots.txt, il est facile d'en créer un. Vous pouvez utiliser n'importe quel éditeur de texte pour créer un fichier robots.txt.
Si vous utilisez un Mac, vous pouvez créer votre fichier robots.txt à l'aide de l'application TextEdit.
Ouvrez le document texte et commencez à taper des directives.
Par exemple, si vous souhaitez que Google indexe toutes vos pages et masque simplement la page d'administration, créez un fichier robots.txt qui ressemble à ceci:
Agent utilisateur: * Interdire: / wp-admin /
Une fois que vous avez terminé de taper toutes les directives, enregistrez le fichier sous "robots.txt".
Vous pouvez également utiliser ceci générateur de robots.txt gratuit par SEOptimer pour générer votre fichier robots.txt.
Si vous souhaitez éviter de faire des erreurs de syntaxe lors de la création de votre fichier robots.txt, je vous recommande vivement d'utiliser un générateur robots.txt. Même une petite erreur de syntaxe peut désindexer votre site, alors assurez-vous que votre fichier robots.txt est correctement configuré.
Une fois que votre fichier robots.txt est prêt, téléchargez-le dans le répertoire racine de votre site Web.
Utilisez un client FTP comme Filezilla pour placer le fichier texte dans le répertoire racine du domaine. Par exemple, le fichier robots.txt de yoursitename.com devrait être accessible à yoursitename.com/robots.txt.
Une fois que vous avez téléchargé votre fichier robots.txt dans votre répertoire racine, vous pouvez le valider à l'aide de Testeur robots.txt dans Google Search Console.
L'outil robots.txt Tester vérifiera si votre robots.txt fonctionne correctement. Si vous avez bloqué l'exploration d'URL dans votre fichier robots.txt, l'outil Tester vérifiera si les URL spécifiques sont effectivement bloquées par les robots d'exploration Web.
Maintenant, ce n'est pas parce que votre fichier robots.txt est validé une fois, cela ne signifie pas qu'il sera sans erreur pour toujours.
Les erreurs Robots.txt sont assez courantes. Un fichier robots.txt mal configuré peut affecter l'exploration de votre site. Vous devez donc être à l'affût des problèmes et vous assurer que votre fichier robots.txt ne contient aucune erreur.
Le moyen le plus efficace de vérifier votre fichier robots.txt pour les problèmes consiste à utiliser Google Search Console. Connectez-vous à votre compte Google Search Console et accédez au rapport "Couverture" dans la section "Index".
S'il y a des erreurs et des avertissements liés à votre fichier robots.txt, vous les trouverez dans le rapport "Couverture".
Vous pouvez également utiliser un outil comme SEMrush pour auditer votre fichier robots.txt pour les erreurs.
Si vous avez un abonnement SEMrush actif, exécutez régulièrement des audits de site sur votre site pour maintenir la santé SEO technique de votre site et pour identifier et corriger les erreurs robots.txt.
Pour rechercher des erreurs dans votre fichier robots.txt, consultez votre dernier rapport de synthèse d'audit de site et recherchez le "Mises à jour de Robots.txt " widget. Vous verrez si SEMrushBot a pu explorer votre fichier robots.txt.
Si vous avez apporté des modifications au fichier robots.txt, SEMrush affichera le nombre de modifications apportées depuis la dernière exploration.
Plus important encore, SEMrush mettra également en évidence les problèmes avec vos fichiers robots.txt et fournira des recommandations sur la façon de les résoudre pour améliorer l'exploration et l'indexabilité de votre site Web.
Note latérale: SEMrush est un puissant logiciel de référencement qui peut vous aider avec plus qu'une simple analyse technique de référencement. Vous pouvez l'utiliser pour effectuer des recherches de mots-clés, des analyses de backlinks, des recherches de concurrents et bien plus encore. Essayez SEMrush Pro gratuitement pendant 30 jours.
Maintenant que vous connaissez les principes de base du fichier robots.txt, jetons un coup d'œil à quelques-unes des bonnes pratiques à suivre:
Le nom du fichier robots.txt est sensible à la casse. Assurez-vous donc que le fichier est nommé "robots.txt" (et non robots.TXT, ROBOTS.TXT, Robots.Txt, etc.)
Votre fichier robots.txt doit être placé dans le répertoire principal de votre site. Si votre fichier robots.txt est placé dans un sous-répertoire, il ne sera pas trouvé.
Mal:
yoursitename.com/page/robots.txt
Bien:
yoursitename.com/robots.txt
Vous pouvez utiliser deux caractères génériques dans votre fichier robots.txt: le caractère générique (*) et le caractère générique ($). L'utilisation de ces Caractères génériques robots.txt vous aide à contrôler la façon dont les moteurs de recherche explorent votre site Web. Examinons chacun de ces caractères génériques:
Vous pouvez utiliser le caractère générique (*) dans votre fichier robots.txt pour adresser tous les agents utilisateurs (moteurs de recherche). Par exemple, si vous souhaitez empêcher tous les robots des moteurs de recherche d'explorer votre page d'administration, votre fichier robots.txt devrait ressembler à ceci:
Agent utilisateur: * Interdire: / wp-admin /
Le caractère générique ($) indique la fin d'une URL. Par exemple, si vous souhaitez empêcher les robots d'indexation de tous les fichiers PDF de votre site, votre fichier robots.txt devrait ressembler à ceci:
Agent utilisateur: * Interdire: /*.pdf$
Les commentaires dans votre fichier robots.txt peuvent être utiles aux développeurs et aux autres membres de l'équipe qui ont accès au fichier. Ils peuvent également être utilisés pour référence future.
Pour ajouter des commentaires à votre fichier robots.txt, tapez la clé de hachage (#) et entrez votre commentaire.
Voici un exemple:
# Cela empêche Googlebot d'explorer yoursitename.com/directory1/ Agent utilisateur: googlebot Interdire: / répertoire1 /
Les robots d'exploration Web ignorent les lignes contenant un hachage.
Chaque sous-domaine nécessite son propre fichier robots.txt. Par conséquent, si une section de votre site est hébergée sur un sous-domaine différent, vous devrez créer deux fichiers robots.txt distincts.
Par exemple, le blog de HubSpot est hébergé sur un sous-domaine et possède son propre fichier robots.txt:
Robots.txt est peut-être un simple fichier texte, mais c'est un puissant outil de référencement. Un fichier robots.txt optimisé peut améliorer l'indexabilité de vos pages et augmenter la visibilité de votre site dans les résultats de recherche.
Pour plus de détails sur la création du fichier robots.txt parfait, vous pouvez vous référer à ceci Guide robots.txt par Google.
Si vous avez trouvé cet article utile, partagez-le sur Twitter en utilisant le lien ci-dessous:
Articles Liés