Comment créer un fichier robots.txt

Table des matières

Vous vous demandez ce qu'est ce mystérieux fichier robots.txt et s'il est vraiment crucial pour votre site WordPress ? Vous êtes au bon endroit. Oubliez le jargon technique incompréhensible. Ce guide complet, édition 2025, est conçu spécifiquement pour les utilisateurs de WordPress, des débutants aux plus confirmés. Nous allons démystifier le robots.txt, vous montrer comment le maîtriser sans risque et le transformer en un véritable atout pour votre référencement.

Le fichier robots.txt : qu'est-ce que c'est et en avez-vous VRAIMENT besoin sur WordPress?

Définition simple : le "videur" de votre site web

Imaginez votre site web comme une grande soirée privée. Le fichier robots.txt est tout simplement le "videur" posté à l'entrée. Son rôle est de donner des instructions aux robots des moteurs de recherche (comme Googlebot) qui se présentent. Il leur indique quelles salles (pages ou dossiers) ils ont le droit de visiter (explorer ou "crawler") et quelles sont les zones privées où ils ne sont pas les bienvenus.

C'est un simple fichier texte, mais il joue un rôle de premier plan dans la gestion du trafic des robots sur votre site, conformément au "Robots Exclusion Protocol" (REP).

Le cas de WordPress : le fichier robots.txt virtuel par défaut

La bonne nouvelle? Si vous utilisez WordPress, vous disposez déjà d'un fichier robots.txt sans même le savoir. WordPress en génère un "virtuel" par défaut. Si vous n'avez aucun fichier physique nommé robots.txt à la racine de votre site, WordPress présente automatiquement celui-ci aux robots :

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Cette configuration de base est très sensée : elle bloque l'accès à votre dossier d'administration (/wp-admin/), tout en autorisant l'accès à admin-ajax.php, un fichier essentiel au bon fonctionnement de nombreuses fonctionnalités de WordPress, y compris dans votre back-office.

Quand faut-il créer ou modifier son propre fichier robots.txt ?

Si WordPress fournit déjà une base saine, vous pourriez vouloir prendre le contrôle pour des besoins plus spécifiques :

  • Optimiser votre "budget de crawl" : Sur les gros sites, Google alloue un temps limité pour explorer vos pages. En bloquant les sections inutiles (pages de résultats de recherche interne, filtres, etc.), vous aidez les robots à se concentrer sur votre contenu important.
  • Bloquer des ressources spécifiques : Vous souhaitez peut-être empêcher l'exploration de certains dossiers de plugins ou de thèmes, ou de fichiers PDF que vous ne voulez pas voir explorés.
  • Protéger des zones de développement : Si vous avez un dossier de test ou une version de développement accessible en ligne, vous devez absolument en bloquer l'accès aux robots.

Crawl vs. Indexation : l'erreur n°1 à ne pas commettre

C'est le point le plus important de ce guide, et la source de confusion la plus fréquente. Ne pas comprendre cette distinction peut avoir des conséquences désastreuses pour votre SEO.

Ce que fait le robots.txt : il interdit l'accès (crawling)

Le fichier robots.txt ne gère QUE l'exploration (le crawl). Quand vous utilisez la directive Disallow, vous demandez aux robots de ne pas entrer dans une pièce. Cependant, si cette pièce a des fenêtres (des liens provenant d'autres sites), Google peut quand même deviner ce qu'il y a à l'intérieur et l'indexer. 

Une page bloquée par le robots.txt peut donc tout de même apparaître dans les résultats de recherche, souvent avec la mention "Aucune information n'est disponible pour cette page.".

Ce que fait la balise "noindex" : elle interdit l'affichage dans Google (indexing)

Pour interdire formellement à Google d'afficher une page dans ses résultats, l'outil adéquat est la balise meta noindex. Avec cette balise, vous laissez le robot entrer dans la pièce, mais vous lui interdisez de prendre des photos et de raconter ce qu'il a vu. 

C'est la méthode la plus fiable et la plus directe pour contrôler l'indexation.

Tableau comparatif : robots.txt vs noindex - Quel outil pour quel besoin ?

ObjectifOutil à utiliserExplication
Empêcher Google d'explorer une section (ex: admin, dossiers techniques)Fichier robots.txtBloque le robot à l'entrée. Idéal pour gérer le budget de crawl et les zones non pertinentes.
Empêcher une page d'apparaître dans les résultats de rechercheBalise meta noindexLaisse le robot explorer la page mais lui interdit de l'indexer. C'est la méthode à privilégier pour exclure du contenu des résultats.

La méthode recommandée (et la plus simple) : utiliser un plugin SEO

Pourquoi utiliser un plugin est plus sûr pour les débutants

Modifier manuellement les fichiers à la racine d'un site peut être intimidant et risqué. Une simple erreur de syntaxe ou un mauvais upload peut bloquer l'accès à des parties importantes de votre site. 

Les plugins SEO comme Yoast SEO ou Rank Math offrent une interface sécurisée et intégrée à WordPress pour modifier votre robots.txt sans jamais quitter votre tableau de bord.

Guide pas-à-pas : Modifier votre robots.txt avec Yoast SEO

  1. Dans votre tableau de bord WordPress, allez dans SEO > Outils.
  2. Cliquez sur Éditeur de fichiers. (Ici, une capture d'écran montrerait le menu de Yoast SEO)
  3. Si vous n'avez pas de fichier robots.txt physique, Yoast vous proposera d'en créer un.
  4. Vous pouvez maintenant modifier le contenu directement dans la zone de texte. (Ici, une capture d'écran montrerait l'éditeur de fichier de Yoast)
  5. Cliquez sur Enregistrer les modifications du robots.txt.

Pour plus d'informations, consultez la documentation officielle de Yoast SEO.

Guide pas-à-pas : modifier votre robots.txt avec Rank Math

  1. Dans votre tableau de bord WordPress, allez dans Rank Math SEO > Réglages Généraux.
  2. Assurez-vous d'être en "Mode Avancé" (en haut à droite).
  3. Cliquez sur l'onglet Modifier le robots.txt. (Ici, une capture d'écran montrerait les réglages de Rank Math)
  4. Modifiez le contenu dans l'éditeur qui apparaît. (Ici, une capture d'écran montrerait l'éditeur de fichier de Rank Math)
  5. Cliquez sur Enregistrer les modifications.

Pour un guide détaillé, référez-vous à la documentation de Rank Math.

La méthode manuelle (pour les utilisateurs avertis)

AVERTISSEMENT : Cette méthode est réservée aux utilisateurs expérimentés. Une erreur de manipulation (mauvais emplacement, faute de frappe dans le nom du fichier) peut avoir des conséquences négatives sur votre site. En cas de doute, privilégiez toujours la méthode par plugin.

Créer le fichier avec un éditeur de texte

Ouvrez un éditeur de texte simple (Notepad sur Windows, TextEdit sur Mac) et écrivez vos directives. Enregistrez le fichier en vous assurant que son nom est exactement robots.txt (tout en minuscules).

Placer le fichier à la racine de votre site via FTP ou cPanel

Connectez-vous à votre serveur via un client FTP (comme FileZilla) ou le gestionnaire de fichiers de votre hébergeur (cPanel, Plesk...). Naviguez jusqu'au dossier racine de votre installation WordPress (généralement public_html ou www). 

C'est à cet endroit précis que vous devez déposer votre fichier robots.txt.

La syntaxe du robots.txt démystifiée : les directives essentielles

User-agent : à qui parlez-vous ? (Googlebot, Bingbot, etc.)

Chaque groupe de règles commence par User-agent. Cette ligne désigne le robot concerné. L'astérisque (*) est une wildcard qui signifie "tous les robots". Vous pouvez aussi cibler des robots spécifiques.

  • User-agent: * (s'applique à tous)
  • User-agent: Googlebot (le robot principal de Google)
  • User-agent: Bingbot (le robot de Bing)
  • User-agent: AhrefsBot (le robot de l'outil SEO Ahrefs)
  • User-agent: SemrushBot (le robot de l'outil SEO Semrush)

Disallow : les portes à fermer

La directive Disallow indique les chemins que le robot n'a pas le droit d'explorer. La ligne doit commencer par un slash / qui représente la racine de votre site.

Disallow: /un-dossier-prive/

Allow : les exceptions à la règle (l'exemple de admin-ajax.php)

La directive Allow est utile pour autoriser l'accès à un fichier ou un sous-dossier spécifique à l'intérieur d'un dossier qui est, lui, interdit. 

C'est exactement ce que fait WordPress par défaut pour autoriser admin-ajax.php tout en bloquant le reste de /wp-admin/.

Sitemap : indiquer le plan de votre site

Il est fortement recommandé d'indiquer l'emplacement de votre sitemap XML. Cela aide les robots à découvrir plus efficacement toutes les pages que vous souhaitez voir indexées.

Sitemap: https://votresite.com/sitemap_index.xml

Les Wildcards : utiliser l'astérisque (*) et le dollar ($) pour des règles avancées

  • L'astérisque * remplace n'importe quelle chaîne de caractères. Par exemple, Disallow: /prive/*.pdf bloquera tous les fichiers PDF dans le dossier "prive".
  • Le dollar $ indique la fin d'une URL. Par exemple, Disallow: /test/$ bloquera l'URL /test/ mais pas /test/page.html.

Tableau de référence rapide : la syntaxe du robots.txt

DirectiveDescriptionExemple d'Utilisation
User-agentSpécifie le robot (crawler) auquel les règles s'appliquent. * signifie tous les robots.User-agent: Googlebot
DisallowInterdit l'accès à un répertoire ou une page spécifique.Disallow: /wp-admin/
AllowAutorise l'accès à un sous-répertoire ou une page, même si son parent est interdit.Allow: /wp-admin/admin-ajax.php
SitemapIndique l'emplacement du ou des sitemaps XML du site.Sitemap: https://votresite.com/sitemap_index.xml
* (Wildcard)Caractère générique qui peut remplacer n'importe quelle séquence de caractères.Disallow: /private/*.pdf
$ (Ancre)Indique la fin d'une URL, pour appliquer une règle uniquement à cette URL exacte.Disallow: /repertoire/$

Le fichier robots.txt idéal pour un site WordPress : nos modèles

Voici quelques modèles prêts à l'emploi. Copiez-collez celui qui correspond à vos besoins et n'oubliez pas de remplacer l'URL du sitemap par la vôtre.

Modèle n°1 : la configuration de base ultra-sécurisée

Idéal pour commencer, ce modèle reprend la base de WordPress en y ajoutant la déclaration du sitemap.

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Sitemap: https://www.votresite.com/sitemap_index.xml

Modèle n°2 : un exemple pour un site WooCommerce (spécificités e-commerce)

Pour un site e-commerce, il est crucial de bloquer les pages de compte, panier et paiement pour optimiser le budget de crawl.

User-agent: *
Disallow: /wp-admin/
Disallow: /cart/
Disallow: /checkout/
Disallow: /my-account/
Disallow: /*add-to-cart=*

Allow: /wp-admin/admin-ajax.php
Allow: /wp-content/uploads/

Sitemap: https://www.votresite.com/sitemap_index.xml

Comment vérifier et tester votre fichier robots.txt

Une fois votre fichier modifié, il est impératif de le tester. Google met à votre disposition un outil gratuit et puissant pour cela.

Utiliser l'outil de test du robots.txt de la Google Search Console

  1. Rendez-vous sur l'outil de test du robots.txt et connectez-vous à votre compte Google Search Console.
  2. Sélectionnez votre site dans la liste des propriétés.
  3. L'outil affichera automatiquement le contenu de votre fichier robots.txt et signalera les erreurs de syntaxe ou les avertissements.
  4. En bas de la page, vous pouvez entrer l'URL d'une de vos pages pour vérifier si elle est autorisée ou bloquée pour Googlebot.

C'est le meilleur moyen de vous assurer que vous n'avez pas accidentellement bloqué une page importante. Pour en savoir plus, consultez la documentation de Google sur le sujet.

Les 5 erreurs les plus courantes avec le robots.txt (et comment les éviter)

  1. Bloquer tout le site : Une ligne Disallow: / oubliée ou mal placée peut rendre votre site entièrement invisible aux robots. À n'utiliser que si vous souhaitez délibérément masquer un site de pré-production.
  2. Confondre Disallow et noindex : Comme nous l'avons vu, ce n'est pas la même chose. Pour empêcher l'indexation, utilisez toujours une balise noindex.
  3. Bloquer les fichiers CSS et JavaScript : Une erreur fréquente est de bloquer les dossiers de thèmes ou de plugins qui contiennent des fichiers CSS et JS. Google a besoin de ces fichiers pour "voir" votre page comme un internaute. Les bloquer peut nuire à votre référencement.
  4. Erreurs de syntaxe : Le fichier est sensible à la casse et aux fautes de frappe. disallow: (en minuscule) ne fonctionnera pas. Un chemin incorrect (ex: /dossier au lieu de /dossier/) peut avoir des effets inattendus.
  5. Oublier le sitemap : Ne pas déclarer votre sitemap est une opportunité manquée d'aider les moteurs de recherche à découvrir votre contenu.

Foire Aux Questions (FAQ)

Vais-je casser mon site en modifiant le robots.txt?
Non, une erreur dans le robots.txt ne "cassera" pas votre site pour les visiteurs humains. En revanche, elle peut avoir un impact très négatif sur votre visibilité dans les moteurs de recherche. C'est pourquoi il faut être prudent, utiliser un plugin et toujours tester ses modifications.
Dois-je bloquer le dossier des plugins (/wp-content/plugins/)?
C'est une pratique courante pour empêcher l'exploration de fichiers techniques non pertinents. Cependant, assurez-vous de ne pas bloquer des fichiers CSS ou JavaScript de ces dossiers si votre thème en a besoin pour afficher correctement les pages. Le modèle n°2 ci-dessus est un bon compromis.
Mon fichier robots.txt est vide, est-ce grave?
Pas du tout. Un fichier vide ou inexistant signifie que vous autorisez tous les robots à explorer l'intégralité de votre site. WordPress fournira de toute façon son fichier virtuel par défaut. En créer un vous donne simplement plus de contrôle.
Comment bloquer un robot spécifique (ex: un robot de scraping)?
Vous pouvez le cibler avec son nom d'user-agent : User-agent: NomDuMauvaisBot suivi de Disallow: /. Gardez cependant à l'esprit que les robots malveillants ignorent souvent les règles du robots.txt, qui reposent sur le volontariat.

Conclusion

Loin d'être un fichier obscur réservé aux développeurs, le robots.txt est un outil de contrôle puissant à la portée de tout propriétaire de site WordPress. 

En comprenant sa fonction première (gérer le crawl, pas l'indexation), en utilisant les méthodes sécurisées offertes par les plugins SEO et en testant systématiquement vos modifications, vous pouvez guider efficacement les moteurs de recherche et vous assurer qu'ils consacrent leur énergie à ce qui compte vraiment : votre contenu de qualité.

Ce guide fait partie d'une série de 6 guides sur comment référencer un site WordPress. Retrouvez les autres guides sur la monétisation :

1. Créer un fichier robots.txt ;
2. Installer un plugin SEO ;
3. Connecter son site à Google Search Console ;
4. Optimiser son contenu pour le SEO ;
5. Mettre en place une stratégie de netlinking ;
6. Travailler son maillage interne.