robots.txt
Die robots.txt ist eine kleine, aber wichtige Textdatei. Sie sagt Suchmaschinen, welche Bereiche einer Webseite sie crawlen dürfen – und welche für sie tabu sind. Dazu muss sie im Hauptverzeichnis einer Domain liegen (www.deine-domain.de/robots.txt
). Nur so kann sie als eine Art "Türsteher" für Google, Bing & Co fungieren ("Du kommst hier nicht rein!").
Warum ist die robots.txt wichtig?
Suchmaschinen-Crawler - allen voran der Googlebot - folgen (meistens) den Anweisungen in der robots.txt und respektieren diese auch (meistens).
Das ist wichtig, z. B. um:
✅ Unwichtige oder sensible Inhalte vom Index auszuschließen (z. B. ein Login-Bereich oder die interne Suche)
✅ Crawling-Ressourcen zu steuern, damit nicht ungewollt eine große Anzahl an Unterseiten durchforstet wird
✅ Doppelten Content zu vermeiden, indem z. B. Druckversionen oder Filterseiten gesperrt werden
Wichtige Befehle in der robots.txt:
User-agent: *
→ Gilt für alle SuchmaschinenDisallow: /intern/
→ Verhindert, dass Urls mit dem Verzeichnis/intern/
gecrawlt werdenSitemap: https://www.deine-domain.de/sitemap.xml
→ Sagt den Crawlern, wo die Sitemap der Seite zu finden ist.
💡 Achtung! Die robots.txt verhindert nur das Crawlen einer URL, nicht aber das Indexieren. Eine blockierte Seite kann also trotzdem im Google-Index auftauchen, wenn sie beispielsweise von irgendwo verlinkt wurde.
Wenn Du Inhalte komplett aus den Suchergebnissen entfernen willst, nutze das noindex
-Meta-Tag der jeweiligen Unterseite.
Fazit:
Die robots.txt ist ein simples, aber wichtiges Steuerungstool für Suchmaschinen-Crawler. Ein Fehler kann jedoch dazu führen, dass Google Deine komplette Webseite nicht besuchendarf – also Vorsicht beim Umgang mit dieser Datei.