robots.txt

Die robots.txt ist eine kleine, aber wichtige Textdatei. Sie sagt Suchmaschinen, welche Bereiche einer Webseite sie crawlen dürfen – und welche für sie tabu sind. Dazu muss sie im Hauptverzeichnis einer Domain liegen (www.deine-domain.de/robots.txt). Nur so kann sie als eine Art "Türsteher" für Google, Bing & Co fungieren ("Du kommst hier nicht rein!").

Warum ist die robots.txt wichtig?
Suchmaschinen-Crawler - allen voran der Googlebot - folgen (meistens) den Anweisungen in der robots.txt und respektieren diese auch (meistens).

Das ist wichtig, z. B. um:

✅ Unwichtige oder sensible Inhalte vom Index auszuschließen (z. B. ein Login-Bereich oder die interne Suche)
✅ Crawling-Ressourcen zu steuern, damit nicht ungewollt eine große Anzahl an Unterseiten durchforstet wird
✅ Doppelten Content zu vermeiden, indem z. B. Druckversionen oder Filterseiten gesperrt werden

Wichtige Befehle in der robots.txt:

User-agent: * → Gilt für alle Suchmaschinen
Disallow: /intern/ → Verhindert, dass Urls mit dem Verzeichnis/intern/ gecrawlt werden
Sitemap: https://www.deine-domain.de/sitemap.xml → Sagt den Crawlern, wo die Sitemap der Seite zu finden ist.

💡 Achtung! Die robots.txt verhindert nur das Crawlen einer URL, nicht aber das Indexieren. Eine blockierte Seite kann also trotzdem im Google-Index auftauchen, wenn sie beispielsweise von irgendwo verlinkt wurde.

Wenn Du Inhalte komplett aus den Suchergebnissen entfernen willst, nutze das noindex-Meta-Tag der jeweiligen Unterseite.

Fazit:
Die robots.txt ist ein simples, aber wichtiges Steuerungstool für Suchmaschinen-Crawler. Ein Fehler kann jedoch dazu führen, dass Google Deine komplette Webseite nicht besuchendarf – also Vorsicht beim Umgang mit dieser Datei.