Nov
3
2011

Neues zur Verwendung der robots.txt-Datei

Die robots.txt hat sich als grundlegend wichtige Datei einer Website seit langem durchgesetzt. Wer sich mit dem Thema SEO auseinandersetzt, kennt die Sache mit dieser Datei, die im Rootverzeichnis einer Site abgelegt wird und dem Crawler sagt, was er crawlen darf und was nicht. Nun kam von Google eine etwas konkretere Aussage, ob und warum eine robots.txt-Datei verwendet werden sollte.

Kurz zum eigentlichen Sinn der robots.txt. Sie enthält Anweisungen, wie Crawler sich auf der Website bewegen dürfen. Es ist möglich, bestimmten Crawlern gezielte Anweisungen zu geben und auch einzelne Seiten (URLs), Verzeichnisse oder auch die gesamte Website für den Crawler zu sperren.

Als „normale“ Textdatei kann die robots.txt mit einem üblichen Editor erstellt und angepasst werden. Sobald fertig wird sie in der Root der Site (Beispiel: http://www.beispiel.de/robots.txt) abgelegt, um von den Crawlern gefunden zu werden. Kommt bsw. der googlebot vorbei, guckt er erst mal nach, ob er eine robots.txt findet. Falls ja, leist er sie aus und hält er sich in der Regel an deren Anweisungen.

Beispiele für Anweisungen in der robots.txt-Datei

User-agent: *
Disallow: /temp/
Disallow: /beispiel.php

Der * (Stern) bedeutet, dass das Nachfolgende für alle Crawler gilt. Die zweite Zeile schließt das Verzeichnis „temp“ aus und die dritte Zeile sagt dem Crawler, dass er die Datei „beispiel.php“ nicht crawlen soll/darf.

User-agent: *
Disallow: /

Diese beiden Zeilen sind mit Vorsicht zu genießen (einzusetzen), denn sie sperren jeden Crawler für die gesamte Site aus. Der Crawler darf gar nicht rein, was in der Regel dazu führen wird, dass die Site und deren Unterseiten/URLs gar nicht bei den Suchmaschinen zu finden sind. Wer bei Google & Co. gefunden werden will, nimmt im einfachsten Fall folgende Kombination, welche die gesamte Website uneingeschränkt für alle Crawler freigibt:

User-agent: *
Disallow:

Der Slash „/“ macht hier den kleinen, aber feinen Unterschied aus – also genau hinsehen, bevor die  robots.txt so in die Root gestellt wird.

Nun könnte man meinen, bei letzterem Befehl wird doch eigentlich gar keine robots.txt gebraucht – oder man könnte die Datei ja ebenso gleich leer lassen. Der Crawler darf ja eh uneingeschränkt in die Site rein. Tja, denkste – ohne eine robots.txt-Datei könnte (und wird) der Server bei der Anfrage durch den Crawler nach dieser Datei schon mal was Falsches rausgeben, z.B. eine 404-Fehlermeldung oder dass der Crawler keine Berechtigung hat, die Datei zu lesen – was den Crawler schon mal verärgern könnte. Laut Google liegt das Risiko für solche Fälle aber nur bei ca. 1%. Da wir bei der SEO aber am Optimieren sind, darf so etwas eben nicht offen im Raum schweben und das Verwenden einer robots.txt ist einfach Pflicht – auch wenn sie im einfachsten Fall nur leer ist.

Wenn es nun schon ein solches, einfaches Mittel, gibt, um dem Crawler „Manieren bei zu bringen“ ;-) , sollte eine robots.txt auch tatsächlich sauber angelegt und ausgefüllt werden. Damit ist man dann auf der sicheren Seite – und kann hoffen, dass die Crawler sich an die Anweisungen in der robots.txt-Datei auch wirklich halten.

 



Share

Über den Autor: Horst Christian Wagner

Kommentar hinterlassen

Zieltraffic auf Facebook