3
2011
Neues zur Verwendung der robots.txt-Datei
Die robots.txt hat sich als grundlegend wichtige Datei einer Website seit langem durchgesetzt. Wer sich mit dem Thema SEO auseinandersetzt, kennt die Sache mit dieser Datei, die im Rootverzeichnis einer Site abgelegt wird und dem Crawler sagt, was er crawlen darf und was nicht. Nun kam von Google eine etwas konkretere Aussage, ob und warum eine robots.txt-Datei verwendet werden sollte.
Kurz zum eigentlichen Sinn der robots.txt. Sie enthält Anweisungen, wie Crawler sich auf der Website bewegen dürfen. Es ist möglich, bestimmten Crawlern gezielte Anweisungen zu geben und auch einzelne Seiten (URLs), Verzeichnisse oder auch die gesamte Website für den Crawler zu sperren.
Als „normale“ Textdatei kann die robots.txt mit einem üblichen Editor erstellt und angepasst werden. Sobald fertig wird sie in der Root der Site (Beispiel: http://www.beispiel.de/robots.txt) abgelegt, um von den Crawlern gefunden zu werden. Kommt bsw. der googlebot vorbei, guckt er erst mal nach, ob er eine robots.txt findet. Falls ja, leist er sie aus und hält er sich in der Regel an deren Anweisungen.
Beispiele für Anweisungen in der robots.txt-Datei
User-agent: *
Disallow: /temp/
Disallow: /beispiel.php
Der * (Stern) bedeutet, dass das Nachfolgende für alle Crawler gilt. Die zweite Zeile schließt das Verzeichnis „temp“ aus und die dritte Zeile sagt dem Crawler, dass er die Datei „beispiel.php“ nicht crawlen soll/darf.
User-agent: *
Disallow: /
Diese beiden Zeilen sind mit Vorsicht zu genießen (einzusetzen), denn sie sperren jeden Crawler für die gesamte Site aus. Der Crawler darf gar nicht rein, was in der Regel dazu führen wird, dass die Site und deren Unterseiten/URLs gar nicht bei den Suchmaschinen zu finden sind. Wer bei Google & Co. gefunden werden will, nimmt im einfachsten Fall folgende Kombination, welche die gesamte Website uneingeschränkt für alle Crawler freigibt:
User-agent: *
Disallow:
Der Slash „/“ macht hier den kleinen, aber feinen Unterschied aus – also genau hinsehen, bevor die robots.txt so in die Root gestellt wird.
Nun könnte man meinen, bei letzterem Befehl wird doch eigentlich gar keine robots.txt gebraucht – oder man könnte die Datei ja ebenso gleich leer lassen. Der Crawler darf ja eh uneingeschränkt in die Site rein. Tja, denkste – ohne eine robots.txt-Datei könnte (und wird) der Server bei der Anfrage durch den Crawler nach dieser Datei schon mal was Falsches rausgeben, z.B. eine 404-Fehlermeldung oder dass der Crawler keine Berechtigung hat, die Datei zu lesen – was den Crawler schon mal verärgern könnte. Laut Google liegt das Risiko für solche Fälle aber nur bei ca. 1%. Da wir bei der SEO aber am Optimieren sind, darf so etwas eben nicht offen im Raum schweben und das Verwenden einer robots.txt ist einfach Pflicht – auch wenn sie im einfachsten Fall nur leer ist.
Wenn es nun schon ein solches, einfaches Mittel, gibt, um dem Crawler „Manieren bei zu bringen“
, sollte eine robots.txt auch tatsächlich sauber angelegt und ausgefüllt werden. Damit ist man dann auf der sicheren Seite – und kann hoffen, dass die Crawler sich an die Anweisungen in der robots.txt-Datei auch wirklich halten.
Kommentar hinterlassen
- ZieltrafficAG: 10 #Facebook Tipps für Power User -> http://t.co/TzIcDRqf → 22h ago
- ZieltrafficAG: #Google Explains How Your Emails Travel to Their Destination -> http://t.co/Ya0NJJtU #Email → 2d ago
- ZieltrafficAG: #Pinterest für Einsteiger: Wie Unternehmen die virtuelle Pinnwand nutzen können -> http://t.co/P7jqVL9A → 2d ago
- ZieltrafficAG: Große Nachfrage: #Facebook verteuert #Aktien vor Börsengang deutlich -> http://t.co/frV4e23I → 2d ago
- ZieltrafficAG: Beeindruckend! This 121-Megapixel Photo of Earth Will Make Your Jaw Drop -> http://t.co/3NtLEQS8 → 14.05.2012
- Frictionless Sharing ab sofort auf Allfacebook.de im Testlauf http://www.facebook.com/ZieltrafficAG/posts/288009621293824 → 14.05.2012
- Facebook testet ein neues Feature namens "Highlight". Gegen ein kleines Entgelt... http://www.facebook.com/ZieltrafficAG/posts/398716450172908 → 11.05.2012
- Bing startet mit verbesserter Social Search einen weiteren Angriff auf Google http://www.facebook.com/ZieltrafficAG/posts/408107709222074 → 11.05.2012
- Facebook startet App Center und positioniert sich gegen Apple und Google http://www.facebook.com/ZieltrafficAG/posts/222452917866695 → 10.05.2012
Zieltraffic auf Facebook
Schlagwörter
Archiv
- Mai 2012 (1)
- April 2012 (2)
- März 2012 (2)
- Februar 2012 (6)
- Januar 2012 (4)
- Dezember 2011 (2)
- November 2011 (4)
- Oktober 2011 (1)
- September 2011 (4)
- August 2011 (2)
- Juli 2011 (3)
- Juni 2011 (4)
- Mai 2011 (3)
- April 2011 (3)
- März 2011 (7)
- Februar 2011 (6)
- Januar 2011 (2)
- Dezember 2010 (3)
- November 2010 (2)
- Oktober 2010 (3)
- September 2010 (1)
- Juni 2010 (1)
- Mai 2010 (2)
- März 2010 (2)





