Google Desktop dreht durch

Juni 17th, 2008

Google Desktop Suche – auch bekannt als „Mozilla/4.0 (compatible; Google Desktop)“ kann wohl ganz schön wild werden, wenn es darum geht, merkwürdige Daten zu verdauen.

Das wäre eigentlich nicht so schlimm, würde es nicht – wieder einmal – bedeuten, dass ein Server darunter zu leiden hätte. Die Konstellation: phpbb3 mit einem RSS feed der bei jedem Zugriff neu generiert wird. Der RSS Feed ist per

<link rel="alternate" href="./rss.php" type="application/rss+xml" title="Forum" />

verlinkt. Man beachte den Punkt in der URL! Das führt nun dazu, dass in Unterbereichen des Forums ungültige Links erzeugt werden:

http://forum.example.com/topic-123/rss.php

Die versucht Google Desktop dann zu crawlen – ich habe keine Ahnung was dann passiert, außer dass anschließend die Topic Seite wieder gecrawlt wird, und dann wieder das RSS abgerufen wird. Eine nette kleine Endlosschleife, die zu furchtbar vielen Zugriffen führt. (Und bestimmt nicht zu einem besseren Index der Google Desktop Suche).

Lösung: RSS richtig verlinken, wildgewordene Google Desktop Bots werden für Unterverzeichnisse gesperrt. Was kann man daraus lernen? Logfiles im Auge behalten, vor allem wenn es darum geht Lastprobleme zu analysieren. Und: Daten die nicht top aktuell sein müssen, können ruhig gecached werden – das spart CPU Zyklen.

Google könnte auch was draus lernen, dafür gibts jetzt eine E-Mail an [email protected] denn „vertraue nie externen Inhalten“.

Kommentar schreiben

everflux