WebAlta Crawler: Scraper + Harvester @ Leaseweb
Allgemein/Internet Juni 8th, 2008In regelmäßigen Abständen ging die Load eines Servers durch die Decke – völlig unerklärlich. Bis ich dem WebAlta Crawler genannten Bot auf die Schliche kam:
85.17.173.7 – – [08/Jun/2008:12:09:35 +0200] „GET seite.html HTTP/1.1“ 200 42207 „-“ „WebAlta Crawler/1.3.34 (http://www.webalta.net/ru/about_webmaster.html) (Windows; U; Windows NT 5.1; ru-RU)“ 0 host
Die angegebene URL für Webmaster ist nicht aufrufbar. Der Bot macht mal eben 1000 Anfragen in wenigen Minuten – der Server findet das natürlich nicht so lustig. Eine Google-Suche ergab, dass wohl auch andere mit dem WebAlta Crawler Probleme haben. Es deutet einiges darauf hin, dass der Bot E-Mail Adressen zu Spam-Zwecken sammelt. Vielleicht wird der content auch gescraped und recycled, wer weiß.
Ich habe erstmal den leaseweb IP Bereich 85.17.0.0/16 gesperrt. Der Provider dürfte von den Tätigkeiten wissen (bei dem Traffik), und wenn er nichts unternimmt, unterstützt er das Verhalten offenbar.
Juni 22nd, 2008 at 07:36
[…] ziemlich egal, nur so bin ich gezwungen Maßnahmen zu ergreifen. Auch das Problem mit dem “Webalta” Spider der letzten Zeit ist leaseweb […]
August 25th, 2008 at 19:38
Auch bei mir crawled webalta alle Seiten rücksichtslos. Das Problem ist nur, immer mit andere IP Adressen. Zuletzt 77.91.224.6
Ein Revers DNS gibt kein Ergebnis. Nur IP2LOCATION zeigt mir dann woher der Spuck kommt.