Tiqqer Webcrawler Project
Allgemein/Internet Januar 26th, 2009Ein neuer Bot wühlt sich durch das Blog – er identifiziert sich als
"WIRE/0.20 (Linux; x86_64; Tiqqer Webcrawler Project (klaus(dot)greff(at)fraunhofer(dot)itwm(dot)de))"
und kam dabei von der IP 131.246.191.181 – sie gehört in der Tat zum Institut Techno- und Wirtschaftsmathematik des Frauenhofer Instituts Kaiserslautern, wie es die E-Mail Adresse andeutet.Was es mit diesem Bot auf sich hat, konnte ich nicht herausfinden. Jedoch gibt es einige Anzeichen dafür, dass man den Bot aussperren möchte
- robots.txt wird nicht abgerufen – entsprechend nicht eingehalten
- die angegebene Kontakt E-Mail Adresse, [email protected], führt zu Bounces, da die Domain freuanhofer.itwm.de garnicht existiert
- auf http://www.tiqqer.de/ wird ein Dienst angeboten, der grob mit „Beobachtung des Web 2.0 für Reputationsmanagement“ beschrieben werden kann – vielleicht besteht hier ein Zusammenhang
- der bot unterstützt offensichtlich keine HTTP Kompression, das ist wirklich nicht nötig
- Google und Yahoo liefern keine sinnvollen Ergebnisse zum Tiqqer Webcrawler – ich bin keine Spielwiese für Feld-Wald-Wiesen Bastelprojekte
Schön, dass HTTP 403 definiert hat.
Januar 30th, 2009 at 18:17
Hallo,
es tut mir sehr leid, dass durch mein Forschungsprojekt bei Ihnen
Unanehmlichkeiten entstanden sind. Ich habe Ihre Hinweise geprüft und die genannten Mängel nachvollzogen. Der Crawler wurde sofort gestoppt bis alle Fehler behoben sind.
Die e-mail Adresse habe ich korrigiert. Sie muss korrekt lauten:
[email protected]
Der Crawler baut auf dem WIRE-Webcrawler auf, der laut Dokumentation auf robots.txt Dateien Rücksicht nimmt. Leider hat eine genaue Prüfung aufgrund ihrer Beschwerde ergeben, dass dies nicht der Fall ist.
Insgesammt handelt es sich um ein Experiment im Rahmen meiner
Forschungsarbeit am Fraunhofer ITWM. Da ich in Kontakt mit den Leuten von Tiqqer stehe hatte ich mich für „Tiqqer Webcrawler“ als Arbeitsnamen entschieden. Es war allerdings eine eher unglückliche Wahl, da Tiqqer nicht für den Crawler verantwortlich ist.
Ich entschuldige mich für die Unanehmlichkeiten.
Grüße,
Klaus Greff
Januar 31st, 2009 at 12:31
Vielen dank für die ausführliche Stellungnahme! Ich freue mich sehr, dass ich auf diesem Wege dem Projekt helfen konnte. Wenn das Projekte eine offizielle Projektseite hat, verlinke ich die gerne. (Ich bin natürlich an den Ergebnissen solcher Forschungsprojekte auch interessiert, sollte etwas publiziert werden.)
Ich wünsche viel Erfolg im zweiten Anlauf! 🙂