Warum ich Newskraft sperre
Allgemein/Internet, SEO/SEM Januar 10th, 2008Für alle die eine „Suchmaschine“ bauen – es gibt ein paar klitzekleine Verhaltensregeln, die man beachten sollte.
Ein Beispiel:
78.46.45.99 - - [10/Jan/2008:21:28:46 +0100] "GET /feed/ HTTP/1.1" 200 15773 "http://www.newskraft.de" "Newskraft.de" 0 everflux.de
78.46.45.99 - - [10/Jan/2008:21:28:46 +0100] "GET /feed/rss/ HTTP/1.1" 200 9052 "http://www.newskraft.de" "Newskraft.de" 1 everflux.de
78.46.45.99 - - [10/Jan/2008:21:28:46 +0100] "GET /feed/atom/ HTTP/1.1" 200 15021 "http://www.newskraft.de" "Newskraft.de" 0 everflux.de
78.46.45.99 - - [10/Jan/2008:21:28:46 +0100] "GET /?p=470&akst_action=share-this HTTP/1.1" 200 4908 "http://www.newskraft.de" "Newskraft.de" 0 everflux.de
78.46.45.99 - - [10/Jan/2008:21:28:46 +0100] "GET /?p=469&akst_action=share-this HTTP/1.1" 200 5049 "http://www.newskraft.de" "Newskraft.de" 0 everflux.de
78.46.45.99 - - [10/Jan/2008:21:28:46 +0100] "GET /?p=468&akst_action=share-this HTTP/1.1" 200 4644 "http://www.newskraft.de" "Newskraft.de" 0 everflux.de
78.46.45.99 - - [10/Jan/2008:21:28:46 +0100] "GET /?p=467&akst_action=share-this HTTP/1.1" 200 4828 "http://www.newskraft.de" "Newskraft.de" 0 everflux.de
78.46.45.99 - - [10/Jan/2008:21:28:47 +0100] "GET /?p=465&akst_action=share-this HTTP/1.1" 200 6963 "http://www.newskraft.de" "Newskraft.de" 0 everflux.de
78.46.45.99 - - [10/Jan/2008:21:28:47 +0100] "GET /?p=464&akst_action=share-this HTTP/1.1" 200 5003 "http://www.newskraft.de" "Newskraft.de" 0 everflux.de
78.46.45.99 - - [10/Jan/2008:21:28:47 +0100] "GET /?p=462&akst_action=share-this HTTP/1.1" 200 4847 "http://www.newskraft.de" "Newskraft.de" 0 everflux.de
78.46.45.99 - - [10/Jan/2008:21:28:47 +0100] "GET /?p=461&akst_action=share-this HTTP/1.1" 200 7506 "http://www.newskraft.de" "Newskraft.de" 0 everflux.de
78.46.45.99 - - [10/Jan/2008:21:28:47 +0100] "GET /?p=463&akst_action=share-this HTTP/1.1" 200 9277 "http://www.newskraft.de" "Newskraft.de" 1 everflux.de
Man beachte die Zeiten, wann die Zugriffe stattfanden.
Und das war noch lange nicht das Ende. Also wenns denn schon ein Crawler sein soll, dann nicht mehr als einen Zugriff pro Sekunde.
Immerhin bei Newskraft lobenswert: robots.txt wird vorher geladen – wie sie genutzt wird, hab ich jedoch nicht ausprobieren wollen.
April 28th, 2008 at 12:53
Hallo Thomas, entschuldige unser ungewolltes Spamverhalten. Wir haben mit Newskraft ein ambitioniertes Projekt ins Leben gerufen (Wir sammeln die Nachrichten der Welt und bieten den Bloggern eine Plattform), das leider noch etwas Optimierungsbedarf hat. Die robots.txt sollte natürlich von jedem seriösen Bot akzeptiert werden und das Crawlen sollte so trafficschonend wie möglich verlaufen. Uns ist dabei natürlich sehr wichtig, dass unser Projekt positiv wahrgenommen wird. Darum sind wir gerade mit Hochdruck dran, dieses Spamverhalten unseres Bots zu unterbinden. Also, Kritik angenommen und viele Grüße, Robert vom Newskraft-Team