Yahoo hat die Crawler Infrastruktur aktualisiert – teil davon ist Slurp 3.0, der neue Yahoo Crawler. Wie Golem berichtet hat Yahoo bisher nicht veröffentlicht, welche Aktualisierungen an dem Crawler vorgenommen wurden.

Dies ist kein unübliches Vorgehen, lediglich als Google seinen Crawler beigebracht hat, gzip Inhalte zu verstehen, oder die Crawler an einen gemeinsamen Cache angeschlossen hatte, um doppeltes Crawlen zu vermeiden, wurde dies publik gemacht. Bei Yahoo steht eine Umstellung auf Hadoop an – die Zukunft lautet bei Yahoo immer stärker OpenSource und Java. Sicherlich nicht schlecht für die Community, zudem zeigt es deutlich, dass Java alles andere als „langsam“ ist. Nachdem Yahoo auf einigen Seiten für 20% und mehr des Traffiks verantwortlich war, da der Crawler wild auf content war, könnte dieses unerwünschte Phänomen mit dem Slurp 3.0 nun der Vergangenheit angehören.