Rivva – genehmigt.

Geschrieben von everflux am Mai 18th, 2010

Normalerweise bin ich recht argwöhnisch was Crawler, Bots und derlei Zeugs angeht. So auch, als ich den Rivva Crawler in meinen Logs auftauchen sah:

178.63.0.67 - - [17/May/2010:13:10:46 +0200] "HEAD ... HTTP/1.1" 200 - "-" "Mozilla/5.0 (compatible; Rivva; http://rivva.de)" 0 everflux.de
178.63.0.67 - - [17/May/2010:13:13:19 +0200] "GET ....  HTTP/1.1" 200 29570 "-" "Mozilla/5.0 (compatible; Rivva; http://rivva.de)" 0 everflux.de

Vor dem Sperren schaue ich mir in der Regel die betreffende Webseite an – in der Regel ist das dann eine “neue Suchmaschine” die mit SEO Mitteln versucht Adsense und dergleichen unters Volk zu jubeln, jedoch keinen oder geringen Nutzen bringt. Rivva sah dabei nicht schlecht aus, die About Seite klärte auf,  – und nach dem Blick auf den Namen des Autors war das grüne Licht dann an.

Noch besser wäre das Gefuehl natuerlich, wenn wirklich nur der Feed – und vielleicht auch das eine oder andere Mal die robots.txt abgerufen wuerde, statt die ganzen Seiten. Vielleicht hab ich das aber auch falsch verstanden.

Ein interessantes Projekt in jedem Fall, ich bin gespannt was daraus wird. Und ich werde in in den nächsten Wochen öfters mal drauf schauen auf den Fluss des Internets: rivva.de

Google: Langsam, langsamer, toooo slow

Geschrieben von everflux am Mai 17th, 2010

Google legt neuerdings Wert darauf, dass Webseiten schnell sind. Zumindest hat Google die Ladezeit von Webseiten neuerdings als (einen) Rankingfaktor offiziell bekannt gegeben. In den Google Webmaster Tools ist eine Ladezeit von ca. 2 Sekunden noch im “grünen” Bereich.
Nachdem mir eben aufgefallen ist, dass Firefox Google besonders langsam war, konnte ich mir ein kleines Grinsen nicht verkneifen, als ich dann von Google selbst gesagt bekam, dass nicht mein Browser, sondern wirklich Google langsam war. Und ich meine langsam: Sagenhafte 12 Sekunden fuer eine relativ simple Suchabfrage.

Selbst nachdem ich die selbe Abfrage nochmals verwendete – hier darf man ja aller spätestens einen warmen Cache annehmen – kam das Resultat erst nach 3-4 Sekunden. Wer es nicht glaubt, ich habe echte Screenshots! Weiterlesen »

SEO fail: Köln Messe “dringend anpassen zur SEO”

Geschrieben von everflux am Januar 26th, 2009

SEO ist zumindest in den Grundzügen nicht schwer: Doppelte Inhalte vermeiden, aussagekräftige Titel, Beschreibung (meta description) und sauberes HTML sind oft schon ausreichend, um eine Seite für Suchmaschinen zugänglich zu machen.

SEO ist also weniger eine technische als auch eine durch den Inhaltsersteller zu betreibende Disziplin – was sich im Negativen durch keywordlastige Überschriften, die mehr für Maschinen als die Leser gebastelt sind zeigen kann. Weiterlesen »

VirtualBox: Kostenloser Virtualisierer mit neuen Features

Geschrieben von everflux am Dezember 22nd, 2008

Sun Microsystems hat eine neue Version der kostenlosen Virtualisierungslösung VirtualBox (Sun xVM) herausgebracht. Das neue VirtualBox 2.1 wartet mit einigen Neuerungen auf (changes)

Am interessantesten dürfte dabei sein, dass 64bit Gäste in einer 32Bit Hostumgebung unterstützt werden, erste Schritte in Richtung hardware 3d Beschleunigung gemacht wurden, und verbesserter Support für die Netzwerkanbindung. (Das sollte dem etwas anstrengenden Gefummel mit Netzwerk-Bridges ein Ende bereiten – doch auch NAT soll wesentlich beschleunigt worden sein.)

VirtualBox kann nun auch mit Images von Vmware (VMDK, VHD) direkt arbeiten und unterstützt dabei auch die Snapshot Funktionalität. Weiterhin ist eine Enterprise Version und eine OpenSource Version kostenlos verfügbar. Weiterlesen »

209.85.238.11 – Google Inkognito?

Geschrieben von everflux am November 17th, 2008

Eine IP hats in den letzten Tagen auf sich: 209.85.238.11 – kein reverse DNS Eintrag, deswegen kann er in den Statistiken auch nicht mit irgendwas assoziiert oder zusammengefaßt werden.

Doch wer mag dahinter stecken? Ein Crawler? Ein Blick in die Zugriffslogs gibt natürlich etwas Aufschluß:

209.85.238.11 – - [17/Nov/2008:12:45:49 +0100] “GET /feed/ HTTP/1.1″ 200 4856 “-” “Feedfetcher-Google; (+http://www.google.com/feedfetcher.html;

Auch eine Google Suche nach der entsprechenden IP erweckt den Anschein, dass darüber Google sucht (“your ip: 209.85.238.11″ in den Suchergebnissen ist recht eindeutig). Letzte Sicherheit schafft dann eine Abfrage wem das zugehörige Subnetz zugeteilt ist:

NetRange:   209.85.128.0 – 209.85.255.255
CIDR:       209.85.128.0/17
NetName:    GOOGLE

Schade, dass Google hier nicht entsprechend der eigenen Hinweise handelt, die zum Verifizieren des Google Bots dienen. Und allem Anschein nach, ist es zum einen nicht nur der Feedfetcher – zum anderen, warum sollte das einen Unterschied machen?

Ach ich glaub ich mail da mal hin.

htaccess Trick um Bereiche für Suchmaschinen zu sperren

Geschrieben von everflux am Oktober 7th, 2008

Suchmaschinen – vor allem Google – können sehr hartnäckig sein. Gerade was alte Seiten oder Forumsbeiträge angeht, möchte man diese vielleicht aus Suchmaschinen ausnehmen.

Für Ressourcen, die nicht mehr verfügbar sind, gibt es ab HTTP 1.1 den Status Code 410 (Gone). Mit diesem Wissen gewappnet läßt sich eine Suchmaschine gut steuern.

Im Beispiel handelt es sich um ein Forum, in dem unerwünschte Beiträge nicht gelöscht werden sollen, sondern in einen Bereich verschoben werden, der öffentlich nicht verfügbar ist. (Das Forum ist PHPBB3 – hier kann leider nicht zwischen “eigentlich gelöscht” und in einem Beitrag nur für bestimmte Benutzer unterschieden werden.)

Kennt man die alte URL des Beitrags, so ist dieser zwar nicht mehr verfügbar, aber es erscheint eine “bitte melden Sie sich an” Seite. Nicht gerade das, was man sich wünscht um diesen Beitrag schnell aus dem Google Index verschwinden zu lassen.

Also kommt nun die Apache htaccess hinzu – leider geben sich Suchmaschinen gerne als HTTP 1.0 Browser aus, “echte” HTTP 1.0 Browser verstehen den HTTP Statuscode 410 jedoch nicht. Also kommt noch ein htaccess Trick hinzu: Ein HTTP 1.1 Browser nur kennt den “Host” Header, damit läßt sich eine hinreichende Differenzierung erreichen.

Zu guter letzt möchte man noch den Administratoren ermöglich in dem Bereich Beiträge zu sehen – hier gehe ich einfach mal davon aus, dass sich keine vernünftige Suchmaschine als “Firefox” User ausgeben würde, und die Administratoren seinerseits Firefox verwenden.

Zusammengebaut sieht das dann so aus:

#exclude archive pages from search engines, if http 1.1 capable (using host header check)
RewriteCond %{HTTP_HOST} .
#not for humans
RewriteCond %{HTTP_USER_AGENT} !Firefox [NC]
#else: gone
RewriteRule ^archiv/ - [G,L]

Eurobot 1.0: Ayell Euronet Crawler

Geschrieben von everflux am Juli 14th, 2008

Ayell crawlt seit ein paar Tagen in meinem Blog rum. Offenbar versucht jeder inzwischen ein klein-google nachzubauen. Dazu verwendet Ayell Euronet immerhin einen Crawler, der sich vernünftig zu verhalten scheint. Weiterlesen »

Adsense Rückwärtssuche von Adfire (adshadow)

Geschrieben von everflux am Juli 6th, 2008

Wie Jojo (This-and-that) berichtet, gibt es ein neues Tool: Quasi eine Adsense Rückwärtssuche. Das ganze funktioniert so: Auf adshadow.de gibt man eine Adsense ID oder eine Webseiten URL an.

Dann kann man sich eine Liste aller anderen Webseiten anschauen, auf denen diese Adsense Publisher ID auftaucht. (Man kann davon ausgehen, dass Google etwas ähnliches zur Hand hat ;-) ) Vielleicht für den einen oder anderen “nicht so schön”, und gefragt hat auch keiner. Weiterlesen »

Google: Einblick in die Konkurrenz

Geschrieben von everflux am Juni 22nd, 2008

Google hat ein neues Produkt online. Beta, wie üblich. Diesmal werden “anonymisierte” Daten über Webseiten via Google Trends veröffentlicht.

Das erlaubt einem schon ganz gute Einblicke in den Markt. Auch gibt es einen kleinen Einblick in die Möglichkeiten, die Google oder andere Datensammler mit den erhobenen Daten bekommen.

Nachdenklich sollte Google Trends for Websites auch im Hinblick auf die Voratsdatenspeicherung machen: An viele Möglichkeiten der Auswertung denkt man zum Zeitpunkt der Erhebung nicht. Das gilt auch für “loyalty” Programme wir Miles and More oder Payback. Den üblichen Verweis auf Orwell erspare ich mir.

Hier die – wenigen – Daten zu diesem Blog: everflux.de Trends

Etwas aufschlußreicher ist ein Blick auf mein allseits geliebtes Lawblog: lawblog.de Trends
Der typische Lawblog Leser ist also ein grüner Taxi-interessierter der sich neben Rechtsthemen aber auch für andere top-blogs interessiert.

Nimmt man dann noch hinzu, dass Google bemüht ist, Suchabfragen einen “Sinn” zu geben (Google erkennt schwule und lesben), kann einem Angst und Bange werden.

Slurp 3.0 – Yahoo hat neuen Crawler

Geschrieben von everflux am April 15th, 2008

Yahoo hat die Crawler Infrastruktur aktualisiert – teil davon ist Slurp 3.0, der neue Yahoo Crawler. Wie Golem berichtet hat Yahoo bisher nicht veröffentlicht, welche Aktualisierungen an dem Crawler vorgenommen wurden.

Dies ist kein unübliches Vorgehen, lediglich als Google seinen Crawler beigebracht hat, gzip Inhalte zu verstehen, oder die Crawler an einen gemeinsamen Cache angeschlossen hatte, um doppeltes Crawlen zu vermeiden, wurde dies publik gemacht. Bei Yahoo steht eine Umstellung auf Hadoop an – die Zukunft lautet bei Yahoo immer stärker OpenSource und Java. Sicherlich nicht schlecht für die Community, zudem zeigt es deutlich, dass Java alles andere als “langsam” ist. Nachdem Yahoo auf einigen Seiten für 20% und mehr des Traffiks verantwortlich war, da der Crawler wild auf content war, könnte dieses unerwünschte Phänomen mit dem Slurp 3.0 nun der Vergangenheit angehören.


http://everflux.de/
Copyright © 2007, 2008 everflux. Alle Rechte vorbehalten. All rights reserved.