Muchkale
"Mein Name ist Muchkale, und ich war einst der reichste Mann auf dem Planeten Venus."
Dieser Satz stammt aus der Geschichte "Verlorenes Mondgold", abgedruckt im Donald Duck Sonderheft 114, das ich heute Morgen beim Frühstuck las. Ich brauche den Satz hier nur, weil ich hoffe, daß die Zeichenkette "Muchkale" nicht sonderlich häufig in ernstzunehmenden Dokumenten auftaucht.
Und die Unverwechselbarkeit des Satzes ist für einen kleinen Test der Suchmaschinen nötig. Ich hoffe nämlich, Muchkale in keiner Suchmaschine jemals zu finden. Diese Webpage ist versteckt.
Warum das?
Mir sind drei Arten bekannt, wie Suchmaschinen Pages im WWW finden, und zwar:
- durch Anmeldung der Page bei der Suchmaschine (das macht normalerweise deren Besitzer),
- durch Verfolgen von Links, die auf die Page zeigen,
- durch das Durchsuchen von Verzeichnissen.
Die dritte Methode ist ein bischen unfair: Der Spider einer Suchmaschine trennt von der URL einer ihm bekannten Webpage http://www.irgend.wo/verzeichnis/datei.html den Dateinamen ab und durchsucht dann das gesammte Verzeichnis. Das geht nur, wenn der zuständige Webmaster vergessen hat, das Verzeichnis für das Durchsuchen zu sperren. Der Spider der Suchmaschine findet also Dateien, die er nicht finden soll. Und es gibt auf jedem Webserver Dateien, die gerade nicht von Spidern gefunden werden sollen.
Methode vier?
Vielleicht gibt es noch eine vierte Methode:
Um Spidern mitzuteilen, welche Dateien und Verzeichnisse sie bitte ignorieren sollen, gibt es den Robots Exclusion Standard (der allerdings nur eine Empfehlung ist). Nach diesem kann der Webmaster eine Datei robots.txt einrichten, in der er die zu ignorierenden Dateien und Verzeichnisse explizit benennt. Die Datei robots.txt liegt im Stammverzeichnis einer URL. Sie sieht beispielsweise so aus:
# robots.txt fuer http://www.irgend.wo User-agent: * Disallow: /cgi-bin Disallow: suchmaschinentest.html
Die erste Zeile ist nur ein Kommentar. Das Doppelkreuz "#" am Anfang zeigt das an. Die zweite gibt an, daß alle "User-Agents", also Spider, die folgenden Einschränkungen "Disallow" beachten sollen. In diesem Fall sollen alle Spider das Verzeichnis cgi-bin und die Datei suchmaschinentest.html ignorieren.
Diese Webpage, die Sie jetzt lesen, ist entsprechend in der robots.txt vermerkt, und nur dort ist sie überhaupt vermerkt. Sie ist bei keiner Suchmaschine angemeldet, es zeigt kein Link auf sie, und das Verzeichnis, in dem sie liegt, ist für das Durchsuchen gesperrt. Der Meta-Tag META NAME="ROBOTS" hat den Wert "noindex,nofollow" - Hallo Spider, ignoriere mich, und folge keinen Links. Durch die drei bekannten Methoden kann sie nicht gefunden werden.
Diese Webpage kann ein Spider nur lesen, wenn er die Datei robots.txt mißbraucht.
Sollte ein Spider diese Page lesen, wird er feststellen, daß sie für das Suchwort "Muchkale" optimiert ist:
- Muchkale ist der TITLE der Page,
- Muchkale lautet die erste und ranghöchste Überschrift,
- Muchkale ist das angegebene META NAME="keyword",
- Muchkale taucht in der META NAME="description" auf, und
- Muchkale taucht immerhin zwölf Mal im Text auf.
In der Kategorie "Muchkale" verdient diese Webpage sicherlich Platz eins der Rangliste.
Wenn ich diese Webpage jemals durch eine Suchmaschine finden kann (etwa durch die Suche nach "+suchmaschinentest +muchkale"), dann weiß ich, daß deren Spider sich unfair verhält. So in einem halben Jahr werde ich nachschauen und die Ergebnisse hier als Anhang veröffentlichen. Bis dahin bitte keinen Link auf diese Page legen.
Also mal sehen ...
Sonntag, 17.10.1999
Anmerkungen, Mai 2006
Es versteht sich von selbst, dass der Muchkale-Test nicht auf meiner Website ablief, sondern auf einer ungenannten. Verschätzt hatte ich mich, dass "Muchkale" im Internet eine seltene Zeichenkette sei - Disney hat im Netz eine starke Fangemeinde. Dennoch war der Test seinerzeit 'erfolgreich', denn die Page tauchte nach drei Monaten im Index einer damals noch wichtigen Suchmaschine auf.
Die Datei robots.txt kritisch zu prüfen, zählt mittlerweile zur normalen Recherche einer Website.
Ebenso ist das oben genannte Durchsuchen von Verzeichnissen eine übliche Recherchemethode geworden. Es reicht, die Suche "Index of" auf eine Site oder einen Domainraum zu begrenzen.
![Zur Startseite [Logo von Albrecht Ude] Zur Startseite [Logo von Albrecht Ude]](../pix/logo-albrecht-ude.gif)