Cover [©]
Recherchieren im Netz - Wege im Heuhaufen
Die Dienste des Internet und deren Bedingungen für Publikation und für Recherche
von Albrecht Ude
Das Internet ist ein nahezu weltweiter Verbund von Rechnern, die aufgrund definierter Regeln (so genannter Protokolle) miteinander kommunizieren können. Genauer umfasst "das Netz" alle Rechner, die über eine dauerhafte ("statische") oder über eine temporär durch einen so genannten Provider vergebene ("dynamische") IP-Adresse verfügen und auf der Basis des Internet-Protocol (IP) und des Transfer Control Protocol (TCP) Daten austauschen. Auf dem Protokollpaar TCP/IP bauen die "Anwendungen " oder "Dienste" des Internet wie etwa E-Mail und World Wide Web (WWW) auf.
Diese technische Perspektive ist für den Rechercheur in der Praxis meist belanglos. Für ihn zählt, dass durch das Internet ein offenes Konglomerat von Daten zur selektiven oder zur allgemeinen Benutzung bereit steht. Alle Daten im Netz sind digital, oftmals eigens digitalisiert. Dadurch kann ihre Recherche durch Programme (z.B. Suchmaschinen) unterstützt werden, stößt aber auch an Grenzen und bringt einige spezielle Probleme mit sich.
In diesem Text sollen die Grundvoraussetzungen für Recherchen im Internet ausgeleuchtet werden. Dabei werden empfehlenswerte Recherchehilfen erwähnt, dies geschieht aber ohne jeden Anspruch auf Vollständigkeit oder Autorität. Eine Basiserfahrung mit Recherchen im Netz wird vorausgesetzt.
Dienste des Internet
Der bekannteste "Dienst" des Internet ist das WWW. Es besteht, wie jeder Dienst, aus verschiedenen Komponenten. Die meisten davon bleiben dem Nutzer verborgen.
Jeder Nutzer sieht auf seinem Bildschirm den Webbrowser (ein Programm) und die Webseite (eine Datei), die der Browser formatiert anzeigt. Dazu muss diese Datei 'in HTML geschrieben' sein, also die Hypertext Markup Language (ein vom World Wide Web Consortium erstelltes Datenformat) verwenden.
Die vom Browser angezeigte Datei stammt normalerweise von einem Webserver (einem Programm). Entweder ist sie in der vorliegenden Form ("statisch") auf dem Host (einem Computer) abgelegt und wird jedem Surfer auf Anfrage geliefert. Oder sie wird ("dynamisch") eigens für die jeweilige Anfrage erzeugt: Letzteres zum Beispiel bei der Abfrage von Datenbankinhalten.
Die Kommunikation zwischen dem Webbrowser und dem Webserver folgt dem Hypertext Transfer Protocol (HTTP, einem Protokoll). Es legt fest, welche Daten zwischen Browser und Server ausgetauscht werden und wie dieser Austausch erfolgt. Dabei fließen notwendigerweise auch Daten aus dem Computer des Nutzers an den Server, da von diesem die Anfrage erzeugt wird (dazu unten mehr).
Fazit: Der Internet-"Dienst" WWW besteht aus dem Zusammenspiel von Programmen, Dateien, Dateiformaten und Protokollen. Das führt zu Eigenarten, die sich auf die Recherche auswirken. Rechercheure müssen diese kennen und gegebenenfalls auf sie reagieren können.
Das Internet folgt dem "Open-Source"-Gedanken: Die Dokumentationen der Vernetzungstechniken sind jedermann zugänglich. Wie etwa HTML und HTTP im Einzelnen funktionieren, ist in den "Technical Recommandations" (TR) des World Wide Web Consortium und in den "Request for Comments" (RFC) nachlesbar. Sie sind quasi der Duden des Internet: Man braucht sie nicht jeden Tag, sollte aber wissen, wo man sie bei Bedarf findet.
- Die Technical Recommendations des W3C:
| http://www.w3.org/ TR/
- Übersicht und Suchmöglichkeit nach allen gültigen RFC:
| http://www.faqs.org/ rfc/
- FITUG e.V. - Förderverein Informationstechnik und Gesellschaft
Sammlung von Dokumentationen rund um das Internet:
| http://www.fitug.de/ bildung/
Publikationsbedingungen im Internet
Das WWW hat im letzten Jahrzehnt eine Phase der Demokratisierung durchgemacht. Es kann nahezu jeder publizieren, der mag. Die Kosten sind gering, Vorkenntnisse sind kaum nötig. Zugangskontrollen finden de facto nicht statt. Durch die Internationalität des Mediums lassen sich nationale Gesetze und Zensurmaßnahmen umgehen. Diese Vorteile nutzt zum Beispiel das China News Digest, eine nach dem Tiananmen-Massaker 1989 entstandene Organisation von Chinesen in Nordamerika. Sie betreibt eine effektive und vor allem unabhängige Informationspolitik. Ihre Website, Datensammlungen und Newsletter sind eine Quelle ersten Ranges - auch für Chinesen in der VR. Die - allesamt erfolglosen - Gegenmaßnahmen der kommunistischen Administration sind mittlerweile buchfüllend.
- China News Digest:
| http://www.cnd.org/
Hinzu kommt die Anonymität des Internet. Wenngleich in der Praxis sehr schwer zu erreichen, wird sie von den meisten Nutzern subjektiv als hoch empfunden. Zusammen mit der Schnelligkeit des Mediums, dem Fehlen von Filtern und der oft mangelnden Professionalität der Publizierenden führt dies zu einer Flut von schnellen, schlecht recherchierten Angaben, Gerüchten und 'unterdrückten' Nachrichten bis hin zu gezielten Falschinformationen.
Insbesondere E-Mails und die Newsgroups des Usenet machen es einfach, unter Alias-Identiäten zu publizieren. Kostenlose so genannte Freemail-Accounts und Internet-Cafés ermöglichen dies. Zur Qualität der Publikationen trägt das nicht bei.
Bei den Inhalten vieler Webseiten handelt es sich nicht um originäres Material, sondern schlicht um Kopien aus anderen Webauftritten - die Leichtigkeit des Kopierens wird natürlich auch genutzt.
Absehbar ist zudem, dass die gezielte Lancierung von Falschinfos zu Lasten von Mitbewerbern (vor allem im wirtschaftlichen Bereich) noch zunehmen wird. An der École de Guerre Économique (EGE, 'Schule für den Wirtschaftskrieg') in Paris ist das bereits Teil des Unterrichtsstoffes: "Der Krieg der Köpfe" von Michael Moenninger (Die Zeit, 2003, Ausg. 9, Leben, S. 53)
Eine weitere Besonderheit des WWW liegt in der Distribution. "Traditionelle" Publikation bedeutet entweder Sendung (Radio und TV) oder aber Vervielfältigung (Druckerzeugnisse). Meistens geht damit die Dokumentation einher, z.B. durch die Ablieferung von Pflichtexemplaren an öffentliche Bibliotheken und deren Eintragung in Bibliographien.
Nichts davon im Internet. Die Distribution von Webseiten geschieht ungeregelt und nur auf Anforderung der Surfer. Eine Archivierung oder Dokumentation gibt es nur in Ansätzen, zudem derzeit nur von privater Seite. Die nationalen Bibliographien haben das Publikationsfeld Internet noch nicht erschlossen.
Der gravierendste Unterschied zu anderen Medien besteht in der "Unschärfe" und der Individualisierbarkeit. Der Produzent traditioneller Medienerzeugnisse besitzt die hundertprozentige Kontrolle über das Endprodukt, sowohl über den Inhalt, wie auch über dessen Gestaltung.
Nicht so im Web. Das WWW wurde am CERN in Genf entwickelt, um strukturierte Informationen, nämlich Ergebnisse wissenschaftlicher Forschung, zu übermitteln. Nicht Layouts. Das Endprodukt "Webseite" entsteht beim Nutzer. Wie es genau aussieht, hängt von dessen Computer, Browser, Graphikkarte, Bildschirmgröße und anderen Faktoren mehr ab. Und es beeinflusst nicht nur, wie eine Webseite dargestellt wird, sondern auch, was davon bzw. ob diese überhaupt dargestellt wird - viele Webauftritte sind nicht "plattformübergreifend" nutzbar. Sie präsentieren nur in einem bestimmten Browser ihre kompletten Informationen und sind mit anderen Programmen nicht oder nur teilweise lesbar. Web-'Designer' treibt das bis heute zur Verzweiflung.
Dazu kommt die Individualisierbarkeit der gelieferten Ergebnisse. Wer eine Datenbank (z.B. durch die Suchfunktion auf einer Webseite) abfragt, erhält eine Ergebnisseite, die individuell für ihn entsprechend seiner Anfrage erstellt wurde.
Einige Websites fragen per Javascript (eine vermeintlich einfache, de facto sehr fehleranfällige Programmiersprache) ab, welches Browserfabrikat in welcher Version der Nutzer einsetzt. Um dann eine dafür "optimierte" Seitenvariante zu liefern (so genanntes "Agent Name Delivery"). Dies ist eine Standardlösung schlechter Webdesigner; gerade große Firmen setzen sie oft ein. Ärgerlich, aber durch den Betrieb verschiedener Browservarianten leicht zu umgehen.
Webserver können aber auch darauf reagieren, welche Seite der Surfer zuvor besucht hat (der so genannte "Referer") oder von welcher Adresse aus er ins Netz geht (so genanntes "IP Delivery"). Meist geschieht das unbemerkt. Umgehen lässt es sich durch den Einsatz von Anonymisierern (s.u.) oder einen Gang ins benachbarte Internet-Café.
Fazit: Das Internet stellt Rechercheure vor neue Anforderungen. Sie müssen insbesondere in der Lage sein, die Qualität und die Verlässlichkeit von digitalen Daten und von deren Anbietern zu überprüfen.
Recherchebedingungen im Internet
Die Suche im Netz ist eine unverzichtbare Komponente des Recherchierens. Sie ist oft billig und meistens schnell. Sie muss stattfinden, darf aber andere Arten der Recherche nicht ersetzen. Jeder erfahrene Rechercheur weiß, wie viele Webauftritte schlecht gemacht sind, augenscheinlich gedankenlos realisiert wurden und mehr Fragen aufwerfen, als sie beantworten. In vielen Fällen gibt ein Blick ins Telefonbuch, ein Anruf oder ein Griff ins Bücherregal schneller Auskunft als ein Klick ins Netz.
Zudem setzt das Internet den Recherchemöglichkeiten einige enge Grenzen:
- Mangelnde Historie des Internet: Viele heute entstehende Daten werden digital produziert. Sie ins Netz zu stellen, ist kein Problem. Vorhandene Daten jedoch nachträglich zu digitalisieren (z.B. durch Scannen), ist mit hohem Aufwand verbunden. Trotz der Datenfülle und des Wachstums der Inhalte des Internet sind viele 'alte' Informationen hier nicht zu finden.
- Mangelnde Historizität des Internet: Digitale Daten 'altern' zwar nicht, sind aber flüchtig. Archive des Internet gibt es nur in Ansätzen. Informationen, die heute recherchiert werden, können morgen schon gelöscht und damit faktisch unwiderruflich vernichtet sein.
Das derzeit beste Archiv für "veraltete" Webseiten ist die 'Wayback Machine' unter:
| http://archive.org/ - Zeitverzug: Neue Informationen tauchen nicht von selbst im Netz auf, meist muss sie jemand bearbeiten. Geänderte Webseiten werden nicht unmittelbar durch Suchmaschinen zur Kenntnis genommen. Bis eine Änderung von Informationen im Netz recherchierbar ist, können daher Tage und Wochen vergehen.
- Begrenztheit der Suchwerkzeuge: Auch die beste Suchmaschine kennt nicht das 'ganze' Internet. Selbst die größten Datenbanken decken weniger als 25 Prozent der vorhandenen Webseiten ab. Tatsächlich hat auch keine Suchmaschine das Ziel, alle Webseiten in ihren Datenbestand aufzunehmen.
- Limitation der Suchmöglichkeiten: Wirklich durchsucht werden können nur Texte (Suchmaschinen für Bildinhalte sind noch im Forschungsstadium). Und zwar Texte, die in Form von HTML-Dateien vorliegen (genauer: Dateiformat im MIME-Typ "HTML"; lediglich Google durchsucht auch andere Arten von Textdateien, z.B. PDF-Dokumente). Alle anderen Dateiformate können nur anhand ihrer Attribute (Dateiname, -größe, Datum ...) oder anderer Hinweise (z.B. Alternativtexte für Bilddateien) erfasst werden. Von einer Recherche des Inhaltes dieser Dateien kann keine Rede sein.
So liegt etwa Johann Heinrich Zedlers "Großes vollständiges Universal-Lexikon...", eine Enzyklopädie des 18. Jahrhunderts, in Form von eingescannten Dateien vor. Menschen - sofern sie mit Frakturschrift klarkommen - können dieses Lexikon also online konsultieren. Für maschinelle Suchwerkzeuge handelt es sich dagegen um eine Ansammlung von Grafikdateien im GIF-Format, deren Inhalt unerschlossen bleibt.
Zedler, Lexikon: Stichwortsuche und Images
| http://mdz.bib-bvb.de/ digbib/ lexika/ zedler - Spam: Viele Webseiten sind schlecht, inhaltslos oder schlicht betrügerisch. Kriminelle Seitenbetreiber versuchen, so viele Surfer wie möglich auf ihre Seiten zu locken, etwa weil sie an der Menge der Klicks verdienen. Das Fehlen von Filtern, von Professionalität und kriminelle Energie führen dazu, dass sich im Netz mehr Informationsmüll findet als in anderen Medien.
Fazit: Eine umfassende Suche im Internet ist nicht möglich. Während die Inhalte einer Bibliothek von geschultem Personal nach exakten Regeln komplett in Katalogen erschlossen sind, ist die Lage im Netz unbefriedigend. Weder wird das Netz insgesamt durchsucht, noch werden alle Dateien berücksichtigt. Regeln für die Katalogisierung gibt es zwar, einheitlich sind diese aber nicht, zudem werden sie meist als Geschäftsgeheimnisse behandelt. Für den Rechercheur stellt überdies die schiere Menge der Funde eine Hürde dar. Er muss in der Lage sein, aus den Fundstücken im Internet die relevanten und originären Informationen zu filtern, um brauchbare Ergebnisse zu erhalten.
Recherche im WWW - strukturelle Möglichkeiten und Probleme der Webrecherche
Es ist nicht Ziel dieses Abschnittes, eine Sammlung von Einstiegspunkten vorzustellen, vorab jedoch einige Empfehlungen:
- CompletePlanet: Verzeichnis von mehr als 100.000 allgemeinen und speziellen Suchmaschinen weltweit:
| http://www.completeplanet.com/
- Die beste allgemeinverständliche (deutschsprachige) Einführung in Suchtechniken ist die "Suchfibel" von Stefan Karzauninkat, die auch als Buch (mit CD-ROM) erhältlich ist. Sie stellt neben anderem die wichtigsten deutsch- und englischsprachigen Suchmaschinen sowie eine Vielzahl spezieller Suchdienste vor:
| http://www.suchfibel.de/
- Eine umfangreiche Sammlung wichtiger Datenbanken bietet Infobote.de. In systematischer Anordnung werden hier wesentliche Angebote des deutschsprachigen Internet (und einige englische) verlinkt und kurz beschrieben Praktisch ist, dass für viele Adressen gleich die Suchmasken präsentiert werden:
| http://www.infobote.de/
Die Arbeitsweisen der Suchwerkzeuge
Die wichtigsten Suchwerkzeuge für das WWW sind die Suchmaschinen (Search Engines) und die Verzeichnisse (auch als Kataloge, Directories, teilweise als Portale bezeichnet). Der Hauptunterschied liegt in ihrer Arbeitsweise. Suchmaschinen sind Datenbanken, die durch Programme erstellt werden, Verzeichnisse dagegen werden durch Redakteure gepflegt. So genannte Metasuchmaschinen fragen lediglich mehrere Suchmaschinen ab, ohne eigene Datenbestände zu pflegen - sie werden deshalb hier nicht berücksichtigt.
Suchmaschinen - Was tut eine Suchmaschine eigentlich?
- Sie durchsucht das Web, indem sie Links auf bekannten Seiten folgt und so neue Seiten findet (so genanntes "Spidern").
- Sie baut daraus eine Datenbank auf und aktualisiert diese.
- Sie verwehrt vielen Webseiten die Aufnahme in ihre Datenbank, weil diese Seiten entweder schlecht sind (weil nicht informationstragend) oder aber die Suchmaschine zu betrügen versuchen (so genanntes "Spamdexing", das z.B. pornographische Seiten aussondert).
- Sie bildet entsprechend der Suchanfragen ihrer Nutzer Ergebnismengen.
- Sie ordnet diese Ergebnismengen nach der Relevanz der Dateien, die darin auftauchen (so genanntes "Ranking").
Dateien, auf die von außen kein Link gelegt ist (so genannte "Inselseiten"), bleiben Suchmaschinen verborgen. Ebenso wenig sind sie in der Lage, passwordgeschützte Dateien zu erreichen. Inhalte von Datenbanken können nur wenige Spezialsuchmaschinen abfragen. Datenbankinhalte bilden den Großteil der 'unsichtbaren' Webinhalte ('Invisible Web'). Dazu unten mehr.
Auf Anfrage von Nutzern recherchieren die Maschinen nicht im Web, sondern in ihrer (vorher erstellten) Datenbank. Prinzipiell wird also nur eine bereits veraltete Teilmenge von Daten durchsucht, nicht "das Netz".
Ausgegeben wird eine geordnete Ergebnisliste (meist wegen ihres Umfanges auf mehrere Seiten verteilt). Die Ordnung dieser Listen, bei denen die relevantesten Ergebnisse am Anfang stehen sollen, folgt den "Ranking"-Technologien. Das sind Algorithmen, mit denen die Relevanz von Dokumenten für vorliegende Suchanfragen bestimmt wird. Die Wissenschaft des Information Retrieval (Informationswiedergewinnung) entwickelte diese Techniken; drei Arten von Kriterien spielen dabei eine Rolle:
- Die Webseiten selbst (Dateien): Die eigentlichen Inhalte der Seiten, die auch am Bildschirm angezeigt werden, aber auch die (für menschliche Nutzer meist unsichtbaren) so genannten Header-Tags wie Titel, Stichworte, Beschreibung des Seiteninhaltes. Ferner auch Faktoren wie die Menge und Art der Hyperlinks in der Seite und anderes mehr. Alle diese Kriterien kann der Autor der Seite beeinflussen.
- Die Website: Die meisten Dateien sind Teil eines Webauftrittes, der so genannten Website. Auch deren Attribute, etwa die Netzwerkadresse (URL), Dateinamen, Struktur der Site usw. nehmen Suchmaschinen zur Kenntnis. Auch diese Kriterien können die Autoren beeinflussen - das geschieht aber schon seltener.
- Externe Faktoren: Schließlich gibt es Bewertungskriterien, die sich der Beeinflussung durch den Autor einer Site entziehen. Zum Beispiel die Menge der externen Links (die von außen auf die Site verweisen, die so genannte "Visibility" oder "Link-Popularität").
Gerade weil diese Faktoren nicht im Sinne der Eigenwerbung zu korrumpieren sind, werden sie von Suchmaschinen sehr hoch gewertet.
Um günstige Platzierungen auf den Ergebnislisten der Suchmaschinen tobt ein heißer Kampf. Ein Platz unter den ersten zehn Ergebnissen relevanter Abfragen garantiert hohe Aufmerksamkeit, da die erste Seite der Ergebnismenge von allen Nutzern gesehen wird - schon die zweite wird nur noch von etwa einem Drittel der Nutzer angeklickt. Viele Dienstleister bieten den Betreibern von Webseiten Hilfe beim "Suchmaschinenmarketing" an. Sie befinden sich dabei im permanenten Wettbewerb untereinander wie auch zu den Suchmaschinen. Letztere sitzen dabei am längeren Hebel, da ihnen die Möglichkeit zur Sperrung von Webauftritten bleibt. Andererseits korrumpieren sich etliche Suchmaschinen selbst dadurch, dass sie Platzierungen gegen Bezahlung anbieten, ohne diese kenntlich zu machen.
Einige Internetauftritte informieren über die Entwicklung der Technologie von Suchmaschinen sowie über deren konkrete Umsetzung, zwei davon seien hier empfohlen:
- Search Engine Watch
Die von Danny Sullivan gepflegte, sehr umfangreiche Site kann als beste Quelle zum Thema Suchtechnologie gelten. Die Benutzung ist teilweise kostenpflichtig:
| http://www.searchenginewatch.com/
- Die Suchmaschinen-Site
Klaus Schallhorns Angebot richtet sich vor allem an dessen zahlende Kunden, ein Großteil der Site ist aber frei zugänglich. Hier gibt es aktuelle Informationen zur Suchmaschinenoptimierung, diverse Tools, ein umfangreiches Glossar sowie ein lesenswert kompromissloses Tutorial. Der engagierte und humorvolle Newsletter ist kostenfrei:
| http://www.kso.co.uk/
"Google" steht für eine bemerkenswerte Internet-Erfolgsstory. Als Suchmaschine gegründet, buchstäblich aus dem Nichts, ohne Börsengang, ohne je einen Euro für Werbung auszugeben, ist die Firma in der Gewinnzone angekommen. Die Marke Google ist weltbekannt. Das Erfolgs-'Geheimnis': Qualität. Keine andere Suchmaschine setzt die Algorithmen des Information Retrieval so sauber um.
Hinter der Marke verbirgt sich mittlerweile mehr als nur die derzeit beste Suchmaschine. Google kooperiert mit DMOZ - diesen weltgrößten Katalog findet man auch unter dem Label "Google Directory". Durch die "Google Groups" (ehemals DejaNews) ist Zugriff auf das Usenet möglich. Mittlerweile bietet Google sogar Spezialsuchen nach Shops und Produkten an. Wahrscheinlich wird demnächst eine Suchmöglichkeit nach Weblogs hinzukommen.
Von der Öffentlichkeit noch weitgehend unbemerkt hat sich Google zu einer zentralen Such-Site entwickelt, die das Potenzial zur Marktbeherrschung hat. Grund genug für Rechercheure, sich genauer mit diesem Multifunktionswerkzeug auseinander zu setzen:
- Google Services & Tools - Die speziellen Suchmöglichkeiten:
| http://www.google.com/ options/ - Google Web Search Features - Erklärungen zur Abfragesyntax:
| http://www.google.com/ help/ features.html - Google Labs - Ein Blick in das Entwicklungslabor der Suchmaschine:
| http://labs.google.com/
Indicateur.com, eine französischsprachige Website mit Spezialisierung auf Suchmaschinen, hat ein Webverzeichnis über Google eingerichtet: "Google's World". Es liegt auch auf Englisch vor und verzeichnet in systematischer Ordnung bereits mehr als 200 Links zu unterschiedlichen Aspekten dieser wichtigen Suchmaschine.
Verzeichnisse
Im Gegensatz zum maschinellen Vorgehen der Suchmaschinen setzen Verzeichnisse auf die Kompetenz menschlicher Redaktionen. Die so produzierten Linksammlungen werden meist in hierarchisch-systematischer Form vorgelegt und durch Suchfunktionen unterstützt. Sehr häufig ist bei Verzeichnissen mit globalem Informationsanspruch die Kombination mit einer Suchmaschine.
Beispiel | Yahoo, der zweitgrößte Katalog weltweit: Eine Kombination von Verzeichnis, News-Portal und Datenbank. Die Datenbank ist dabei von Google übernommen (vorher von Inktomi), so dass bestenfalls die Ranking-Algorithmen von Yahoo selbst stammen können. Um so mehr Gewicht wird auf das Verzeichnis gelegt. Dieses wird von fest angestellten, ausgebildeten Bibliothekaren gepflegt, denen wiederum ein Stab von freien Surfern zuarbeitet.
Es liegt auf der Hand, dass globale Verzeichnisse ( | Dino-online, | Fireball, | Lycos / | Lycos Europe, | Web.de, | Yahoo und andere) durch dieses Vorgehen nicht die Größe der Suchmaschinen-Datenbanken erreichen können. Dem steht aber als unbestreitbarer Vorteil gegenüber, dass eine Vorprüfung und Bewertung aller Einträge durch das 'menschliche Auge' bereits statt gefunden hat.
Besondere globale Verzeichnisse
Weil werbefrei, ohne wirtschaftliches Eigeninteresse und von herausragender Qualität, sollen vier umfassende Verzeichnisse erwähnt sein:
- BUBL Link (Library Network of Knowledge)
Der Katalog des 'BUlletin Board of Libraries' vom Centre for Digital Library Research, University of Strathclyde, Glasgow, ist in mehrfacher Hinsicht beispielhaft. Ausgebildete Bibliothekare, die sich auf Wissensordnung verstehen, verzeichnen ausgewählte Webseiten in einem kleinen, feinen Katalog (derzeit ca. 12.000 Einträge). Jeder Eintrag besteht aus (verlinktem) Titel, kurzer Beschreibung und weiteren Angaben. Erschlossen sind die Einträge alphabetisch, nach Schlagworten, nach Ländern, Typisierung und sogar nach der Dezimalklassifikation (System Dewey). Ein Newsletter informiert über Aktualisierungen:
| http://bubl.ac.uk/ link/
- DMOZ (Directory Mozilla)
Schon der Name zeigt die Nähe dieses Projektes zur Open-Source-Bewegung. Ehrenamtliche Editoren pflegen einzelne Abteilungen dieses systematisch geordneten Kataloges, der auch als "Open Directory Project" (ODP) bezeichnet wird. Die Wissensgebiete sind dabei eng gefasst, der Katalog ist der umfangreichste weltweit - zudem liegt er in vielen Sprachversionen vor. Eine Suchfunktion erleichtert die Stichwort- und Schlagwortsuche.
DMOZ verbirgt sich - bei etwas anderem Layout - auch hinter dem Directory von Google (auch andere Suchmaschinen nutzen das ODP). Im "originalen" DMOZ finden sich mehr Querverweise, etwa zu gleichen Kategorien in anderen Sprachen:
| http://dmoz.org/
| http://directory.google.com/
- Librarian's Index to the Internet (LII)
"Information You Can Trust." Unter diesem Motto haben Bibliothekare aus Kalifornien einen systematischen Katalog aufgebaut, der ca. 11.000 Websites umfasst. Dazu gibt es eine Suchfunktion und einen wöchentlichen Newsletter:
| http://www.lii.org/
- The Virtual Library (WWW VL)
Der älteste Verzeichnisverbund des Web (gegründet von Tim Berners-Lee, dem Erfinder des WWW). Von freiwilligen Kräften gepflegt, bilden die Virtual Libraries nicht den größten Katalog des Web, und sie decken auch nur einige Felder ab. Wegen ihrer Qualität genießen sie aber ein hohes Ansehen. Neben einer alphabetischen und einer systematischen Übersicht gibt es eine Datenbank sowie eine Liste der zu den VLs gehörenden Mailinglisten. Ferner betreiben einige VLs eigene Newsletter:
| http://www.vlib.org/ - VL Central Database
| http://conbio.net/ vl/ database - Mailinglisten
| http://ceolas.org/ VL/ members/ mailing_lists.html
Spezielle Verzeichnisse
Die Trüffel für Rechercheure sind die ungezählten spezialisierten Verzeichnisse im Netz, die von Einzelpersonen oder kleinen Organisationen aufgebaut werden. Hochkompetent in engen Fachgebieten, liegt es nahe, die begrenzten Ressourcen eher für die redaktionelle Entwicklung eines Kataloges aufzuwenden, als in die technische Entwicklung einer Suchmaschine zu investieren. Beispiele:
- Infomine - Scholarly Internet Resource Collections
Diese Site, entstanden aus der Kooperation von 4 Universitäten der USA, ermöglicht die Suche in mehr als 100.000 akademischen Informationsangeboten. Grob sortiert nach Fachgebieten, innerhalb dieser Möglichkeiten zu sehr exakter Suche, außerdem diverse Indizes:
| http://infomine.ucr.edu/
- Der Journalismus-Katalog (von Peter Diesler)
Journalisten haben für Medienprofis eine kleine, feine Linksammlung zusammengetragen. Für Rechercheure besonders interessant sind die Kategorien Recherche-Hilfen und Recherche-Quellen:
| http://katalog.journalismus.com/
- Bibliografischer Werkzeugkasten
Umfassende, internationale Linksammlung zu Websites der "Gutenberg Galaxy": Bibliotheken, Verlage, Nachschlagwerke, Biografien, Bibliografien usw:
| http://www.hbz-nrw.de/ produkte_dienstl/ toolbox/ index.html
- Kidon Media-Link
Von allen Versuchen, die internationale Medienlandschaft im Netz komplett abzubilden, ist Kidon wahrscheinlich am nächsten dran. Erstaunlich, da dies wohlgeordnete Angebot von nur zwei Personen betrieben wird.
Nach Kontinenten und Ländern geordnet (für die USA: Bundesstaaten) findet man hier Links auf Zeitungen, Zeitschriften, Sender und Agenturen. Mit Suchfunktion:
| http://www.kidon.com/ media-link/ index.shtml
- Political Resources on the Net
Angebot von Radio Radicale (Italien): Für jedes Land der Welt sind Parteien, Organisationen, Regierungsinstitutionen und Medien aufgelistet. Englischsprachig, mit Suchfunktion:
| http://www.politicalresources.net/
BTW: Der Button " | Related Sites" ist einen Klick wert.
- Governments on the WWW
Weltweite Auflistung von Regierungsinstitutionen (nicht nur Ämtern im strengen Sinn). Geordnet nach Kontinenten und Ländern, einige Seiten auch nach Kategorien. Aufgeführt sind jeweils der Name der Institution in der Nationalsprache sowie die englische Übersetzung:
| http://www.gksoft.com/ govt/ en/
- NIRA's World Directory of Think Tanks
Zusammengestellt vom Center for Policy Research Information, National Institute for Research Advancement, Japan. Enthält nach englischen Namen und Ländern geordnet sehr detaillierte Angaben zu 320 außeruniversitären Forschungsinstitutionen in 77 Ländern. Der Schwerpunkt ist politisch-wirtschaftlich:
| http://www.nira.go.jp/ ice/ nwdtt/ index.html
Das unsichtbare Web
Ein großer Teil des Internet bleibt herkömmlichen Suchdiensten verborgen. Nämlich alle Inhalte, die in Datenbanken (z.B. von Bibliotheken oder Medien) enthalten und Nutzern nur auf Suchabfrage in Auszügen zugänglich sind. Man spricht von "dynamisch" generierten Seiten - streng genommen gehören alle Ergebnisseiten von Suchmaschinen auch dazu. Der Webauftritt von Google lässt sich recherchieren. Der Inhalt von Google dagegen kann nicht komplett und nicht automatisiert erfasst werden, sondern eben nur in Teilen auf konkrete Anfrage hin.
Diesen Teil des WWW bezeichnet man als "unsichtbares Web" (Invisible Web / Deep Web). Recherche in diesem Bereich ist aufwändig. Sie braucht Zeit (und Erfahrung), da die relevanten Datenbanken gefunden und einzeln abgefragt werden müssen. Hierfür muss obendrein investiert werden, da viele Angebote kostenpflichtig sind.
- Guide to Effective Searching of the Internet
Ein Tutorial speziell für Recherchen im Deep Web:
| http://www.brightplanet.com/ deepcontent/ tutorials/ search/ index.asp
- The Invisible Web Directory
Zweistufig hierarchisch geordnetes Verzeichnis (Kategorien und Subkategorien), das mehr als 10.000 Informationsangebote auflistet, deren Inhalte nicht durch Suchmaschinen ermittelt werden können. Neben (verlinktem) Titel und Kurzbeschreibung sind stets die URLs der Suchmasken genannt. Zu dem Angebot gehört ein Newsletter, die Website gibt es auch als Buch:
| http://www.invisible-web.net/
- InvisibleWeb.com
Systematisches Verzeichnis von Suchdiensten, Archiven, Datenbanken etc. Mehr als 10.000 Einträge, darunter viele kommerzielle Anbieter. Mit einfacher Suchfunktion und Detailsuche:
| http://www.invisibleweb.com/
Die Sprache der Frage
Das 'semantische Web' ist noch Zukunftsmusik. Derzeit suchen Computer nur nach Zeichenketten. Wird in eine Suchmaschine "china" eingetippt, so bleibt unklar, ob ein ostasiatisches Land oder englisches Porzellan gesucht wird; ferner, ob die Recherche deutsch- oder englischsprachigen Dokumenten gilt.
Zeichenketten können miteinander verknüpft werden, dazu gibt es die 'Boolschen Operatoren'. Sie ermöglichen es, mehrere Suchketten durch und, oder, nicht, nahe bei sowie durch Verklammerungen und durch exakte Suche nach einer Phrase miteinander zu verbinden. Allerdings bietet nicht jede Suchmaschine alle Operatoren an, auch ist die Syntax nicht einheitlich. Der Und-Operator wird mal durch "AND", mal durch "UND" mal durch "+" ausgedrückt. Die konkrete Syntax einer Suchmaschine findet man auf den jeweiligen 'Advanced Search' bzw. 'Suchtipps' genannten Seiten.
Neben den 'Boolean Operators' gibt es die Feldsuche (Field Search). Dabei wird der gesuchte Terminus nur in bestimmten Teilen der Dateien ermittelt: Im Titel, in der Netzwerkadresse, in Links etc. Die konkreten Möglichkeiten hängen dabei von der jeweiligen Suchmaschine ab; beispielhaft ist die Dokumentation von Google (internationaler Auftritt):
- Advanced Search Made Easy - Erklärungen zu den Boolschen Operatoren:
| http://www.google.com/ help/ refinesearch.html - Advanced Search Operators - Erläuterungen zur Feldsuche:
| http://www.google.com/ help/ operators.html - Customize your results using the Preferences page - Weitere Möglichkeiten der Feinjustierung:
| http://www.google.com/ help/ customize.html
Suchwortkombinationen verfeinern die Ergebnisse, was gerade bei großen Ergebnismengen unverzichtbar ist. Beim Ermitteln geeigneter Kombinationen helfen Suchbegriff-Datenbanken:
- keyDB
Klaus Schallhorn betreibt im öffentlichen Teil seiner Site eine Datenbank, die für jeden Suchbegriff bis zu 200 Kombinationen (aus den Logfiles von Suchmaschinen) anzeigt, in denen dieser bereits auftauchte (wahlweise deutsch- oder englischsprachig):
| http://www.kso.co.uk/ cgi-bin/ kwps.cgi?lan=de
- Search Term Suggestion Tool
Overture ist ein Betreiber von Suchmaschinen, der Kombinationen von Begriffen nennt, die im Vormonat gesucht wurden; er teilt dabei gleichzeitig die Häufigkeit der Anfragen mit:ä
| http://inventory.overture.com/ d/ searchinventory/ suggestion/
Qualitätsprüfung von Webinhalten
Wie oben erwähnt: Viele Informationsanbieter im Netz sind unzuverlässig, viele Informationen nicht vertrauenswürdig. Daten aus dem Netz sollten mit spitzen Fingern angefasst und prinzipiell als verdächtig angesehen werden. Der Webauftritt jedes Informationsanbieters sollte geprüft werden.
Das bedeutet zunächst einfach einen Blick ins Impressum: Stehen dort plausible und vor allem vollständige Angaben? Auch ein Blick auf die Adresse der Seite (die URL) offenbart oft Merkwürdigkeiten.
Sobald Zweifel an der Identität des Anbieters oder Angaben des Impressums bestehen, müssen in einer Whois-Datenbank die Domaindaten abgefragt werden. Jede Domain ist bei einem Network Information Center (NIC) registriert. Die NICs veröffentlichen die Registrierungsdaten in ihren Whois-Datenbank. Dort findet man auf jeden Fall Angaben zum Inhaber der Domain und mindestens die Mailadresse eines technischen Ansprechpartners.
- Liste der Organisationen, die Domains vergeben:
| http://dmoz.org/ Computers/ Internet/ Domain_Names/ Official_Registrars/
- Five criteria for evaluating Web pages
Kurze und praktische Checkliste für die Beurteilung von Webseiten:
| http://www.library.cornell.edu/ okuref/ webcrit.html
- Information Quality WWW Virtual Library : The Internet Guide to Construction of Quality Online Resources
Konziser und guter Einstieg ins Thema Qualitätssicherung von Informationsangeboten. Richtet sich vor allem an Betreiber solcher Sites, ist aber auch für Rechercheure von hohem Wert:
| http://www.ciolek.com/ WWWVL-InfoQuality.html
- Evaluation of information sources
Ausgesuchte Links zu Websites, die sich mit der Evaluierung von Internetauftritten beschäftigen:
| http://www2.vuw.ac.nz/ staff/ alastair_smith/ evaln/ evaln.htm
- Electronic References & Scholarly Citations of Internet Sources
Umfangreiche Sammlung von Anleitungen zum Zitieren und Referenzieren elektronischer Quellen:
| http://www.spaceless.com/ WWWVL/
Privatsphäre und Anonymisierer
Webserver sammeln Informationen von den Browsern der Surfer. Das ist notwendig und legitim. Was aber mit diesen Daten geschieht, kann illegitim sein, bedroht die Privatsphäre des Nutzers und möglicherweise die Qualität der Rechercheergebnisse. Welche Daten der eigene Browser - generell oder auf besondere Abfrage - herausgibt, kann man hier ermitteln:
- Privacy Analysis of your Internet Connection: Some Information that is collected about you when visiting a web site:
| http://privacy.net/ analyze/
Für den Rechercheur ist es besonders ärgerlich, wenn ihm aufgrund dieser Daten eigens individualisierte Versionen von Webseiten geliefert werden; vor allem aufgrund des Referers (der zuvor besuchten Seite) oder wegen seiner eigenen Adresse (Domain oder IP-Nummer). Das lässt sich umgehen, indem man einen Anonymisierer benutzt:
- Anonymizer.com
| http://www.itbridge.de/ anonymizer/
- AnonymSurfen.com
Anonymer Webzugang über verschiedene Provider (mit kurzer Beschreibung), außerdem FTP-Zugang und anonymisierter E-Mail-Versand:
| http://www.anonymsurfen.com/ surfen.htm
Beim Verdacht auf verfälschte Rechercheergebnisse durch individualisierte Ergebnisse ist auch ein Ausflug ins nächste Internet-Café hilfreich.
E-Mails, Mailinglisten, Newsletter
Vielleicht noch wichtiger als das World Wide Web ist in der Praxis die elektronische Post, E-Mail. Einerlei ob persönliche Mitteilung (one to one), Newsletter (one to many) oder Mailingliste (many to many): Was das Web für die Information, ist E-Mail für die Kommunikation.
Dabei sind E-Mails flüchtig. Einmal gesendet, sind sie nur noch auf lokalen Rechnern vorhanden und damit nicht mehr recherchierbar. Mailinglisten und Newsletter, schnell, oft von hohem Informationsgehalt, sind nur zu ermitteln, wenn sie entweder über Webseiten verfügen oder in entsprechende Verzeichnisse eingetragen sind.
E-Mails werden noch häufiger missbraucht als das WWW. Vor allem Spam, unverlangte Werbemails, aber auch Kettenbriefe ('hoaxes") und Viren beeinträchtigen die Vertrauenswürdigkeit dieses Netzdienstes.
Per E-Mail erhaltene Informationen sollten deswegen stets sehr kritisch betrachtet und geprüft werden. Vor allem, wenn der Absender unbekannt ist.
Gerade zum Thema Kettenbriefe, die Falschinfos verbreiten, gibt es viele Webseiten im Netz, so genannte Hoax-Buster.
Wenn man den Absender einer Mail ermitteln will, ist es manchmal nötig, den Header der E-Mail genauer zu untersuchen und gegebenenfalls den eigenen Provider (Postmaster) um Einsicht in die Mail-Logs zu bitten.
- Für Mailinglisten, d.h. geschlossene Diskussionsrunden per E-Mail listet DMOZ 13 Verzeichnisse auf:
| http://dmoz.org/ Computers/ Internet/ Mailing_Lists/ Directories/
- Ezine-Universe.com - E-Mail Newsletter Directory
Spezialverzeichnis zur Ermittlung von E-Mail Newslettern:
| http://Ezine-Universe.com/
- Umfassende und aktuelle deutschsprachige Informationen über Kettenbriefe bietet der Hoax-Infoservice von Frank Ziemann:
| http://hoax-info.de/
- E-Mail-Header lesen und verstehen
Gut verständliche Anleitung von Thomas Hochstein:
| http://sites.inka.de/ ancalagon/ faq/ headerfaq.php3
- de.admin.net-abuse.mail
Deutschsprachige FAQ der Newsgroup zum Thema E-Mail-Missbrauch:
| http://www.faqs.org/ faqs/ de-net-abuse/ mail-faq/
Usenet Newsgroups
Newsgroups, die 'schwarzen Bretter' des Internet, bieten eine Fülle von Informationen. Besonders wichtig sind die FAQ, die Sammlungen häufig gestellter (Einstiegs-)Fragen, die als Erstinformationen taugen.
Informationen aus Beiträgen (Postings) sollten genau wie E-Mails mit Vorsicht verwendet werden. Absenderprüfung und Gegenrecherche sind unverzichtbar.
- Für die Recherche von Newsgroups bietet sich das von Google bereitgestellte Gateway (ehemals DejaNews) an. Es ermöglicht die Teilnahme an laufenden Diskussionen ebenso wie die rückwirkende Recherche von Postings bis 1995:
| http://groups.google.com/
- Eine Sammlung von FAQs findet man hier:
Internet FAQ Archives
| http://www.faqs.org/ faqs/
Literaturempfehlungen
Tara Calishain ; Rael Dornfest :
Google Hacks : 100 Industrial-Strength Tips and Tricks. - First Edition Februar 2003. -
352 S. - ISBN 0-596-00447-8 - 28.00 Euro
Vier Probekapitel als PDF-Dateien online unter:
| http://www.oreilly.de/ catalog/ googlehks/ chapter/
Rezension beim Heise Newsticker:
| http://www.heise.de/ newsticker/ data/ jo-23.03.03-001/
Stefan Karzauninkat :
Die Suchfibel : Wie findet man Informationen im Internet? - 3. überarb. Aufl. -
Leipzig : Ernst Klett Verlag, 2002
260 S. - ISBN 3-12-238106-0 - 20.40 Euro
Chris Sherman and Gary Price :
The Invisible Web: Finding Hidden Internet Resources Search Engines Can't See by
Independent Publishers Group. -
300 Seiten - ISBN 091096551X - 29.46 Euro
Inhaltsverzeichnis, Einleitung und Probekapitel auf der Website:
| http://www.invisible-web.net/
Dieser Text ist erschienen in:
Mehr Leidenschaft Recherche : Skandal-Geschichten und Enthüllungs-Berichte. Ein Handbuch zur Recherche und Informationsbeschaffung / herausgegeben von Thomas Leif. -
Wiesbaden : Westdeutscher Verlag, 2003. - 276 S., Broschur
ISBN: 3-531-14126-0
23,90 Euro
Sie können das Buch bei Amazon.de | online kaufen.