Bei Amazon.de online kaufen: Mehr Leidenschaft Recherche
Cover [©]

Thomas Leif, (Hrsg.):
Mehr Leidenschaft Recherche
Skandal-Geschichten und Enthüllungs-Berichte. Ein Handbuch zur Recherche und Informationsbeschaffung
Westdeutscher Verlag, 2003.
276 S., Broschur
ISBN: 3-531-14126-0
23,90 Euro

Recherchieren im Netz - Wege im Heuhaufen

Die Dienste des Internet und deren Bedingungen für Publikation und für Recherche

von Albrecht Ude

 

Das Internet ist ein nahezu weltweiter Verbund von Rechnern, die aufgrund definierter Regeln (so genannter Protokolle) miteinander kommunizieren können. Genauer umfasst "das Netz" alle Rechner, die über eine dauerhafte ("statische") oder über eine temporär durch einen so genannten Provider vergebene ("dynamische") IP-Adresse verfügen und auf der Basis des Internet-Protocol (IP) und des Transfer Control Protocol (TCP) Daten austauschen. Auf dem Protokollpaar TCP/IP bauen die "Anwendungen " oder "Dienste" des Internet wie etwa E-Mail und World Wide Web (WWW) auf.

Diese technische Perspektive ist für den Rechercheur in der Praxis meist belanglos. Für ihn zählt, dass durch das Internet ein offenes Konglomerat von Daten zur selektiven oder zur allgemeinen Benutzung bereit steht. Alle Daten im Netz sind digital, oftmals eigens digitalisiert. Dadurch kann ihre Recherche durch Programme (z.B. Suchmaschinen) unterstützt werden, stößt aber auch an Grenzen und bringt einige spezielle Probleme mit sich.

In diesem Text sollen die Grundvoraussetzungen für Recherchen im Internet ausgeleuchtet werden. Dabei werden empfehlenswerte Recherchehilfen erwähnt, dies geschieht aber ohne jeden Anspruch auf Vollständigkeit oder Autorität. Eine Basiserfahrung mit Recherchen im Netz wird vorausgesetzt.

Dienste des Internet

Der bekannteste "Dienst" des Internet ist das WWW. Es besteht, wie jeder Dienst, aus verschiedenen Komponenten. Die meisten davon bleiben dem Nutzer verborgen.

Jeder Nutzer sieht auf seinem Bildschirm den Webbrowser (ein Programm) und die Webseite (eine Datei), die der Browser formatiert anzeigt. Dazu muss diese Datei 'in HTML geschrieben' sein, also die Hypertext Markup Language (ein vom World Wide Web Consortium erstelltes Datenformat) verwenden.

Die vom Browser angezeigte Datei stammt normalerweise von einem Webserver (einem Programm). Entweder ist sie in der vorliegenden Form ("statisch") auf dem Host (einem Computer) abgelegt und wird jedem Surfer auf Anfrage geliefert. Oder sie wird ("dynamisch") eigens für die jeweilige Anfrage erzeugt: Letzteres zum Beispiel bei der Abfrage von Datenbankinhalten.

Die Kommunikation zwischen dem Webbrowser und dem Webserver folgt dem Hypertext Transfer Protocol (HTTP, einem Protokoll). Es legt fest, welche Daten zwischen Browser und Server ausgetauscht werden und wie dieser Austausch erfolgt. Dabei fließen notwendigerweise auch Daten aus dem Computer des Nutzers an den Server, da von diesem die Anfrage erzeugt wird (dazu unten mehr).

Fazit: Der Internet-"Dienst" WWW besteht aus dem Zusammenspiel von Programmen, Dateien, Dateiformaten und Protokollen. Das führt zu Eigenarten, die sich auf die Recherche auswirken. Rechercheure müssen diese kennen und gegebenenfalls auf sie reagieren können.

Das Internet folgt dem "Open-Source"-Gedanken: Die Dokumentationen der Vernetzungstechniken sind jedermann zugänglich. Wie etwa HTML und HTTP im Einzelnen funktionieren, ist in den "Technical Recommandations" (TR) des World Wide Web Consortium und in den "Request for Comments" (RFC) nachlesbar. Sie sind quasi der Duden des Internet: Man braucht sie nicht jeden Tag, sollte aber wissen, wo man sie bei Bedarf findet.

Publikationsbedingungen im Internet

Das WWW hat im letzten Jahrzehnt eine Phase der Demokratisierung durchgemacht. Es kann nahezu jeder publizieren, der mag. Die Kosten sind gering, Vorkenntnisse sind kaum nötig. Zugangskontrollen finden de facto nicht statt. Durch die Internationalität des Mediums lassen sich nationale Gesetze und Zensurmaßnahmen umgehen. Diese Vorteile nutzt zum Beispiel das China News Digest, eine nach dem Tiananmen-Massaker 1989 entstandene Organisation von Chinesen in Nordamerika. Sie betreibt eine effektive und vor allem unabhängige Informationspolitik. Ihre Website, Datensammlungen und Newsletter sind eine Quelle ersten Ranges - auch für Chinesen in der VR. Die - allesamt erfolglosen - Gegenmaßnahmen der kommunistischen Administration sind mittlerweile buchfüllend.

Hinzu kommt die Anonymität des Internet. Wenngleich in der Praxis sehr schwer zu erreichen, wird sie von den meisten Nutzern subjektiv als hoch empfunden. Zusammen mit der Schnelligkeit des Mediums, dem Fehlen von Filtern und der oft mangelnden Professionalität der Publizierenden führt dies zu einer Flut von schnellen, schlecht recherchierten Angaben, Gerüchten und 'unterdrückten' Nachrichten bis hin zu gezielten Falschinformationen.

Insbesondere E-Mails und die Newsgroups des Usenet machen es einfach, unter Alias-Identiäten zu publizieren. Kostenlose so genannte Freemail-Accounts und Internet-Cafés ermöglichen dies. Zur Qualität der Publikationen trägt das nicht bei.

Bei den Inhalten vieler Webseiten handelt es sich nicht um originäres Material, sondern schlicht um Kopien aus anderen Webauftritten - die Leichtigkeit des Kopierens wird natürlich auch genutzt.

Absehbar ist zudem, dass die gezielte Lancierung von Falschinfos zu Lasten von Mitbewerbern (vor allem im wirtschaftlichen Bereich) noch zunehmen wird. An der École de Guerre Économique (EGE, 'Schule für den Wirtschaftskrieg') in Paris ist das bereits Teil des Unterrichtsstoffes: "Der Krieg der Köpfe" von Michael Moenninger (Die Zeit, 2003, Ausg. 9, Leben, S. 53)

Eine weitere Besonderheit des WWW liegt in der Distribution. "Traditionelle" Publikation bedeutet entweder Sendung (Radio und TV) oder aber Vervielfältigung (Druckerzeugnisse). Meistens geht damit die Dokumentation einher, z.B. durch die Ablieferung von Pflichtexemplaren an öffentliche Bibliotheken und deren Eintragung in Bibliographien.

Nichts davon im Internet. Die Distribution von Webseiten geschieht ungeregelt und nur auf Anforderung der Surfer. Eine Archivierung oder Dokumentation gibt es nur in Ansätzen, zudem derzeit nur von privater Seite. Die nationalen Bibliographien haben das Publikationsfeld Internet noch nicht erschlossen.

Der gravierendste Unterschied zu anderen Medien besteht in der "Unschärfe" und der Individualisierbarkeit. Der Produzent traditioneller Medienerzeugnisse besitzt die hundertprozentige Kontrolle über das Endprodukt, sowohl über den Inhalt, wie auch über dessen Gestaltung.

Nicht so im Web. Das WWW wurde am CERN in Genf entwickelt, um strukturierte Informationen, nämlich Ergebnisse wissenschaftlicher Forschung, zu übermitteln. Nicht Layouts. Das Endprodukt "Webseite" entsteht beim Nutzer. Wie es genau aussieht, hängt von dessen Computer, Browser, Graphikkarte, Bildschirmgröße und anderen Faktoren mehr ab. Und es beeinflusst nicht nur, wie eine Webseite dargestellt wird, sondern auch, was davon bzw. ob diese überhaupt dargestellt wird - viele Webauftritte sind nicht "plattformübergreifend" nutzbar. Sie präsentieren nur in einem bestimmten Browser ihre kompletten Informationen und sind mit anderen Programmen nicht oder nur teilweise lesbar. Web-'Designer' treibt das bis heute zur Verzweiflung.

Dazu kommt die Individualisierbarkeit der gelieferten Ergebnisse. Wer eine Datenbank (z.B. durch die Suchfunktion auf einer Webseite) abfragt, erhält eine Ergebnisseite, die individuell für ihn entsprechend seiner Anfrage erstellt wurde.

Einige Websites fragen per Javascript (eine vermeintlich einfache, de facto sehr fehleranfällige Programmiersprache) ab, welches Browserfabrikat in welcher Version der Nutzer einsetzt. Um dann eine dafür "optimierte" Seitenvariante zu liefern (so genanntes "Agent Name Delivery"). Dies ist eine Standardlösung schlechter Webdesigner; gerade große Firmen setzen sie oft ein. Ärgerlich, aber durch den Betrieb verschiedener Browservarianten leicht zu umgehen.

Webserver können aber auch darauf reagieren, welche Seite der Surfer zuvor besucht hat (der so genannte "Referer") oder von welcher Adresse aus er ins Netz geht (so genanntes "IP Delivery"). Meist geschieht das unbemerkt. Umgehen lässt es sich durch den Einsatz von Anonymisierern (s.u.) oder einen Gang ins benachbarte Internet-Café.

Fazit: Das Internet stellt Rechercheure vor neue Anforderungen. Sie müssen insbesondere in der Lage sein, die Qualität und die Verlässlichkeit von digitalen Daten und von deren Anbietern zu überprüfen.

Recherchebedingungen im Internet

Die Suche im Netz ist eine unverzichtbare Komponente des Recherchierens. Sie ist oft billig und meistens schnell. Sie muss stattfinden, darf aber andere Arten der Recherche nicht ersetzen. Jeder erfahrene Rechercheur weiß, wie viele Webauftritte schlecht gemacht sind, augenscheinlich gedankenlos realisiert wurden und mehr Fragen aufwerfen, als sie beantworten. In vielen Fällen gibt ein Blick ins Telefonbuch, ein Anruf oder ein Griff ins Bücherregal schneller Auskunft als ein Klick ins Netz.

Zudem setzt das Internet den Recherchemöglichkeiten einige enge Grenzen:

  1. Mangelnde Historie des Internet: Viele heute entstehende Daten werden digital produziert. Sie ins Netz zu stellen, ist kein Problem. Vorhandene Daten jedoch nachträglich zu digitalisieren (z.B. durch Scannen), ist mit hohem Aufwand verbunden. Trotz der Datenfülle und des Wachstums der Inhalte des Internet sind viele 'alte' Informationen hier nicht zu finden.
  2. Mangelnde Historizität des Internet: Digitale Daten 'altern' zwar nicht, sind aber flüchtig. Archive des Internet gibt es nur in Ansätzen. Informationen, die heute recherchiert werden, können morgen schon gelöscht und damit faktisch unwiderruflich vernichtet sein.
    Das derzeit beste Archiv für "veraltete" Webseiten ist die 'Wayback Machine' unter:
    Externer Link (Klick für Erklärungen): | http://archive.org/
  3. Zeitverzug: Neue Informationen tauchen nicht von selbst im Netz auf, meist muss sie jemand bearbeiten. Geänderte Webseiten werden nicht unmittelbar durch Suchmaschinen zur Kenntnis genommen. Bis eine Änderung von Informationen im Netz recherchierbar ist, können daher Tage und Wochen vergehen.
  4. Begrenztheit der Suchwerkzeuge: Auch die beste Suchmaschine kennt nicht das 'ganze' Internet. Selbst die größten Datenbanken decken weniger als 25 Prozent der vorhandenen Webseiten ab. Tatsächlich hat auch keine Suchmaschine das Ziel, alle Webseiten in ihren Datenbestand aufzunehmen.
  5. Limitation der Suchmöglichkeiten: Wirklich durchsucht werden können nur Texte (Suchmaschinen für Bildinhalte sind noch im Forschungsstadium). Und zwar Texte, die in Form von HTML-Dateien vorliegen (genauer: Dateiformat im MIME-Typ "HTML"; lediglich Google durchsucht auch andere Arten von Textdateien, z.B. PDF-Dokumente). Alle anderen Dateiformate können nur anhand ihrer Attribute (Dateiname, -größe, Datum ...) oder anderer Hinweise (z.B. Alternativtexte für Bilddateien) erfasst werden. Von einer Recherche des Inhaltes dieser Dateien kann keine Rede sein.
    So liegt etwa Johann Heinrich Zedlers "Großes vollständiges Universal-Lexikon...", eine Enzyklopädie des 18. Jahrhunderts, in Form von eingescannten Dateien vor. Menschen - sofern sie mit Frakturschrift klarkommen - können dieses Lexikon also online konsultieren. Für maschinelle Suchwerkzeuge handelt es sich dagegen um eine Ansammlung von Grafikdateien im GIF-Format, deren Inhalt unerschlossen bleibt.
    Zedler, Lexikon: Stichwortsuche und Images
    Externer Link (Klick für Erklärungen): | http://mdz.bib-bvb.de/ digbib/ lexika/ zedler
  6. Spam: Viele Webseiten sind schlecht, inhaltslos oder schlicht betrügerisch. Kriminelle Seitenbetreiber versuchen, so viele Surfer wie möglich auf ihre Seiten zu locken, etwa weil sie an der Menge der Klicks verdienen. Das Fehlen von Filtern, von Professionalität und kriminelle Energie führen dazu, dass sich im Netz mehr Informationsmüll findet als in anderen Medien.

Fazit: Eine umfassende Suche im Internet ist nicht möglich. Während die Inhalte einer Bibliothek von geschultem Personal nach exakten Regeln komplett in Katalogen erschlossen sind, ist die Lage im Netz unbefriedigend. Weder wird das Netz insgesamt durchsucht, noch werden alle Dateien berücksichtigt. Regeln für die Katalogisierung gibt es zwar, einheitlich sind diese aber nicht, zudem werden sie meist als Geschäftsgeheimnisse behandelt. Für den Rechercheur stellt überdies die schiere Menge der Funde eine Hürde dar. Er muss in der Lage sein, aus den Fundstücken im Internet die relevanten und originären Informationen zu filtern, um brauchbare Ergebnisse zu erhalten.

Recherche im WWW - strukturelle Möglichkeiten und Probleme der Webrecherche

Es ist nicht Ziel dieses Abschnittes, eine Sammlung von Einstiegspunkten vorzustellen, vorab jedoch einige Empfehlungen:

Die Arbeitsweisen der Suchwerkzeuge

Die wichtigsten Suchwerkzeuge für das WWW sind die Suchmaschinen (Search Engines) und die Verzeichnisse (auch als Kataloge, Directories, teilweise als Portale bezeichnet). Der Hauptunterschied liegt in ihrer Arbeitsweise. Suchmaschinen sind Datenbanken, die durch Programme erstellt werden, Verzeichnisse dagegen werden durch Redakteure gepflegt. So genannte Metasuchmaschinen fragen lediglich mehrere Suchmaschinen ab, ohne eigene Datenbestände zu pflegen - sie werden deshalb hier nicht berücksichtigt.

Suchmaschinen - Was tut eine Suchmaschine eigentlich?

  1. Sie durchsucht das Web, indem sie Links auf bekannten Seiten folgt und so neue Seiten findet (so genanntes "Spidern").
  2. Sie baut daraus eine Datenbank auf und aktualisiert diese.
  3. Sie verwehrt vielen Webseiten die Aufnahme in ihre Datenbank, weil diese Seiten entweder schlecht sind (weil nicht informationstragend) oder aber die Suchmaschine zu betrügen versuchen (so genanntes "Spamdexing", das z.B. pornographische Seiten aussondert).
  4. Sie bildet entsprechend der Suchanfragen ihrer Nutzer Ergebnismengen.
  5. Sie ordnet diese Ergebnismengen nach der Relevanz der Dateien, die darin auftauchen (so genanntes "Ranking").

Dateien, auf die von außen kein Link gelegt ist (so genannte "Inselseiten"), bleiben Suchmaschinen verborgen. Ebenso wenig sind sie in der Lage, passwordgeschützte Dateien zu erreichen. Inhalte von Datenbanken können nur wenige Spezialsuchmaschinen abfragen. Datenbankinhalte bilden den Großteil der 'unsichtbaren' Webinhalte ('Invisible Web'). Dazu unten mehr.

Auf Anfrage von Nutzern recherchieren die Maschinen nicht im Web, sondern in ihrer (vorher erstellten) Datenbank. Prinzipiell wird also nur eine bereits veraltete Teilmenge von Daten durchsucht, nicht "das Netz".

Ausgegeben wird eine geordnete Ergebnisliste (meist wegen ihres Umfanges auf mehrere Seiten verteilt). Die Ordnung dieser Listen, bei denen die relevantesten Ergebnisse am Anfang stehen sollen, folgt den "Ranking"-Technologien. Das sind Algorithmen, mit denen die Relevanz von Dokumenten für vorliegende Suchanfragen bestimmt wird. Die Wissenschaft des Information Retrieval (Informationswiedergewinnung) entwickelte diese Techniken; drei Arten von Kriterien spielen dabei eine Rolle:

  1. Die Webseiten selbst (Dateien): Die eigentlichen Inhalte der Seiten, die auch am Bildschirm angezeigt werden, aber auch die (für menschliche Nutzer meist unsichtbaren) so genannten Header-Tags wie Titel, Stichworte, Beschreibung des Seiteninhaltes. Ferner auch Faktoren wie die Menge und Art der Hyperlinks in der Seite und anderes mehr. Alle diese Kriterien kann der Autor der Seite beeinflussen.
  2. Die Website: Die meisten Dateien sind Teil eines Webauftrittes, der so genannten Website. Auch deren Attribute, etwa die Netzwerkadresse (URL), Dateinamen, Struktur der Site usw. nehmen Suchmaschinen zur Kenntnis. Auch diese Kriterien können die Autoren beeinflussen - das geschieht aber schon seltener.
  3. Externe Faktoren: Schließlich gibt es Bewertungskriterien, die sich der Beeinflussung durch den Autor einer Site entziehen. Zum Beispiel die Menge der externen Links (die von außen auf die Site verweisen, die so genannte "Visibility" oder "Link-Popularität").
    Gerade weil diese Faktoren nicht im Sinne der Eigenwerbung zu korrumpieren sind, werden sie von Suchmaschinen sehr hoch gewertet.

Um günstige Platzierungen auf den Ergebnislisten der Suchmaschinen tobt ein heißer Kampf. Ein Platz unter den ersten zehn Ergebnissen relevanter Abfragen garantiert hohe Aufmerksamkeit, da die erste Seite der Ergebnismenge von allen Nutzern gesehen wird - schon die zweite wird nur noch von etwa einem Drittel der Nutzer angeklickt. Viele Dienstleister bieten den Betreibern von Webseiten Hilfe beim "Suchmaschinenmarketing" an. Sie befinden sich dabei im permanenten Wettbewerb untereinander wie auch zu den Suchmaschinen. Letztere sitzen dabei am längeren Hebel, da ihnen die Möglichkeit zur Sperrung von Webauftritten bleibt. Andererseits korrumpieren sich etliche Suchmaschinen selbst dadurch, dass sie Platzierungen gegen Bezahlung anbieten, ohne diese kenntlich zu machen.

Einige Internetauftritte informieren über die Entwicklung der Technologie von Suchmaschinen sowie über deren konkrete Umsetzung, zwei davon seien hier empfohlen:

Google

"Google" steht für eine bemerkenswerte Internet-Erfolgsstory. Als Suchmaschine gegründet, buchstäblich aus dem Nichts, ohne Börsengang, ohne je einen Euro für Werbung auszugeben, ist die Firma in der Gewinnzone angekommen. Die Marke Google ist weltbekannt. Das Erfolgs-'Geheimnis': Qualität. Keine andere Suchmaschine setzt die Algorithmen des Information Retrieval so sauber um.

Hinter der Marke verbirgt sich mittlerweile mehr als nur die derzeit beste Suchmaschine. Google kooperiert mit DMOZ - diesen weltgrößten Katalog findet man auch unter dem Label "Google Directory". Durch die "Google Groups" (ehemals DejaNews) ist Zugriff auf das Usenet möglich. Mittlerweile bietet Google sogar Spezialsuchen nach Shops und Produkten an. Wahrscheinlich wird demnächst eine Suchmöglichkeit nach Weblogs hinzukommen.

Von der Öffentlichkeit noch weitgehend unbemerkt hat sich Google zu einer zentralen Such-Site entwickelt, die das Potenzial zur Marktbeherrschung hat. Grund genug für Rechercheure, sich genauer mit diesem Multifunktionswerkzeug auseinander zu setzen:

Indicateur.com, eine französischsprachige Website mit Spezialisierung auf Suchmaschinen, hat ein Webverzeichnis über Google eingerichtet: "Google's World". Es liegt auch auf Englisch vor und verzeichnet in systematischer Ordnung bereits mehr als 200 Links zu unterschiedlichen Aspekten dieser wichtigen Suchmaschine.

Verzeichnisse

Im Gegensatz zum maschinellen Vorgehen der Suchmaschinen setzen Verzeichnisse auf die Kompetenz menschlicher Redaktionen. Die so produzierten Linksammlungen werden meist in hierarchisch-systematischer Form vorgelegt und durch Suchfunktionen unterstützt. Sehr häufig ist bei Verzeichnissen mit globalem Informationsanspruch die Kombination mit einer Suchmaschine.

Beispiel Externer Link (Klick für Erklärungen): | Yahoo, der zweitgrößte Katalog weltweit: Eine Kombination von Verzeichnis, News-Portal und Datenbank. Die Datenbank ist dabei von Google übernommen (vorher von Inktomi), so dass bestenfalls die Ranking-Algorithmen von Yahoo selbst stammen können. Um so mehr Gewicht wird auf das Verzeichnis gelegt. Dieses wird von fest angestellten, ausgebildeten Bibliothekaren gepflegt, denen wiederum ein Stab von freien Surfern zuarbeitet.

Es liegt auf der Hand, dass globale Verzeichnisse (Externer Link (Klick für Erklärungen): | Dino-online, Externer Link (Klick für Erklärungen): | Fireball, Externer Link (Klick für Erklärungen): | Lycos / Externer Link (Klick für Erklärungen): | Lycos Europe, Externer Link (Klick für Erklärungen): | Web.de, Externer Link (Klick für Erklärungen): | Yahoo und andere) durch dieses Vorgehen nicht die Größe der Suchmaschinen-Datenbanken erreichen können. Dem steht aber als unbestreitbarer Vorteil gegenüber, dass eine Vorprüfung und Bewertung aller Einträge durch das 'menschliche Auge' bereits statt gefunden hat.

Besondere globale Verzeichnisse

Weil werbefrei, ohne wirtschaftliches Eigeninteresse und von herausragender Qualität, sollen vier umfassende Verzeichnisse erwähnt sein:

Spezielle Verzeichnisse

Die Trüffel für Rechercheure sind die ungezählten spezialisierten Verzeichnisse im Netz, die von Einzelpersonen oder kleinen Organisationen aufgebaut werden. Hochkompetent in engen Fachgebieten, liegt es nahe, die begrenzten Ressourcen eher für die redaktionelle Entwicklung eines Kataloges aufzuwenden, als in die technische Entwicklung einer Suchmaschine zu investieren. Beispiele:

Das unsichtbare Web

Ein großer Teil des Internet bleibt herkömmlichen Suchdiensten verborgen. Nämlich alle Inhalte, die in Datenbanken (z.B. von Bibliotheken oder Medien) enthalten und Nutzern nur auf Suchabfrage in Auszügen zugänglich sind. Man spricht von "dynamisch" generierten Seiten - streng genommen gehören alle Ergebnisseiten von Suchmaschinen auch dazu. Der Webauftritt von Google lässt sich recherchieren. Der Inhalt von Google dagegen kann nicht komplett und nicht automatisiert erfasst werden, sondern eben nur in Teilen auf konkrete Anfrage hin.

Diesen Teil des WWW bezeichnet man als "unsichtbares Web" (Invisible Web / Deep Web). Recherche in diesem Bereich ist aufwändig. Sie braucht Zeit (und Erfahrung), da die relevanten Datenbanken gefunden und einzeln abgefragt werden müssen. Hierfür muss obendrein investiert werden, da viele Angebote kostenpflichtig sind.

Die Sprache der Frage

Das 'semantische Web' ist noch Zukunftsmusik. Derzeit suchen Computer nur nach Zeichenketten. Wird in eine Suchmaschine "china" eingetippt, so bleibt unklar, ob ein ostasiatisches Land oder englisches Porzellan gesucht wird; ferner, ob die Recherche deutsch- oder englischsprachigen Dokumenten gilt.

Zeichenketten können miteinander verknüpft werden, dazu gibt es die 'Boolschen Operatoren'. Sie ermöglichen es, mehrere Suchketten durch und, oder, nicht, nahe bei sowie durch Verklammerungen und durch exakte Suche nach einer Phrase miteinander zu verbinden. Allerdings bietet nicht jede Suchmaschine alle Operatoren an, auch ist die Syntax nicht einheitlich. Der Und-Operator wird mal durch "AND", mal durch "UND" mal durch "+" ausgedrückt. Die konkrete Syntax einer Suchmaschine findet man auf den jeweiligen 'Advanced Search' bzw. 'Suchtipps' genannten Seiten.

Neben den 'Boolean Operators' gibt es die Feldsuche (Field Search). Dabei wird der gesuchte Terminus nur in bestimmten Teilen der Dateien ermittelt: Im Titel, in der Netzwerkadresse, in Links etc. Die konkreten Möglichkeiten hängen dabei von der jeweiligen Suchmaschine ab; beispielhaft ist die Dokumentation von Google (internationaler Auftritt):

Suchwortkombinationen verfeinern die Ergebnisse, was gerade bei großen Ergebnismengen unverzichtbar ist. Beim Ermitteln geeigneter Kombinationen helfen Suchbegriff-Datenbanken:

Qualitätsprüfung von Webinhalten

Wie oben erwähnt: Viele Informationsanbieter im Netz sind unzuverlässig, viele Informationen nicht vertrauenswürdig. Daten aus dem Netz sollten mit spitzen Fingern angefasst und prinzipiell als verdächtig angesehen werden. Der Webauftritt jedes Informationsanbieters sollte geprüft werden.

Das bedeutet zunächst einfach einen Blick ins Impressum: Stehen dort plausible und vor allem vollständige Angaben? Auch ein Blick auf die Adresse der Seite (die URL) offenbart oft Merkwürdigkeiten.

Sobald Zweifel an der Identität des Anbieters oder Angaben des Impressums bestehen, müssen in einer Whois-Datenbank die Domaindaten abgefragt werden. Jede Domain ist bei einem Network Information Center (NIC) registriert. Die NICs veröffentlichen die Registrierungsdaten in ihren Whois-Datenbank. Dort findet man auf jeden Fall Angaben zum Inhaber der Domain und mindestens die Mailadresse eines technischen Ansprechpartners.

Privatsphäre und Anonymisierer

Webserver sammeln Informationen von den Browsern der Surfer. Das ist notwendig und legitim. Was aber mit diesen Daten geschieht, kann illegitim sein, bedroht die Privatsphäre des Nutzers und möglicherweise die Qualität der Rechercheergebnisse. Welche Daten der eigene Browser - generell oder auf besondere Abfrage - herausgibt, kann man hier ermitteln:

Für den Rechercheur ist es besonders ärgerlich, wenn ihm aufgrund dieser Daten eigens individualisierte Versionen von Webseiten geliefert werden; vor allem aufgrund des Referers (der zuvor besuchten Seite) oder wegen seiner eigenen Adresse (Domain oder IP-Nummer). Das lässt sich umgehen, indem man einen Anonymisierer benutzt:

Beim Verdacht auf verfälschte Rechercheergebnisse durch individualisierte Ergebnisse ist auch ein Ausflug ins nächste Internet-Café hilfreich.

E-Mails, Mailinglisten, Newsletter

Vielleicht noch wichtiger als das World Wide Web ist in der Praxis die elektronische Post, E-Mail. Einerlei ob persönliche Mitteilung (one to one), Newsletter (one to many) oder Mailingliste (many to many): Was das Web für die Information, ist E-Mail für die Kommunikation.

Dabei sind E-Mails flüchtig. Einmal gesendet, sind sie nur noch auf lokalen Rechnern vorhanden und damit nicht mehr recherchierbar. Mailinglisten und Newsletter, schnell, oft von hohem Informationsgehalt, sind nur zu ermitteln, wenn sie entweder über Webseiten verfügen oder in entsprechende Verzeichnisse eingetragen sind.

E-Mails werden noch häufiger missbraucht als das WWW. Vor allem Spam, unverlangte Werbemails, aber auch Kettenbriefe ('hoaxes") und Viren beeinträchtigen die Vertrauenswürdigkeit dieses Netzdienstes.

Per E-Mail erhaltene Informationen sollten deswegen stets sehr kritisch betrachtet und geprüft werden. Vor allem, wenn der Absender unbekannt ist.

Gerade zum Thema Kettenbriefe, die Falschinfos verbreiten, gibt es viele Webseiten im Netz, so genannte Hoax-Buster.

Wenn man den Absender einer Mail ermitteln will, ist es manchmal nötig, den Header der E-Mail genauer zu untersuchen und gegebenenfalls den eigenen Provider (Postmaster) um Einsicht in die Mail-Logs zu bitten.

Usenet Newsgroups

Newsgroups, die 'schwarzen Bretter' des Internet, bieten eine Fülle von Informationen. Besonders wichtig sind die FAQ, die Sammlungen häufig gestellter (Einstiegs-)Fragen, die als Erstinformationen taugen.

Informationen aus Beiträgen (Postings) sollten genau wie E-Mails mit Vorsicht verwendet werden. Absenderprüfung und Gegenrecherche sind unverzichtbar.

Literaturempfehlungen

Tara Calishain ; Rael Dornfest :
Google Hacks : 100 Industrial-Strength Tips and Tricks. - First Edition Februar 2003. -
352 S. - ISBN 0-596-00447-8 - 28.00 Euro
Vier Probekapitel als PDF-Dateien online unter:
Externer Link (Klick für Erklärungen): | http://www.oreilly.de/ catalog/ googlehks/ chapter/
Rezension beim Heise Newsticker:
Externer Link (Klick für Erklärungen): | http://www.heise.de/ newsticker/ data/ jo-23.03.03-001/

Stefan Karzauninkat :
Die Suchfibel : Wie findet man Informationen im Internet? - 3. überarb. Aufl. -
Leipzig : Ernst Klett Verlag, 2002
260 S. - ISBN 3-12-238106-0 - 20.40 Euro

Chris Sherman and Gary Price :
The Invisible Web: Finding Hidden Internet Resources Search Engines Can't See by Independent Publishers Group. -
300 Seiten - ISBN 091096551X - 29.46 Euro
Inhaltsverzeichnis, Einleitung und Probekapitel auf der Website:
Externer Link (Klick für Erklärungen): | http://www.invisible-web.net/

Dieser Text ist erschienen in:
Mehr Leidenschaft Recherche : Skandal-Geschichten und Enthüllungs-Berichte. Ein Handbuch zur Recherche und Informationsbeschaffung / herausgegeben von Thomas Leif. -
Wiesbaden : Westdeutscher Verlag, 2003. - 276 S., Broschur
ISBN: 3-531-14126-0
23,90 Euro
Sie können das Buch bei Amazon.de Externer Link (Klick für Erklärungen): | online kaufen.

 © Albrecht Ude  |  Lehderstraße 53  |  D-13086 Berlin  |  Deutschland
Tel./Fax 030 / 92 40 56 46  |  E-Mail post@ude.de | Web www.ude.de