Informatik WWW-Recherche
Komplexe Suchanfragen

S. Spolwig

[Home | Anwendungsprogramme]

Das Relevanzproblem

Der Autor eines Dokuments verwendet im Text Begriffe, die er für relevant hält. Der Informationssucher hat eigene Vorstellungen darüber, welche Begriffe zu einem Thema relevant sind. Das Problem besteht darin, beide Vorstellungen möglichst weit zur Deckung zu bringen.


Abb. nach Hartmann, Näf, Schäuble, 1999

Für treffgenaue Ergebnisse bieten die meisten Suchmaschinen eine erweiterte oder Profisuche an. Dabei werden im wesentlichen Boolesche Verknüpfungen eingesetzt, die häufig die Ergebnisse eingrenzen, aber auch nicht zu übersehende Probleme aufwerfen.

Zunächst wird die Syntax der Booleschen Suchtechnik bei den wichtigsten Suchmaschinen dargestellt:

Spezialfunktionen großer Suchmaschinen
Dienst Altavista Fireball Google Lycos
Unterstützte Operatoren mit alternativen Notationen
Und AND   &   + AND   + default AND  +
Oder OR OR nicht möglich OR  -
Nicht AND NOT  !  - AND NOT   - - AND NOT  !  -
Nahe, etwa NEAR   ~ NEAR    
Phrase "So bitte" "So bitte" "So bitte" "So bitte"
Spezialsuche image:
link:
text:
title:

 

image:
link:
text:
title:
domain:
url:
mit
Voreinstellungen
mit
Voreinstellungen


Neben den einfachen Verknüpfungen wie Butter AND Brot oder Lachs OR Kaviar oder Margarine AND NOT Butter lassen sich auch Klammerausdrücke einsetzen:

(schwäbische OR bayrische) AND rezepte findet Rezepte der süddeutschen Küche.


Probleme mit Verknüpfungen:

Boolesche Suche ist wegen der Logik eine Holzhammermethode. Entweder ist das Suchergebnis wahr (weil es wegen der Prämissen in der Suchanfrage wahr ist) oder es wird nicht gezeigt oder es gibt es gar nicht. Das erfolgreiche Ergebnis hängt also von der Güte der Suchanfrage ab.

Beim heutigen Stand er Technik sind Suchmaschinen bei der Textanalyse überfordert, wenn es um Synonyme, Homonyme, Plurale, Konjugationen geht, geschweige denn um eine verständige Bewertung eines Textes darauf hin, ob er relevant sein könnte. Die Entwicklung geht in diese Richtung mit lernfähigen Agenten, denen man einen Suchauftrag erteilen könnte wie "Bringe mir die zehn wichtigsten Artikel zum Stand der künstlichen Intelligenz".

Ranking / Relevanz

Damit ist die Reihenfolge bezeichnet, in der die Ergebnisse einer Suchanfrage aufgelistet werden. Hierzu bei Altavista :

"Sobald Altavista den Index auf Ihre Suchbegriffe durchsucht hat, präsentiert es Ihnen die gefundenen Seiten in Form einer Ergebnisliste. Die besten Treffer (d.h. die Dateien mit höchster Relevanz) stehen dabei am Anfang der Seite. Am Schluss finden Sie Links zu weiteren Ergebnisseiten."

Google, die derzeit beste Suchmaschine erklärt:

"Der Kern ist dabei, dass Google einen Link von Seite A zu Seite B als ein "Votum" von Seite A für Seite B interpretiert. Aber Google sieht sich mehr als nur das Ausmaß der Zustimmung oder der Links auf einer Seite an; Google analysiert ebenfalls die Seite, die das Votum abgegeben hat. Das Votum von einer Seite, die selber "wichtig" ist, zählt mehr und hilft, andere Seiten "wichtig" zu machen.

Wichtige Websites mit hoher Qualität bekommen einen höheren PageRank, den Google sich mit jeder Suchanfrage merkt.

Nur einige Suchmaschinen sind mit Ranking voreingestellt (z.B. Google), andere haben gar keins oder nur bei Expertensuche. Deshalb hilft eine Suche mit möglichst vielen (ODER-verknüpften) Suchbegriffen nur bei solchen Maschinen weiter.

Konsequenz:
  • Es gibt keine allgemein gültige optimale Suchmethode.

  • Die Suchstrategie muss vorher im Kopf klar sein. Schrotschüsse in den Nebel helfen wenig.

Für eine erfolgreiche Suche können folgende Tipps gegeben werden:

  • Richtige Suchmaschine wählen (Katalog-, Textsuche, Metasuche)

  • Ich weiß wie diese Maschine arbeitet.

  • Prägnante Suchbegriffe, keine Allerweltsworte, keine Begriffe, die in anderem Kontext auftauchen können.

  • Refine-Funktion benutzen, wenn vorhanden.

  • Boolesche Suche (aber jede Maschine läuft anders!)

  • In der richtigen Sprache suchen (deutsch, englisch ..)


©    05. Oktober 2008    Siegfried Spolwig

top_page.gif (155 Byte)