Wie Suchmaschinen Relevanz bewerten
Auf den ersten Blick gleichen sich alle Suchmaschinen: In ein Textfeld werden die Suchbegriffe eingetragen, ein Klick auf "Suchen" bzw "Search" startet den Suchvorgang, und nach wenigen Sekunden erscheint dann die Trefferliste - zumeist zehn Fundstellen pro Ausgabeseite. Welche Fundstellen aber werden zuerst gezeigt und welche zuletzt?
Aus Sicht des Anwenders ist die Sache klar: Die Seiten, die meinen Kriterien am nächsten kommen, also sachlich und thematisch am besten passen, möchte ich, bitte sehr, ganz oben auf der Liste sehen. Die Software der Suchmaschinen versucht dies durch ein sogenanntes "Ranking", also eine Bewertung der Treffer, zu bewerkstellen - leider mehr schlecht als recht. Treffer-Bewertung stur mathematisch Computer sind (immer noch) doof. Deshalb gingen Ranking-Modelle der ersten Generation stur mathematisch an die Sache heran. Je häufiger ein Suchbegriff auf einer Seite auftaucht, um so relevanter muss sie sein - so lautete das Grundprinzip.
Manche Algorithmen schenken den ersten Wörtern auf einer Seite oder den Überschriften die größte Aufmerksamkeit; andere messen dem Seitentitel besondere Wichtigkeit bei oder halten es für besonders gewichtig, das der Suchbegriff im Domainnamen vorkommt; wieder andere prüfen die Attribute in den sogenannten Meta-Tags, die der Surfer gar nicht zu Gesicht bekommt - es sei denn, er schaut in den HTML-Code (HTML ist die Auszeichnungs-Sprache für Webseiten).
Innerhalb dieser Metadaten kann der Autor einer HTML-Seite zum Beispiel eine inhaltliche Kurzbeschreibung verfassen. Außerdem kann er thematisch passende Schlagworte festlegen. All diese Angaben können dann für das Ranking ausgewertet werden. Viele Suchmaschinen zeigen übrigens die Kurzbeschreibung aus den Metadaten in ihrer Trefferliste an; inzwischen setzt sich aber die Praxis durch, jeweils das Text-Umfeld zu zeigen, in dem der oder die Suchbegriffe gefunden wurden. Ranking-Geheimnisse der Suchmaschinen Das mathematische Ranking besteht nun darin, In Anhängigkeit von der Häufigkeit der gefundenen Begriffe und der Position der Fundstellen im Dokument Rankingpunkte oder -prozente zu vergeben. Sie entscheiden über die Plazierung in der Trefferliste.
Jede Suchmaschine hat ihre eigene Formel für die Relevanzberechnung. Die bleibt aber geheim. Denn die Suchmaschinen wollen verhindern, dass Seiten auf ein Top-Ranking hin "frisiert" werden. Tatsächlich lässt sich der Missbrauch aber niemals eindämmen. Am Anfang war der Betrug noch sehr einfach zu bewerkstelligen: Tippte beispielsweise jemand hundertmal das Wort "Sex" auf seine Seite, so konnte er damit eine Suchmaschine narren - ein Trick, auf den Anbieter kommerzieller Sex-Sites schon lange gekommen sind, weshalb viele Suchmaschinen inzwischen solche offensichtlichen Täuschungsmanöver mit der Löschung aus dem Index bestrafen. Ranking-Positionen zu verkaufen Es müssen gar nicht unbedingt schlüpfrigen Absichten sein - jeder Website-Betreiber hat ein ganz natürliches Interesse, in Suchmaschinen nicht unter ferner liefen gelistet zu werden. Schließlich ist die Auffindbarkeit in einem Suchdienst mitentscheidend über den Traffic auf einer Website.
Deshalb gibt es Promotion-Agenturen, die sich auf die sogenannte "Seiten-Optimierung" spezialisiert haben und ihren Kunden Top-Rankings verheißen. Einer der Tricks dieser Optimierer besteht darin, spezielle, auf einen bestimmten Suchdienst zugeschnittene Seiten mit allen relevanten Schlagworten zusammenzubauen. Diese Brückenseiten bekommt der normale Website-Besucher überhaupt nicht zu sehen; sie dienen einzig dazu, bei der betreffenden Suchmaschine auseingetragen zu werden und dort dank der Optimierung ein hohes Ranking zu erzielen. Einige Suchmaschinen schlagen ganz unverholen Kapital aus dem Bedürfnis, an prominenter Stelle gelistet werden: Sie bitten ihre Kunden für Top-Rankings zur Kasse. Am erfolgreichsten betätigt sich auf diesem Gebiet der US-Dienst Overture, früher Goto.com. Nur wer zahlt, kommt hier nach oben. Wenigstens machen solche Suchtreffer-Vermarkter keinen Hehl aus dieser Praxis. Anderenorts wird indes die Vermischung zwischen unparteiischen Trefferlisten und bezahlten Links immer undurchsichtiger, wie amerikanische Verbraucherschützer bemängelt haben. Neue Konzepte zur Ermittlung der Relevanz Soviel ist klar: Weder simple Wörterzählerei noch bezahltes Ranking stellen eine befriedigende Lösung für das Problem der Relevanzbewertung dar. Die Rankingkonzepte der zweiten Generation gehen deshalb andere Wege.
Für Furore sorgte die vergleichsweise junge Suchmaschine Google. Deren PageRank-Software konzentriert sich auf die Analyse von Links. Gemeint sind nicht etwa Links von einer bestimmten Seite, sondern Links, die in einem bestimmten Kontext auf diese bestimmte Seite verweisen.
Ein Beispiel soll dieses Prinzip verdeutlichen: Der Webkatalog Yahoo verweist in seiner Literatur-Kategorie auf eine Seite über Franz Kafka. Für die Google-Software, die diesen Link analysiert, heißt das: Die bewusste Seite hat relevante Informationen über Franz Kafka zu bieten, sonst wäre sie nicht in Yahoo gelistet. Die Wahrscheinlichkeit, dass diese Seite bei Suchanfragen nach Franz Kafka ein hohes Ranking erhält, ist also recht hoch. Noch höher wäre sie, wenn Google auch auf anderen Websites Links im Kontext von Franz Kafka finden würde, die ebenfalls zu der betreffenden Seite führten. Grundsätzlich gilt: Seiten, die selbst wiederum häufig von anderswo aus verlinkt sind, bekommen von PageRank eine höhere Relevanz. Das Beispiel zeigt schon: Die Link-Analyse kann tatsächlich relevante Ergebnisse liefern. In der Tat bietet Google eine erstaunliche Treffsicherheit. Inzwischen gibt es kaum noch eine große Suchmaschine, die nicht ebenfalls die Link-Relevanz in ihren Ranking-Algorithmus aufgenommen hätte. Populär = gut? Ein anderes Ranking-System gehorcht der Devise: Was andere gut finden, muss auch für dich gut sein. Erfunden hat dieses Prinzip Direct Hit. Die sogenannte Popularity Search Engine hat deshalb eine eigene Datenbank über die Vorlieben der Suchmaschinen-Anwender aufgebaut. Registriert wird, wie oft welche Links in den Trefferlisten welcher Suchbegriffe angeklickt werden; danach erfolgt das Ranking. HotBot war im August 1998 die erste Suchmaschine mit der Option, ihre Trefferlisten mit Hilfe von Direct Hit zu gewichten. Später kamen weitere Kunden wie Lycos Deutschland hinzu. Durchgesetzt hat sich das nicht. Mit der Popularität von Google konnte die Popularitätsmaschine nicht mithalten.
Ganz abgesehen von der orwellschen Dimension, die das Beäugen der Surfgewohnheiten mit sich bringt, reflektiert das sogenannte collective filtering nur den Wandel des World Wide Web vom Freak- zum Massenmedium. Die besten Chancen, von den neuen Ranking-Konzepte nach oben gespült zu werden, besitzt folglich der Mainstream: jene Websites, zu denen es ohnehin schon die ganze Meute zieht. Alle anderen, die Alternativen, die Kleinen und die Schrägen, bleiben auf den hinteren Positionen vergraben.
Aus Sicht des Anwenders ist die Sache klar: Die Seiten, die meinen Kriterien am nächsten kommen, also sachlich und thematisch am besten passen, möchte ich, bitte sehr, ganz oben auf der Liste sehen. Die Software der Suchmaschinen versucht dies durch ein sogenanntes "Ranking", also eine Bewertung der Treffer, zu bewerkstellen - leider mehr schlecht als recht. Treffer-Bewertung stur mathematisch Computer sind (immer noch) doof. Deshalb gingen Ranking-Modelle der ersten Generation stur mathematisch an die Sache heran. Je häufiger ein Suchbegriff auf einer Seite auftaucht, um so relevanter muss sie sein - so lautete das Grundprinzip.
Manche Algorithmen schenken den ersten Wörtern auf einer Seite oder den Überschriften die größte Aufmerksamkeit; andere messen dem Seitentitel besondere Wichtigkeit bei oder halten es für besonders gewichtig, das der Suchbegriff im Domainnamen vorkommt; wieder andere prüfen die Attribute in den sogenannten Meta-Tags, die der Surfer gar nicht zu Gesicht bekommt - es sei denn, er schaut in den HTML-Code (HTML ist die Auszeichnungs-Sprache für Webseiten).
Innerhalb dieser Metadaten kann der Autor einer HTML-Seite zum Beispiel eine inhaltliche Kurzbeschreibung verfassen. Außerdem kann er thematisch passende Schlagworte festlegen. All diese Angaben können dann für das Ranking ausgewertet werden. Viele Suchmaschinen zeigen übrigens die Kurzbeschreibung aus den Metadaten in ihrer Trefferliste an; inzwischen setzt sich aber die Praxis durch, jeweils das Text-Umfeld zu zeigen, in dem der oder die Suchbegriffe gefunden wurden. Ranking-Geheimnisse der Suchmaschinen Das mathematische Ranking besteht nun darin, In Anhängigkeit von der Häufigkeit der gefundenen Begriffe und der Position der Fundstellen im Dokument Rankingpunkte oder -prozente zu vergeben. Sie entscheiden über die Plazierung in der Trefferliste.
Jede Suchmaschine hat ihre eigene Formel für die Relevanzberechnung. Die bleibt aber geheim. Denn die Suchmaschinen wollen verhindern, dass Seiten auf ein Top-Ranking hin "frisiert" werden. Tatsächlich lässt sich der Missbrauch aber niemals eindämmen. Am Anfang war der Betrug noch sehr einfach zu bewerkstelligen: Tippte beispielsweise jemand hundertmal das Wort "Sex" auf seine Seite, so konnte er damit eine Suchmaschine narren - ein Trick, auf den Anbieter kommerzieller Sex-Sites schon lange gekommen sind, weshalb viele Suchmaschinen inzwischen solche offensichtlichen Täuschungsmanöver mit der Löschung aus dem Index bestrafen. Ranking-Positionen zu verkaufen Es müssen gar nicht unbedingt schlüpfrigen Absichten sein - jeder Website-Betreiber hat ein ganz natürliches Interesse, in Suchmaschinen nicht unter ferner liefen gelistet zu werden. Schließlich ist die Auffindbarkeit in einem Suchdienst mitentscheidend über den Traffic auf einer Website.
Deshalb gibt es Promotion-Agenturen, die sich auf die sogenannte "Seiten-Optimierung" spezialisiert haben und ihren Kunden Top-Rankings verheißen. Einer der Tricks dieser Optimierer besteht darin, spezielle, auf einen bestimmten Suchdienst zugeschnittene Seiten mit allen relevanten Schlagworten zusammenzubauen. Diese Brückenseiten bekommt der normale Website-Besucher überhaupt nicht zu sehen; sie dienen einzig dazu, bei der betreffenden Suchmaschine auseingetragen zu werden und dort dank der Optimierung ein hohes Ranking zu erzielen. Einige Suchmaschinen schlagen ganz unverholen Kapital aus dem Bedürfnis, an prominenter Stelle gelistet werden: Sie bitten ihre Kunden für Top-Rankings zur Kasse. Am erfolgreichsten betätigt sich auf diesem Gebiet der US-Dienst Overture, früher Goto.com. Nur wer zahlt, kommt hier nach oben. Wenigstens machen solche Suchtreffer-Vermarkter keinen Hehl aus dieser Praxis. Anderenorts wird indes die Vermischung zwischen unparteiischen Trefferlisten und bezahlten Links immer undurchsichtiger, wie amerikanische Verbraucherschützer bemängelt haben. Neue Konzepte zur Ermittlung der Relevanz Soviel ist klar: Weder simple Wörterzählerei noch bezahltes Ranking stellen eine befriedigende Lösung für das Problem der Relevanzbewertung dar. Die Rankingkonzepte der zweiten Generation gehen deshalb andere Wege.
Für Furore sorgte die vergleichsweise junge Suchmaschine Google. Deren PageRank-Software konzentriert sich auf die Analyse von Links. Gemeint sind nicht etwa Links von einer bestimmten Seite, sondern Links, die in einem bestimmten Kontext auf diese bestimmte Seite verweisen.
Ein Beispiel soll dieses Prinzip verdeutlichen: Der Webkatalog Yahoo verweist in seiner Literatur-Kategorie auf eine Seite über Franz Kafka. Für die Google-Software, die diesen Link analysiert, heißt das: Die bewusste Seite hat relevante Informationen über Franz Kafka zu bieten, sonst wäre sie nicht in Yahoo gelistet. Die Wahrscheinlichkeit, dass diese Seite bei Suchanfragen nach Franz Kafka ein hohes Ranking erhält, ist also recht hoch. Noch höher wäre sie, wenn Google auch auf anderen Websites Links im Kontext von Franz Kafka finden würde, die ebenfalls zu der betreffenden Seite führten. Grundsätzlich gilt: Seiten, die selbst wiederum häufig von anderswo aus verlinkt sind, bekommen von PageRank eine höhere Relevanz. Das Beispiel zeigt schon: Die Link-Analyse kann tatsächlich relevante Ergebnisse liefern. In der Tat bietet Google eine erstaunliche Treffsicherheit. Inzwischen gibt es kaum noch eine große Suchmaschine, die nicht ebenfalls die Link-Relevanz in ihren Ranking-Algorithmus aufgenommen hätte. Populär = gut? Ein anderes Ranking-System gehorcht der Devise: Was andere gut finden, muss auch für dich gut sein. Erfunden hat dieses Prinzip Direct Hit. Die sogenannte Popularity Search Engine hat deshalb eine eigene Datenbank über die Vorlieben der Suchmaschinen-Anwender aufgebaut. Registriert wird, wie oft welche Links in den Trefferlisten welcher Suchbegriffe angeklickt werden; danach erfolgt das Ranking. HotBot war im August 1998 die erste Suchmaschine mit der Option, ihre Trefferlisten mit Hilfe von Direct Hit zu gewichten. Später kamen weitere Kunden wie Lycos Deutschland hinzu. Durchgesetzt hat sich das nicht. Mit der Popularität von Google konnte die Popularitätsmaschine nicht mithalten.
Ganz abgesehen von der orwellschen Dimension, die das Beäugen der Surfgewohnheiten mit sich bringt, reflektiert das sogenannte collective filtering nur den Wandel des World Wide Web vom Freak- zum Massenmedium. Die besten Chancen, von den neuen Ranking-Konzepte nach oben gespült zu werden, besitzt folglich der Mainstream: jene Websites, zu denen es ohnehin schon die ganze Meute zieht. Alle anderen, die Alternativen, die Kleinen und die Schrägen, bleiben auf den hinteren Positionen vergraben.
Kommentare:
Seien Sie der Erste, der diesen Beitrag kommentiert
Zuletzt bearbeitet 28.11.2002 09:28 Uhr