Semantisch Suchen in der "Zeit"
Suchmaschinen sind von Natur aus dumm. Sie haben keinen blassen Schimmer, dass sich hinter dem Begriff "Herzog" nicht nur ein Adelstitel, sondern auch ein Alt-Bundespräsident verbergen könnte, sondern suchen ignorant nach allen Dokumenten in ihrem Index, die den Suchbegriff in der Kombination der Buchstaben enthalten.
Intelligentes Archiv
Die Zeit, die sich schon immer einen innovativen Online-Auftritt geleistet hat, macht nun die Erschließung ihres Online-Archives intelligenter und erweitert die Suche um linguistische und semantische Fähigkeiten. Dem Nutzer können beispielsweise zu einem Artikel, den er gerade liest, thematisch verwandte Texte vorgeschlagen werden, ohne dass ein Redakteur diese von Hand hätte verlinken müssen. "Diese Zuordnungen manuell herzustellen hätte Jahre gedauert - nun benötigen wir für einen Gesamtdurchlauf durch das Archiv ungefähr 20 Minuten", wird Peter M. Buhr, Technischer Leiter von Zeit Online, in einer Pressemitteilung zitiert.
Möglich wird dies durch eine Technologie, die vom Projekt Digitales Wörterbuch der Berlin-Brandenburgischen Akademie der Wissenschaften entworfen wurde. Dank einer Analyse-Software, die mittels statistischer Methoden die Häufigkeit und Nachbarschaft von Wörtern unter Berücksichtigung verschiedener Wortformen auswertet, wird dummen Rechenmaschinen gleichsam Text-Verständnis beigebracht. Das gesamte Zeit-Online-Archiv, das bis ins Jahr 1996 zurückreicht und einzelne ältere, digitalisierte Print-Ausgaben der Zeit von 1948 bis 1988 beinhaltet, wurde auf diese Weise ausgewertet.
Komplizierte Suchoptionen
Was die neue Suchmaschine unter der Haube hat, macht ein Blick auf die zusätzlichen linguistischen Abfragemöglichkeiten deutlich. Sie übersteigen bei weitem das, was mit boolscher Algebra möglich ist. So kann sie verschiedene Wortformen (Beugungen) berücksichtigen, Namen identifizieren und semantische Konzepte zuordnen. Letzteres ist allerdings bislang erst für die Wortfelder "Adel" und "Politiker" möglich.
Um die Suche im Online-Archiv durch linguistische Optionen zu verfeinern, ist allerdings eine spezielle Befehlsyntax notwendig, die man erst auf einer Hilfeseite nachschlagen muss. Tut man dies nicht, sondern gibt wie gewohnt frisch von der Leber weg einen Suchbegriff ein, darf man sich wundern: Beispielsweise zaubert eine Recherche nach "Herzog" nicht nur Dokumente über die Herren Peter oder Roman Herzog hervor, sondern auch Fundstellen mit Formen des Verbes "herziehen".
Um die Verwirrung bei mit Google & Co. sozialisierten Nutzern in Grenzen zu halten, wäre Zeit Online wohl gut beraten, die Voreinstellung, Wortformen standardmäßig zu berücksichtigen, wenn keine Suchparameter angegeben werden, zu ändern. Noch besser wäre es, die von der linguistischen Analyse erkannten verwandten Suchbegriffe ebenfalls auszugeben. Der Nutzer könnte dann auf der Basis dieser Vorschläge eine Verfeinerung seiner Abfrage vornehmen - eine solche Funktion bieten auch schon viele "dümmere" Suchmaschinen.
Intelligentes Archiv
Die Zeit, die sich schon immer einen innovativen Online-Auftritt geleistet hat, macht nun die Erschließung ihres Online-Archives intelligenter und erweitert die Suche um linguistische und semantische Fähigkeiten. Dem Nutzer können beispielsweise zu einem Artikel, den er gerade liest, thematisch verwandte Texte vorgeschlagen werden, ohne dass ein Redakteur diese von Hand hätte verlinken müssen. "Diese Zuordnungen manuell herzustellen hätte Jahre gedauert - nun benötigen wir für einen Gesamtdurchlauf durch das Archiv ungefähr 20 Minuten", wird Peter M. Buhr, Technischer Leiter von Zeit Online, in einer Pressemitteilung zitiert.
Möglich wird dies durch eine Technologie, die vom Projekt Digitales Wörterbuch der Berlin-Brandenburgischen Akademie der Wissenschaften entworfen wurde. Dank einer Analyse-Software, die mittels statistischer Methoden die Häufigkeit und Nachbarschaft von Wörtern unter Berücksichtigung verschiedener Wortformen auswertet, wird dummen Rechenmaschinen gleichsam Text-Verständnis beigebracht. Das gesamte Zeit-Online-Archiv, das bis ins Jahr 1996 zurückreicht und einzelne ältere, digitalisierte Print-Ausgaben der Zeit von 1948 bis 1988 beinhaltet, wurde auf diese Weise ausgewertet.
Komplizierte Suchoptionen
Was die neue Suchmaschine unter der Haube hat, macht ein Blick auf die zusätzlichen linguistischen Abfragemöglichkeiten deutlich. Sie übersteigen bei weitem das, was mit boolscher Algebra möglich ist. So kann sie verschiedene Wortformen (Beugungen) berücksichtigen, Namen identifizieren und semantische Konzepte zuordnen. Letzteres ist allerdings bislang erst für die Wortfelder "Adel" und "Politiker" möglich.
Um die Suche im Online-Archiv durch linguistische Optionen zu verfeinern, ist allerdings eine spezielle Befehlsyntax notwendig, die man erst auf einer Hilfeseite nachschlagen muss. Tut man dies nicht, sondern gibt wie gewohnt frisch von der Leber weg einen Suchbegriff ein, darf man sich wundern: Beispielsweise zaubert eine Recherche nach "Herzog" nicht nur Dokumente über die Herren Peter oder Roman Herzog hervor, sondern auch Fundstellen mit Formen des Verbes "herziehen".
Um die Verwirrung bei mit Google & Co. sozialisierten Nutzern in Grenzen zu halten, wäre Zeit Online wohl gut beraten, die Voreinstellung, Wortformen standardmäßig zu berücksichtigen, wenn keine Suchparameter angegeben werden, zu ändern. Noch besser wäre es, die von der linguistischen Analyse erkannten verwandten Suchbegriffe ebenfalls auszugeben. Der Nutzer könnte dann auf der Basis dieser Vorschläge eine Verfeinerung seiner Abfrage vornehmen - eine solche Funktion bieten auch schon viele "dümmere" Suchmaschinen.
Kommentare:
Seien Sie der Erste, der diesen Beitrag kommentiert
Zuletzt bearbeitet 14.08.2005 15:13 Uhr