next up previous contents index
Next: Einsatz assoziativer Wortnetze in Up: Ausblick Previous: Ein mehrstufiges Modell zur

 

Assoziative Ähnlichkeit zwischen Texten

Anstelle des Boole'schen Retrieval werden im modernen Information Retrieval auch Methoden verwandt, bei denen ein Ähnlichkeitsmaß zwischen einer Suchfrage und den Dokumenten einer Datenbank definiert wird, und auf der Basis dieser Ähnlichkeiten die Dokumente in eine Relevanz-Rangfolge gebracht werden (vergl. Salton & McGill, 1983).

In der Praxis werden häufig Ähnlichkeitsmaße  benutzt, die auf der Anzahl der übereinstimmenden Wörter zwischen Suchfrage und Dokument beruhen. Wünschenswert wäre hingegen ein Maß für die Bedeutungsähnlichkeit. Daß dies nicht dasselbe ist, liegt daran, daß sich derselbe Inhalt durch unterschiedliche Begriffe ausdrücken läßt: Beispielsweise haben die Sätze ``der PKW fährt über den Zoll'' und ``das Auto passiert die Grenze'' zwar kein Wort gemeinsam, bedeuten aber dasselbe.

Bei längeren Texten mögen solche Effekte eine geringe Rolle spielen. In der Praxis werden jedoch meist kurze Texte, etwa Abstracts oder Abschnitte, verglichen. Kuhlen & Hess (1993) stoßen im Zusammenhang mit der automatischen Erstellung von Verknüpfungen für Hypertextsysteme , die über Ähnlichkeiten zwischen Textabschnitten realisiert wird, auf ähnliche Probleme: ``Die meisten Angebote machen irgendwie Sinn, wenn auch nicht unbedingt auf eine inhaltliche, semantisch spezifizierbare Weise. Die Grenzen zwischen assoziativ kreativem Navigieren und chaotisch assoziativem Herumtaumeln verschwimmen.''

Um in dieser Situation die Auswirkungen zufälliger statistischer Schwankungen in der Begriffswahl zu reduzieren, könnte man etwa daran denken, die in einem Abschnitt oder einem Dokument vorgefundenen Wörter vor der Berechnung von Ähnlichkeiten assoziativ zu expandieren. Gemeint ist, jedes Wort beispielsweise um seine zehn stärksten Assoziationen zu ergänzen. Die von Salton & McGill (1983) vorgeschlagenen Ähnlichkeitskoeffizienten  würden dann auf Grund dieser erweiterten Wortlisten berechnet, wobei es sinnvoll sein könnte, mit der jeweiligen Assoziationsstärke zu gewichten.

Bei einer noch allgemeineren Betrachtungsweise wird jedem Wort eines Textes eine Position in einem mehrdimensionalen Raum zugeordnet (vergl. Jones & Furnas, 1987; Salton et al., 1975; Schütze, 1992). Die Dimensionalität des Raumes entspricht der Anzahl der Wörter im Vokabulargif und die Position eines Wortes wird durch seinen Assoziationsvektor bestimmt. Die Bedeutungsähnlichkeit zweier Wörter kann als ihr Abstand im mehrdimensionalen Raum definiert werden, wobei unterschiedliche Abstandsmaße denkbar sind. Für die Berechnung der Bedeutungsähnlichkeit zwischen zwei Texten sind verschiedene Vorgehensweisen möglich:

Als Textmaterial zur quantitativen Untersuchung solcher und ähnlicher Methoden bieten sich beispielsweise Begriffserklärungen an, wie sie zu denselben Stichworten unterschiedlichen Wörterbüchern entnommen werden können. Bei der Optimierung einer Methode ist anzustreben, daß die Ähnlichkeiten der Erklärungen zu identischen Begriffen möglichst hoch, diejenigen zu verschiedenen Begriffen hingegen möglichst niedrig sind.


next up previous contents index
Next: Einsatz assoziativer Wortnetze in Up: Ausblick Previous: Ein mehrstufiges Modell zur

Reinhard Rapp
Fri Jul 18 19:19:31 MET DST 1997