next up previous contents index
Next: Ausblick Up: Generierung von Suchbegriffen für Previous: Simulation

Ergebnisse und Evaluierung

Die Assoziationen zu allen 95 Problembeschreibungen wurden berechnet und die Rangplätze der darin enthaltenen Wörter sowie der in den Queries verwendeten Suchbegriffe bestimmt.

Zur Evaluierung der Ergebnisse ist es sinnvoll, in Abhängigkeit ihres Vorkommens in der Problembeschreibung und der zugehörigen Query vier Klassen von Begriffen zu unterscheiden. In Anlehnung an Ferber, Wettler & Rapp (im Druck) werden diejenigen Begriffe, die sowohl in der Problembeschreibung als auch in der Query erscheinen mit tex2html_wrap_inline24135 , diejenigen, die weder in der Problembeschreibung noch in der Query erscheinen mit tex2html_wrap_inline24137 gekennzeichnet. Entsprechend erhalten Begriffe, die entweder nur in der Problembeschreibung oder nur in der Query vorkommen die Bezeichnungen tex2html_wrap_inline24139 bzw. tex2html_wrap_inline24141

Bei einem optimalen Verlauf der Simulation sollten diejenigen Begriffe, die in der Query verwendet wurden, auf den vordersten Rangplätzen erscheinen, während für alle anderen Begriffe - unabhängig von ihrem Vorkommen in der Problembeschreibung - eine mehr oder weniger zufällige Verteilung auf die übrigen Rangplätze zu erwarten ist. Um das Simulationsergebnis, das durch eine Vielzahl sich ergebender Rangplätze von Begriffen gekennzeichnet ist, mit Hilfe weniger Kennwerte darstellen zu können, wurden innerhalb der vier Begriffsklassen die berechneten Rangplätze über alle 95 Beispiele gemittelt.gif Auf diese Weise gehen bei der Berechnung des Mittelwertes Beispiele mit mehr Wörtern stärker ein als solche mit wenigen, was gerechtfertigt erscheint. Die resultierenden Mittelwerte sind in Tabelle gif dargestellt. Dort finden sich auch die in analoger Weise berechneten Mediane.

 

tex2html_wrap_inline24135 tex2html_wrap_inline24145 tex2html_wrap_inline24139
Mittelwert 185,5 184,9 368,8
Median 96 96 384
Tabelle: Rangplätze verschiedener Begriffskategorien bei der Generierung von Suchbegriffen.

 

Da Mediane sich dazu eignen, die Auswirkungen einzelner Ausreißer, wie sie durch statistische Schwankungen im Textkorpus, aber auch durch willkürliche Begriffswahl und Fehler der Rechercheure entstehen, zu begrenzen, stellen die Mediane ein sinnvolleres Bewertungskriterium dar als die Mittelwerte.

Sowohl bei Betrachtung der Mittelwerte als auch der Mediane  erhalten diejenigen Wörter aus der Problembeschreibung, die nicht in die Suchfrage übernommen werden, Rangplätze in der Nähe des Zufallswertes von 872/2. Hingegen werden denjenigen Begriffen, die in der Suchfrage verwendet werden, erheblich günstigere Rangplätze zugewiesen, unabhängig davon, ob sie in der Problembeschreibung verwendet wurden oder nicht. Daß die Werte für den Median mit 96 und 96gif erheblich besser sind als diejenigen für die Mittelwerte mit 185,5 und 184,9 deutet darauf hin, daß das System bei der überwiegenden Zahl der Begriffe gute, in einigen Fällen aber sehr schlechte Prognosen macht. Da es bei der Generierung von Suchbegriffen nicht unbedingt auf Vollständigkeit ankommt, sondern eher darauf, daß die gefundenen Suchbegriffe möglichst treffend sind, ist dieses Verhalten aber akzeptabel. Andere Untersuchungen haben gezeigt, daß auch bei Rechercheuren zwar oftmals große Unterschiede in der Begriffswahl bestehen, sich die Retrieval-Ergebnisse aber dennoch ähneln (vergl. Saracevic & Kantor, 1988).

Bei der Beurteilung der Simulationsergebnisse sollten einige Schwierigkeiten berücksichtigt werden, die teils grundsätzlicher Natur, teils auch durch die Implementation bedingt sind:

Aufgrund dieser Vielzahl von Fehlerquellen ist es also nicht realistisch, perfekte Ergebnisse zu erwarten. Eine möglicherweise zweckmäßigere Methode zur Beurteilung der Simulationsergebnisse bestünde darin, unterschiedlichen Rechercheuren sowie dem Simulationsprogramm dieselbe Problemstellung vorzulegen, und nach Durchführung der Recherchen zu untersuchen, ob die Begriffswahl des Programmes stärker von der der Rechercheure abweicht, als sich die von den Rechercheuren gewählten Begriffe untereinander unterscheiden. Entsprechendes experimentelles Material stand jedoch nicht zur Verfügung.


next up previous contents index
Next: Ausblick Up: Generierung von Suchbegriffen für Previous: Simulation

Reinhard Rapp
Fri Jul 18 19:19:31 MET DST 1997