next up previous contents index
Next: Indirekte Assoziationen Up: Korpusrepräsentativität und das Problem Previous: Lemmatisierung

 

Korrektur der Schätzwerte für Kookkurrenzhäufigkeiten

  Die Assoziationsformel gif ist in mehrfacher Hinsicht problematisch. Zum einen ist sie nicht in der Lage, die Assoziationsstärken eines Stimulus zu Wörtern mit Kookkurrenzhäufigkeit Null zu unterscheiden. Intuitiv ist jedoch klar, daß einem Wort mit höherer Korpushäufigkeit gegenüber einem Wort mit kleinerer Korpushäufigkeit eine niedrigere Assoziationsstärke zugeordnet werden sollte, wenn beide eine Kookkurrenzhäufigkeit von Null aufweisen. Zum anderen berücksichtigt die Formel nicht, daß kleine zufällige Schwankungen der Korpus- oder Kookkurrenzhäufigkeiten bei seltenen Wörtern nach dem Gesetz der großen Zahlen zu viel gravierenderen Fehlern führen als bei häufigen.

Die hier angesprochenen Probleme lassen sich folgendermaßen präzisieren: Gegeben sei ein Text A, der durch einen bestimmten Zufallsprozeß erzeugt wurde. Die Kookkurrenzhäufigkeiten der Wörter in diesem Text seien bekannt. Die Frage ist nun, wie groß die Erwartungswerte der Kookkurrenzhäufigkeiten der Wörter in einem Text B von derselben Länge sind, wenn dieser durch denselben Prozeß erzeugt wurde.

Bei der Untersuchung der Häufigkeiten, mit denen Wörter in Texten direkt aufeinanderfolgen, sind Gale & Church (1990) auf ein äquivalentes Problem gestoßen. Gale & Church diskutieren verschiedene Möglichkeiten, die gemessenen Kookkurrenzhäufigkeiten r zu korrigieren. Zum einen schlagen sie vor, zur gemessenen Häufigkeit 0,5 zu addieren ( tex2html_wrap_inline23957 , ``expected likelihood estimator'' ). Ein weiterer Vorschlag, die Minimax-Methode , bezieht die Anzahl der Wörter im Korpus N ein: tex2html_wrap_inline23961 . Zu den besten Ergebnissen kommen Gale & Church mit der Good-Turing-Methode : tex2html_wrap_inline23963 . Hierbei ist tex2html_wrap_inline23965 die Häufigkeit, mit der die Kookkurrenzhäufigkeit r auftritt. Alle drei Korrekturformeln  erreichen, daß die Assoziationsstärken von Wortpaaren mit Kookkurrenzhäufigkeit Null in Abhängigkeit von den Korpushäufigkeiten der beiden Wörter - wenn auch auf unterschiedliche Weise - differenziert werden.

Bei Verwendung nicht linearer Assoziationsformeln kann der Einfluß zufälliger Schwankungen  der gemessenen Kookkurrenzhäufigkeiten auch dadurch vermindert werden, daß für jeden gemessenen Kookkurrenzwert eine Schwankungsbreite angenommen und diese bei der Berechnung der Assoziationsstärke berücksichtigt wird. Im einfachsten Fall könnte dies so aussehen, daß für jede gemessene Kookkurrenzhäufigkeit eine Toleranz von tex2html_wrap_inline23456 1 angenommen und ein Mittelwert mehrerer Assoziationswerte gebildet wird. Wenn die verwendete nicht lineare Assoziationsformel mit tex2html_wrap_inline23971 bezeichnet wird, ergibt sich für die Berechnung der Assoziationsstärke zwischen zwei Wörtern i und j folgende Formel:

  equation6635

Simulationen mit diesen Methoden haben gezeigt, daß sich die so berechneten Assoziationen etwas verbessern. Der Einfluß ist aber nur für niedrige Kookkurrenzhäufigkeiten bzw. Assoziationsstärken merklich. Dementsprechend ergeben sich in erster Linie auf mittleren bis hinteren Rangplätzen Verbesserungen, während sich die Rangfolge auf den vorderen Rangplätzen kaum ändert. Dieses Ergebnis wird durch vergleichbare Untersuchungen im Zusammenhang mit der maschinellen Rechtschreibfehlerkorrektur (vergl. Kapitel gif) bestätigt.


next up previous contents index
Next: Indirekte Assoziationen Up: Korpusrepräsentativität und das Problem Previous: Lemmatisierung

Reinhard Rapp
Fri Jul 18 19:19:31 MET DST 1997