next up previous contents index
Next: Zusammenhang zwischen Stimulus- und Up: Ansätze zur Verbesserung der Previous: Syntagmatische versus paradigmatische Assoziationen

 

Mittlerer Abstand zwischen Wörtern

 

In den bislang vorgestellten Rechenvorschriften wurde davon ausgegangen, daß die Berechnung von Assoziationen auf der Basis der Kookkurrenzhäufigkeiten von Wörtern in Textfenstern einer festgelegten Größe erfolgen soll. Eine alternative Möglichkeit besteht darin, den mittleren Abstand zwischen Stimulus und potentieller Response im Textkorpus zu bestimmen. Wichtig ist hierbei, daß als Abstand zwischen Stimulus und Response ausgehend vom Stimuluswort die Distanz zur nächstgelegenen Auftretensposition der Response gewählt wird. Für Wörter, die häufig zusammen auftreten, müßte sich für den mittleren Abstand ein kleiner Wert ergeben.

Die Formel für die Berechnung des mittleren Abstandes zwischen zwei Wörtern i und j kann wie folgt angegeben werden:

  equation4075

Hierbei ist tex2html_wrap_inline23744 der Abstand zwischen der m-ten Auftretensposition des Wortes i und der nächstgelegenen Auftretensposition des Wortes j. H(i) ist die Korpushäufigkeit des Wortes i.

Abb. gif zeigt für die Auftretenspositionen zweier Wörter i und j, welche Abstände bei der Berechnung des mittleren Abstandes tex2html_wrap_inline23760 eingehen. Für dieses Beispiel ergibt sich nach Gleichung gif:

eqnarray4091

   figure4103
Abbildung: Auftretenspositionen der Wörter i und j in einem Korpus und für die Berechnung von tex2html_wrap_inline23760 relevante Abstände.

Die so berechneten mittleren Abstände können nicht direkt als Assoziationsstärken verwendet werden, da sie stark von den Korpushäufigkeiten der beteiligten Wörter abhängen. Der Einfluß der Korpushäufigkeiten kann mit den folgenden beiden Vorgehensweisen unterdrückt werden:

Naturgemäß weisen die mittleren Abstände, die sich für Wörter niedriger Korpushäufigkeiten ergeben, eine sehr hohe Varianz auf. Diese hohen Varianzen führen in vielen Fällen zu wenig brauchbaren Simulationsergebnissen. Da sich das Korpus aus einer Vielzahl kurzer Texte in meist zufälliger Reihenfolge zusammensetzt, ist es nicht sinnvoll, mittlere Abstände zu unterscheiden, die größer sind als die Längen der Texte. Eine Möglichkeit, dieses Problem zu lösen, besteht darin, in Gleichung gif für tex2html_wrap_inline23744 ein Maximum festzusetzen. Alternativ wäre es denkbar, kleinen Abständen ein höheres Gewicht zu geben als großen. Diese Überlegungen zielen allerdings letztlich in eine ähnliche Richtung wie ein nach Form und Größe optimiertes Fenster gemäß Abschnitt gif.


next up previous contents index
Next: Zusammenhang zwischen Stimulus- und Up: Ansätze zur Verbesserung der Previous: Syntagmatische versus paradigmatische Assoziationen

Reinhard Rapp
Fri Jul 18 19:19:31 MET DST 1997