Zur Bestimmung des gemeinsamen Auftretens der Wörter in der Textbasis
wird für jedes interessierende Stimuluswort ermittelt, an welchen Stellen
im Text es vorkommt und welche anderen Wörter in seiner Umgebung
auftreten. Als Umgebung wird ein Bereich von 12 Wörtern
vom Stimuluswort angesehen. Innerhalb dieses 25 Wörter umfassenden
Fensters wird der genaue Abstand der Wörter untereinander nicht
berücksichtigt.
Für jedes Paar von Wörtern ergibt sich somit ein Wert für die Häufigkeit
des gemeinsamen Auftretens. Diese Häufigkeiten können in eine Matrix
nach Art der Tabelle
eingetragen werden.
Erwartungsgemäß ergeben sich für hochfrequente Wörter (insbesondere Funktionswörter) in der Regel hohe Werte für die Häufigkeiten des gemeinsamen Auftretens mit Stimuluswörtern, während seltene Wörter zumeist niedrige Werte erhalten. Deshalb ist es nicht sinnvoll, diese Häufigkeiten des gemeinsamen Auftretens direkt als Assoziationsstärken zwischen den Wörtern zu betrachten. Church & Hanks (1990), McDonald et al. (1990) sowie Rapp & Wettler (1991b) diskutieren eine Reihe von Formeln, die es erlauben, aus den Häufigkeiten des gemeinsamen Auftretens von Wörtern unter Berücksichtigung der Korpushäufigkeiten der Einzelwörter Assoziationsstärken zu berechnen. Nach Wettler, Rapp & Ferber (1993) läßt sich die Formel
nach psychologischen Lerngesetzen rechtfertigen. Hierbei
ist die Assoziationsstärke zwischen den Wörtern
i und j,
ist die Häufigkeit des gemeinsamen
Auftretens der Wörter i und j, und H(j) ist die
Korpushäufigkeit des Wortes j. Da bei dieser Formel
allerdings H(j) im Nenner steht, haben Schätzfehler
bei seltenen Wörtern starke Auswirkungen auf die
berechneten Assoziationsstärken. Deshalb wurde die
folgende Fallunterscheidung
eingeführt, die Wörter mit niedrigen Korpushäufigkeiten
unterdrückt (vergl. Wettler & Rapp, 1993b).
Die besten Ergebnisse wurden für
erzielt.
Die Parameter
und
erwiesen sich
als recht unkritisch. Zur Vereinfachung der Parameterschätzung
wurde von einem identischen Wert für
und
ausgegangen, der auf 0,000 005 festgesetzt wurde.
Trotz einiger Schwächen ergaben
sich mit dieser Formel die bislang besten Resultate.
Wesentlich ist, daß durch die Formel berücksichtigt wird,
daß Versuchspersonen im Assoziationsexperiment in der Regel mit
geläufigen Wörtern, also solchen mit hoher Korpushäufigkeit,
antworten. Dies erlaubt es,
Wörter mit niedrigen Korpushäufigkeiten, deren Schätzwerte
für die Kookkurrenzhäufigkeiten große statistische Schwankungen
aufweisen, zu unterdrücken.