next up previous contents index
Next: Bestimmung der Assoziationsstärken Up: Vorgehensweise Previous: Verwendete Assoziationsnormen

Textbasis

Um die Assoziationsstärken zwischen Wörtern auf der Grundlage des Assoziationsgesetzes abschätzen zu können, wird sprachliches Material benötigt, das auf das gemeinsame Auftreten von Wörtern hin untersucht werden kann. Da es um die Vorhersage von Verhalten geht, ist es wichtig, daß das verwendete Material soweit wie möglich dem Sprachgebrauch entspricht, wie er einem Menschen täglich begegnet.

Mit dem LIMAS-Korpus  des Institutes für Kommunikationsforschung und Phonetik wurde ein Versuch gemacht, einen repräsentativen Querschnitt durch die deutsche Schriftsprache zu geben. Dieses Korpus umfaßt Textausschnitte aus unterschiedlichen Sachgebieten im Umfang von etwa 1,1 Millionen laufenden Wortformen.

Überschlägige Hochrechnungen ergeben jedoch, daß ein Kind bis zur Beherrschung seiner Muttersprache in der Größenordnung von 100 Millionen Wortformen rezipiert. Diese Erkenntnis sowie die in früheren Untersuchungen gemachten Erfahrungen (Rapp & Wettler, 1991a; Rapp & Wettler, 1991b; Rapp & Wettler, 1992a; Wettler & Rapp, 1990; Wettler & Rapp, 1993c) ließen es als notwendig erscheinen, mehrere zur Verfügung stehende Textkorpora zu einem etwa 21 Millionen Wortformen umfassenden Gesamtkorpus zusammenzufassen. Dieses setzt sich wie folgt zusammen (weitere Angaben zu den Korpora s. Anhang gif):

Nach den zuvor gemachten Annahmen sollten die Voraussagen der assoziativen Antworten umso besser sein, je besser die für die Schätzung der Assoziationsstärken verwendeten Texte dem sprachlichen Milieu der Versuchspersonen entsprechen. Die in den Korpora enthaltenen Texte sind größtenteils zwanzig bis dreißig Jahre nach der Würzburger Untersuchung entstanden und damit nicht repräsentativ für das sprachliche Milieu der Versuchspersonen von Russell & Meseck. Andererseits zeigen die starken Gemeinsamkeiten zwischen den assoziativen Antworten verschiedener Versuchspersonen, daß interindividuelle Unterschiede in der Lerngeschichte sich nur wenig auf die Assoziationen zu häufigen und allgemein gebräuchlichen Stimuluswörtern auswirken. Dies spricht dafür, daß auch die Unterschiede zwischen den verwendeten Korpora und dem sprachlichen Milieu der Versuchspersonen die Richtigkeit der Voraussagen nicht entscheidend beeinträchtigen sollten.

Für die Berechnung der Assoziationsstärken wurde ein eingeschränktes Vokabular von insgesamt 65 356 Wörtern verwendet. Diese Beschränkung wurde vorgenommen, um den Rechenaufwand und den Speicherplatzbedarf bei der Ermittlung der Kookkurrenzen von Wörtern nicht unnötig hoch werden zu lassen. Das Vokabular besteht aus allen 63 344 Wörtern, die in den Korpora des Instituts für deutsche Sprache mindestens zehn mal auftreten, sowie zusätzlich aus allen Wörtern, die in dem Versuch von Russell & Meseck als Stimulus oder Antwort vorkommen. Satz- und Sonderzeichen werden wie Wörter behandelt.


next up previous contents index
Next: Bestimmung der Assoziationsstärken Up: Vorgehensweise Previous: Verwendete Assoziationsnormen

Reinhard Rapp
Fri Jul 18 19:19:31 MET DST 1997