next up previous contents index
Next: Zusammenfassung Up: Technische Realisierung der Simulationsprogramme Previous: Dünne Matrizen

Vorgehensweise bei der Implementierung am Beispiel des Assoziationsprogrammes

Bei der Realisierung des Assoziationsprogrammes wurde die in Abbildung gif dargestellte Datenstruktur aufgebaut. Das verwendete Textkorpus wurde zunächst in der bereits beschriebenen Weise unter Verwendung einer Hash-Tabelle in eine Integer-kodierte Form konvertiert. Die Worttabelle aus Abb. gif, in die alle im Korpus vorkommenden unterschiedlichen Wörter eingetragen werden, wurde um drei zusätzliche Einträge ergänzt: die Korpushäufigkeit des jeweiligen Wortes sowie um zwei Zeiger auf eine Index- sowie auf eine Kookkurrenztabelle.

   figure18208
Abbildung: Datenstruktur des Assoziationsprogrammes .

In der Indextabelle werden für jedes Wort des Vokabulares alle Auftretenspositionen im kodierten Korpus eingetragen. Die Anzahl der Einträge in der Indextabelle entspricht daher genau der Anzahl der laufenden Wortformen im kodierten Korpus. Über die Indextabelle können die Textstellen, an denen bestimmte Wörter auftreten, vor allem dann wesentlich schneller herausgesucht werden als beim Scannen des gesamten Korpus, wenn es um Wörter mit niedriger Korpushäufigkeit geht.

Für die Ermittlung der Kookkurrenzhäufigkeiten der Wörter des Vokabulares werden für jedes Wort alle relevanten Textstellen lokalisiert und die Häufigkeiten des gemeinsamen Auftretens mit anderen Wörtern ausgezählt. Die gefundenen Häufigkeitswerte werden zusammen mit dem jeweiligen Wort in die Kookkurrenztabelle eingetragen. In Abhängigkeit von der Breite des betrachteten Kontextes kann die Kookkurrenztabelle allerdings so groß werden, so daß es nicht mehr möglich ist, alle Kookkurrenzwerte für alle Wortpaare abzuspeichern. Eine Reduktion des Platzbedarfes ist dadurch möglich, daß entweder mit einem eingeschränkten Vokabular gearbeitet wird, oder daß nur solche Kookkurrenzwerte gespeichert werden, die signifikant über einem Erwartungswert liegen.



Reinhard Rapp
Fri Jul 18 19:19:31 MET DST 1997