next up previous contents index
Next: Anhang A: Die verwendeten Up: No Title Previous: Vorgehensweise bei der Implementierung

Zusammenfassung

 

Es wurde gezeigt, daß eine Anzahl grundlegender Sprachverarbeitungsprozesse  durch die statistische Analyse von Textkorpora simuliert werden kann. Folgende Prozesse wurden betrachtet:

Es wurde davon ausgegangen, daß die bei der statistischen Analyse von Textkorpora erhaltenen Vorhersagen nur dann mit den von Versuchspersonen erhaltenen Reaktionen übereinstimmen können, wenn durch die Zusammensetzung des Korpus das sprachliche Umfeld der Versuchspersonen nachgeahmt wird. Trotz erheblicher Anstrengungen bei der Korpusbeschaffung, in deren Verlauf das derzeit umfangreichste frei verfügbare deutschsprachige Korpus zusammengestellt wurde, ist dies nur ansatzweise gelungen.

Dennoch war die Simulation der angeführten sprachlichen Prozesse erfolgreich. Es konnte gezeigt werden, daß sich das freie Assoziieren zu einzelnen Stimuluswörtern auf das gemeinsame Auftreten von Wörtern in Texten zurückführen läßt. Dies bedeutet, daß für das Erlernen von Assoziationen ein aus der Psychologie bekanntes Lerngesetz, nämlich das Kontiguitätsgesetz , gültig ist. Sowohl für die deutsche als auch die englische Sprache weichen die vom Simulationsprogramm erzeugten Assoziationen kaum stärker von denen einer Gruppe von Versuchspersonen ab, als sich die Assoziationen der beteiligten Versuchspersonen untereinander unterscheiden. Durch die Simulation wurde auch bestätigt, daß amerikanische Versuchspersonen homogenere assoziative Antworten geben als deutsche. Weiterhin stellte es sich heraus, daß das Simulationsprogramm genau diejenigen assoziativen Antworten besonders gut vorhersagt, bei denen sich auch die Antworten der Versuchspersonen nur wenig unterscheiden, die also auf besonders prägnante Stimuluswörter gegeben werden.

Allerdings zeigten sich bei den Vorhersagen auch einige systematische Fehler: Diese waren einerseits durch einen spezifischen Sprachgebrauch in den verwendeten Korpora und das Sparse-Data-Problem bedingt, andererseits aber auch durch eine möglicherweise nicht optimale Wahl der betrachteten sprachstatistischen Indikatoren. Beispielsweise wurde eine im Vergleich zu den Versuchspersonen deutliche Präferenz von syntagmatischen gegenüber paradigmatischen Assoziationen festgestellt.

Zur Vorhersage der assoziativen Antworten auf mehrere Stimuluswörter wurden die für die einzelnen Wörter berechneten Assoziationen überlagert, die zugehörigen Assoziationsvektoren also additiv verknüpft. Eine solche symmetrische Verknüpfung läßt sich dadurch rechtfertigen, daß das bei Versuchspersonen gefundene Verhalten in Bezug auf die Wortreihenfolge invariant ist. Die in der Simulation erzielten Resultate lassen einen deutlichen Zusammenhang zu den von den Versuchspersonen gegebenen Antworten erkennen, sind aber schlechter als die für einzelne Stimuluswörter. Dies liegt daran, daß die assoziativen Antworten der Versuchspersonen sehr heterogen waren, die Assoziationsstärken potentieller Antworten also offenbar dicht zusammenlagen. So ist es möglich, daß sich bei der Simulation kleine Abweichungen vom Soll letztlich stark auf die vergebenen Rangplätze auswirken.

Modifizierte Versionen des Programmes zur Berechnung der assoziativen Antworten auf Mehrwortstimuli konnten für zwei Anwendungen erfolgreich eingesetzt werden. Zum einen wurde im Bereich des Information Retrieval die Suchwortgenerierung für die Abfrage in bibliographischen Datenbanken simuliert. Die vorhergesagten Ergebnisse wurden dabei mit den in tatsächlichen Recherchen von professionellen Rechercheuren gefundenen Suchbegriffen verglichen. Zum anderen wurde für das Marketing eine Methode entwickelt, die es erlaubt, die assoziativen Wirkungen der in Werbespots verwendeten Begriffe vorherzusagen. Diese Methode hat sich bei einer größeren Anzahl von Analysen für Hersteller von Markenartikeln in der Nahrungsmittelbranche bewährt.

Für die Herstellung assoziativer Beziehungen zwischen den Wörtern verschiedener Sprachen wurde ein auf einer Satzlängenanalyse beruhendes Verfahren vorgestellt. Dieses geht von zweisprachig vorliegenden (parallelen) Texten aus und ist in der Lage, die Übersetzungen von Wörtern mit hoher Genauigkeit zu ermitteln. Die Methode ist jedoch als Modell für menschliches Sprachenlernen unplausibel und für nicht parallele Texte ungeeignet. Es wurde daher das Grundgerüst für ein rein assoziativ arbeitendes Verfahren mit größerer kognitiver Plausibilität ausgearbeitet, das eine Parallelität der betrachteten Texte nicht voraussetzt.

Eine weitere Simulation beschäftigte sich mit der Ergänzung fehlender Wörter in Lückentexten. Eine Textlücke wurde in der Weise ergänzt, daß die Auftretenshäufigkeit der resultierenden Wortfolge in einem zugrundegelegten Textkorpus maximiert wurde. Sätzen wurden in Abhängigkeit von den Korpushäufigkeiten der in ihnen enthaltenen Wortfolgen Zahlenwerte zugeordnet, die mit ihrer syntaktischen Korrektheit korrelierten. Bei der systematischen Erprobung solcher Methoden am Beispiel einer kontextsensitiven Rechtschreibfehlerkorrektur stellte es sich jedoch heraus, daß diese Verfahren deswegen keine wirklich praxistauglichen Ergebnisse ermöglichen, weil nicht vorausgesetzt werden kann, daß ein Korpus realisierbarer Größe einen Großteil der in einer Sprache möglichen Wortfolgen enthält.

Zur Verminderung dieses Problems zu geringer Häufigkeiten wurde vorgeschlagen, anstatt Wortfolgen Folgen von Wortarten zu betrachten. Die Betrachtung von Folgen von Wortarten ist für eine Syntaxanalyse ausreichend. Da einige hunderttausend unterschiedliche Wortformen auf einige hundert Wortarten zurückgeführt werden können, wird das Sparse-Data-Problem wesentlich reduziert. Es wird jedoch ein Programm benötigt, das den Wörtern eines Textes unter Berücksichtigung des Kontextes ihre Wortart zuordnet, ein sogenannter Part-of-Speech Tagger. Ein solcher Tagger wurde für die englische Sprache auf der Grundlage des mit Tags versehenen Brown-Korpus in der Weise implementiert, daß im Gegensatz zu den in der Literatur angegebenen Taggern nicht nur ein Kontext von ein oder zwei Wörtern, sondern in Abhängigkeit des zur Verfügung stehenden Korpus ein wesentlich weiterer, variabler Kontext berücksichtigt wird.

Da für die deutsche Sprache kein genügend detailliertes, konsequent syntaktisch orientiertes Wortartensystem zur Verfügung stand, wurde ein vorhandenes Wortartensystem im Hinblick auf das Tagging angepaßt. Zudem wurde gezeigt, daß sich die Wörter einer Wortart bezüglich der Verteilung ihrer Vorgänger- und Nachfolgerwörter ähneln, und daß die zunächst intellektuell festgelegten Wortarten näherungsweise auch mit einem auf Wortnachbar-Statistiken beruhenden maschinellen Verfahren bestimmt werden können.

Der einzige noch fehlende, aber zeitaufwendige Schritt zur Umstellung des englischen Taggers auf die deutsche Sprache besteht darin, ein größeres deutschsprachiges Korpus manuell oder halbautomatisch mit dem gewählten Wortartensystem zu annotieren. Der Tagger ermöglicht es dann, den Wörtern eines beliebigen deutschen Textes unter Berücksichtigung des Kontextes ihre Wortarten zuzuordnen. Im Hinblick auf die Lösung des Lückentextproblems wurde der Tagger so konzipiert, daß auch für fehlende Wörter im Text die möglichen Wortarten angegeben werden. Unter den Wörtern dieser Wortarten kann anschließend - unter Berücksichtigung der assoziativen Verbindungsstärken zu den Umgebungswörtern - eine Rangfolge gebildet werden.

Zum Schluß bleibt die Frage nach den Möglichkeiten und Grenzen statistischer Modelle in der Sprachverarbeitung. Nach etwa 30 000 Programmierzeilen für die Erstellung von Simulationsprogrammen und der Durchführung einer großen Anzahl von Simulationsläufen wurde die Vermutung erhärtet, daß eine Analogie zwischen statistischen oder neuronalen Modellen und dem menschlichen Spracherwerb bestehen muß. Sicherlich könnten mit den bereits realisierten Algorithmen bessere Ergebnisse erzielt werden, wenn leistungsfähigere Rechner zur Verfügung stünden. Derzeit wird viel Zeit damit verbracht, eigentlich funktionierende Algorithmen zu beschleunigen und teilweise komplizierte numerische Methoden zu implementieren. Vor diesem Hintergrund sollten der ``somewhat banausic flavour of the research'' (Garside, Leech & Sampson, 1987, S. 27) und der in dieser Arbeit verfolgte bottom-up-Ansatz gesehen werden. Solange die vorgeschlagenen einfachen Modelle zur Simulation elementarer Sprachverarbeitungsfunktionen nur unvollkommen realisiert werden können, besteht wenig Bedarf für kompliziertere, die noch mehr Rechenaufwand benötigen würden.

Die Fortschritte in der Rechnertechnik lassen aber erwarten, daß viele heute bestehende Beschränkungen in naher Zukunft überwunden sein werden. Unflexible fest programmierte Systeme werden durch selbst lernende Systeme abgelöst, die in der Lage sein werden, viele sprachliche Leistungen erfolgreich zu simulieren:

``Ich sehe keinen Grund, warum nicht auch im Bereich der geistigen Leistungen das Potential des Menschen Schritt für Schritt durch Maschinen kopiert, nachgeahmt und teilweise sogar übertroffen werden sollte. Dies ist nicht im Sinne einer identischen, aber einer vergleichbaren Lösung zu verstehen, so wie das Fliegen von Flugzeugen nicht dasselbe ist, wie das Fliegen von Vögeln, aber in jedem Fall eine sehr beeindruckende fliegerische Leistung darstellt, die in vielem all das übertrifft, was wir im Tierreich finden.'' [Radermacher, 1993]


next up previous contents index
Next: Anhang A: Die verwendeten Up: No Title Previous: Vorgehensweise bei der Implementierung

Reinhard Rapp
Fri Jul 18 19:19:31 MET DST 1997