next up previous contents index
Next: Wortarten-Annotierung und Syntaxprüfung Up: Kontextorientierte Wortartenbestimmung Previous: Ein Ansatz zur maschinellen

 

Erstellung eines syntaktisch annotierten deutschen Referenzkorpus

Der in Abschnitt gif vorgestellte, zunächst für die englische Sprache entwickelte Tagger könnte auf der Basis des in Abschnitt gif beschriebenen Wortartensystems auch für die deutsche Sprache verwendet werden, wenn ein umfangreiches mit Tags versehenes deutsches Referenzkorpus zur Verfügung stünde, dem die benötigten statistischen Parameter, z. B. die Übergangswahrscheinlichkeiten zwischen den Tags, entnommen werden könnten.

Die manuelle Annotierung eines größeren Korpus ist jedoch sehr zeitaufwendig (vergl. Källgren, 1990). Deshalb sollen hier in Ergänzung der bereits in Abschnitt gif vorgestellten Möglichkeiten drei Vorgehensweisen vorgestellt werden, die zumindest eine teilweise Automatisierung erlauben. Voraussetzung ist in jedem Fall eine für das Vokabular des zu annotierenden Korpus möglichst vollständige Wort/Tag-Liste.

Eine naheliegende Möglichkeit besteht darin, daß der Tagger zunächst auf der Basis eines sehr kleinen handannotierten Korpus die Wortarten weiterer Texte bestimmt. Die Angaben des Programmes werden manuell korrigiert, und das Basiskorpus wird um die zusätzlichen Texte erweitert. Durch diese Vergrößerung des annotierten Korpus verbessert sich die Güte der Voraussagen. Der gesamte Vorgang wird mit weiteren Texten solange wiederholt, bis die gewünschte Größe des annotierten Korpus erreicht ist. Unter der Annahme, daß die Überprüfung eines richtig annotierten Wortes 2 Sekunden, die Korrektur eines falsch annotierten Wortes hingegen 12 Sekunden dauert, und daß das Programm im Mittel 90% der Wörter richtig annotiert, so würde die Annotierung eines Korpus mit einer Million Wortformen etwa 800 Stunden dauern.

Beim zweiten Verfahren werden alle unterschiedlichen Wortfolgen einer bestimmten Länge (z. B. fünf Wörter) betrachtet, die dem Textkorpus entnommen werden können. Eine zufällig ausgewählte Wortfolge wird manuell mit Tags versehen. Alle anderen Wortfolgen, die sich von dieser Wortfolge in nur einem Wort unterscheiden, werden anschließend maschinell mit derselben Tagfolge versehen, soweit dies nicht im Widerspruch zu den Einträgen in der Wort/Tag-Liste steht. Dieser Vorgang wird mit weiteren zufällig ausgewählten Wortfolgen so lange wiederholt, bis alle Wortfolgen mit Tags versehen sind. Anschließend muß versucht werden, den Text aus sich überlappenden Wortfolgen wieder so zusammenzusetzen, daß es bei den sich gleichermaßen überlappenden Tagfolgen zu keinen Widersprüchen kommt. Zum Schluß muß selbstverständlich der gesamte Text überprüft werden. Ein Problem bei dieser Vorgehensweise liegt allerdings darin, daß es schwer fällt, unvollständige Sätze manuell zu taggen. Das Verfahren ist zwar prinzipiell auch auf ganze Sätze anwendbar. Bei längeren Sätzen wird man allerdings selten Paare finden, die sich nur in einem Wort unterscheiden (vergl. Abschnitt gif).

Das dritte Verfahren, das vollständig maschinell ablaufen kann, betrachtet alle (auch mehrfach) im Korpus vorkommenden Wortfolgen einer bestimmten Länge, etwa mit fünf Wörtern. Für jede dieser Wortfolgen werden alle entsprechend den Einträgen in der Wort/Tag-Liste möglichen Tagfolgen gebildet. Jede dieser Tagfolgen erhält ein Gewicht in der Weise, daß sich die Gewichte der zu einer bestimmten Wortfolge gebildeten Tagfolgen zu eins addieren. Nachdem zu allen im Korpus vorkommenden Wortfolgen der betrachteten Länge alle möglichen Tagfolgen und ihre Gewichte gebildet worden sind, werden alle identischen Tagfolgen zusammengefaßt und ihre Gewichte aufaddiert. Tendenziell werden damit solche Tagfolgen hohe Gewichte erhalten, die im Korpus potentiell häufig angewandt werden können. Dies ist ein erwünschter Effekt, da es ein Qualitätsmerkmal eines Tagging-Systems ist, möglichst wenige Übergänge zwischen den Tags zuzulassen. Im letzten Schritt werden allen Wortfolgen im Korpus die Tagfolgen in der Weise zugeordnet, daß einerseits möglichst häufig Tagfolgen mit hohen Gewichten verwendet werden, sich andererseits aber keine Widersprüche zwischen sich überlappenden Tagfolgen ergeben.


next up previous contents index
Next: Wortarten-Annotierung und Syntaxprüfung Up: Kontextorientierte Wortartenbestimmung Previous: Ein Ansatz zur maschinellen

Reinhard Rapp
Fri Jul 18 19:19:31 MET DST 1997