next up previous contents index
Next: Einsatz von Taggern für Up: Kontextorientierte Wortartenbestimmung Previous: Erstellung eines syntaktisch annotierten

 

Wortarten-Annotierung und Syntaxprüfung

Bei der Zuordnung von Wortarten zu Wörtern versucht der Tagger, auf der Grundlage der Wort/Tag-Liste solche Folgen von Wortarten zu erzeugen, die in einem Basiskorpus möglichst häufig vorkommen. In manchen Fällen wird es ihm allerdings nicht möglich sein, eine Tagfolge zu finden, die im Basiskorpus mindestens einmal vorkommt. Hierfür sind drei Ursachen denkbar:

Sind die Wort/Tag-Liste und das Basiskorpus hinreichend vollständig, so kann man davon ausgehen, daß das Nichtfinden einer passenden Tagfolge durch einen Fehler im Satzbau des analysierten Satzes verursacht wird.

Atwell (1987) beschreibt, wie auf dieser Grundlage ein Text grammatikalisch überprüft werden kann. Da Rechtschreibfehler in der Regel auch zu grammatikalischen Fehlern führen, schließt dies eine Rechtschreibprüfung mit ein. Kapitel gif befaßt sich auf der Basis der Auftretenshäufigkeiten von Wortfolgen mit diesen Themen. Die dort angegebene Vorgehensweise läßt sich analog auch auf Folgen von Wortarten übertragen.

 

man 2 merkt 12 es 0 gleich 4 : 1 3.8
ich 4 tat 1 es 0 nicht 21 . 0 5.2
sie 1 war 26 es 0 nicht 21 . 0 9.6
er 0 wußte 28 es 0 nicht 21 . 0 9.8
ich 4 wußte 28 es 0 nicht 21 . 0 10.6
es 3 stimmt 9 aber 24 nicht 21 : 1 11.6
er 0 muß 41 es 0 nicht 21 . 0 12.4
sie 1 ist 44 es 0 nie 19 . 0 12.8
er 0 ist 44 es 0 nicht 21 . 0 13.0
man 2 kann 42 es 0 nicht 21 . 0 13.0
er 0 kann 42 jetzt 9 nicht 21 . 0 14.4
sie 1 hat 21 das 54 gern 0 . 0 15.2
man 2 weiß 57 es 0 nicht 21 . 0 16.0
ich 4 weiß 57 es 0 nicht 21 . 0 16.4
sie 1 glaubte 62 es 0 nicht 21 . 0 16.8
ich 4 hatte 83 sie 1 gern 0 . 0 17.6
das 77 hört 5 man 5 oft 10 . 0 19.4
da 13 kommt 19 es 0 leise 65 : 1 19.6
dazu 82 kommt 19 es 0 schnell 8 . 0 21.8
mir 49 geht 38 es 0 gut 24 . 0 22.2
Tabelle: Sätze mit durchschnittlich hoher Ersetzbarkeit der einzelnen Wörter bezüglich ``er tut es gern.'' Der in der rechten Spalte angegebene Mittelwert der Rangplätze der einzelnen Wörter dient als Maß für die syntaktische Ähnlichkeit zweier Sätze.

 

Ein sehr einfacher Algorithmus, der eine Syntaxprüfung auf eine wortweise Ersetzbarkeit zurückführt, könnte wie folgt arbeiten: Zu einem vorgegebenen Satz werden aus einem Korpus alle Sätze gleicher Wortanzahl herausgesucht. Für jeden gefundenen Satz und jede Wortposition wird gemäß Formel gif berechnet, wie gut das jeweilige Wort das an der entsprechenden Satzposition stehende Wort des vorgegebenen Satzes ersetzen kann. Als Maß für die Ersetzbarkeit dient der Rangplatz des jeweiligen Wortes in der Rangfolge aller Wörter eines Vokabulares. Für jeden Satz wird der Mittelwert aus den gefundenen Rangplätzen gebildet. Dieser Mittelwert kann als Maßzahl für die Ähnlichkeit des Satzbaus aufgefaßt werden. Tabelle gif zeigt diejenigen Sätze aus dem in Abschnitt gif verwendeten Korpus, die nach diesem Maß die höchste Ähnlichkeit zu ``er tut es gern.'' aufweisen.


next up previous contents index
Next: Einsatz von Taggern für Up: Kontextorientierte Wortartenbestimmung Previous: Erstellung eines syntaktisch annotierten

Reinhard Rapp
Fri Jul 18 19:19:31 MET DST 1997