SYNTAXPRÜFUNG MITTELS STATISTISCHER WORTARTENANNOTIERUNG
Dieses Problem kann jedoch umgangen werden, indem anstatt Wortfolgen Folgen von Wortarten betrachtet werden, was für syntaktische Betrachtungen genügt. Hierzu muß der Begriff der Wortart allerdings syntaktisch definiert werden: Ein syntaktisch orientiertes Wortartensystem sollte so beschaffen sein, daß in einem Satz, dessen Wörtern die korrekten Wortarten zugeordnet wurden, ein Wort durch ein beliebiges anderes Wort derselben Wortart ersetzt werden kann, ohne daß die syntaktische Richtigkeit des Satzes beeinträchtigt wird. Im Englischen kann diese Forderung bereits mit einem System von nur 100 Wortarten näherungsweise erfüllt werden. Dieses Wortartensystem hat eine feste Größe und braucht bei einer Vergrößerung des betrachteten Vokabulares nicht erweitert zu werden.
Setzt man ein Maximum for die betrachtete Satzlänge fest, zum Beispiel 30 Wörter, so läßt sich für die Anzahl der möglichen Wortartenfolgen eine obere Schranke von 10^30 angeben. Nur ein kleiner Bruchteil dieser 10^30 konstruierbaren Wortartenfolgen wird jedoch zu syntaktisch richtigen Sätzen führen. Unter der Annahme, daß eine vollständige Liste dieser korrekten Wortartenfolgen existiert, kann die syntaktische Richtigkeit eines unbekannten Satzes dadurch überprüft werden, daß zu jedem Wort des Satzes alle bei isolierter Betrachtung möglichen Wortarten bestimmt und anschließend alle möglichen Folgen dieser Wortarten konstruiert werden. Stimmt mindestens eine dieser Folgen mit einer der Wortartenfolgen in der Liste überein, so ist der Satz syntaktisch korrekt. Gibt es mehrere Übereinstimmungen, so handelt es sich um einen mehrdeutigen Satz.
Der beschriebene Algorithmus kann in dieser Form nur für kurze Sätze (maximal etwa 7 Wörter) eingesetzt werden, da es kaum realisierbar ist, für längere Folgen von Wortarten vollständige Listen der möglichen Abfolgen zu erstellen. Es besteht jedoch die Möglichkeit, häufige Folgen von Wortarten als nur ein Element zu betrachten (etwa die Folge "Artikel-Substantiv"), oder es kann versucht werden, längere Sätze in geeigneter Weise zu zerlegen und ein Matching von Satzteilen durchzuführen.