Gängige Rechtschreibhilfen vergleichen jedes in einem Text vorgefundene Wort mit den Einträgen in einem Wörterbuch. Wird ein Wort nicht gefunden, so werden dem Benutzer auf Grund der orthographischen Ähnlichkeit (die z. B. durch die Anzahl der übereinstimmenden Trigramme gemessen werden kann; vergl. Angell et al., 1983) Vorschläge gemacht, um welches korrekte Wort es sich handeln könnte. Der Benutzer entscheidet sich daraufhin unter Berücksichtigung des Kontextes für eines der Wörter.
Da das in diesem Kapitel vorgestellte statistische System
in der Lage ist, Wortvorschläge auf Grund des Kontextes zu machen,
kann es die Aufgabe des Benutzers übernehmen, unter einer Anzahl
orthographisch orientierter Korrekturvorschläge eine
kontextorientierte Auswahl zu treffen. Am Beispiel des Satzes
``he did not expcet him to come'' sieht dies wie folgt aus:
Für das fehlerhaft geschriebene Wort expcet seien auf
Grund der orthographischen Ähnlichkeit folgende Alternativen
ermittelt worden: expect, excerpt, expects, excerpts,
expected, excepted, expert, exempt, excite und excerpted.
Nun wird dem System die Aufgabe gestellt, Wortvorschläge
für den Lückentext ``he did not him to come'' zu machen.
Die Rangplätze der 10 genannten Wörter werden ermittelt und
letztlich dasjenige Wort mit dem niedrigsten Rangplatz ausgewählt.
Tabelle
zeigt die tatsächlich erhaltenen
Rangplätze.
Qualitative Auswertungen ergaben, daß sich mit dieser Methode
zur Rechtschreibfehlerkorrektur bei einem mit zufälligen Schreibfehlern
versehenen Text die Quote richtig korrigierter Rechtschreibfehler
deutlich verbessern läßt (vergl. Kapitel ).
Wort | Rangplatz |
expect | 49 |
expected | 666 |
expert | 8533 |
exempt | 18423 |
excite | 23951 |
excerpts | 24965 |
expects | 25173 |
excepted | 35067 |
excerpted | 52193 |
excerpt | 52194 |