next up previous contents index
Next: Technische Realisierung der Simulationsprogramme Up: Kontextorientierte Wortartenbestimmung Previous: Wortarten-Annotierung und Syntaxprüfung

 

Einsatz von Taggern für die maschinelle Übersetzung

In diesem Abschnitt wird eine Möglichkeit skizziert, wie mit Hilfe zweier Tagger das Problem der maschinellen Übersetzung angegangen werden kann. Ausgangspunkt sei ein satzweise arbeitendes Übersetzungssystem, etwa für das Sprachpaar deutsch/englisch. Ein solches System basiert auf einer Satzdatenbank, die möglichst viele deutsch/englische Satzpaare enthält. Der Übersetzungsvorgang erfolgt in der Weise, daß der zu übersetzende Satz in der Datenbank gesucht und die zugehörige Übersetzung abgerufen wird. Das Problem solcher Systeme liegt darin, daß eine Datenbank in realisierbarer Größenordnung nur einen winzigen Bruchteil aller in einer Sprache möglichen Sätze enthalten kann, und daher nur sehr wenige Sätze übersetzt werden können.

Um in der Datenbank nicht enthaltene Sätze wenigstens näherungsweise übersetzen zu können, wird oftmals das sogenannte Fuzzy-Matching eingesetzt: Aus der Datenbank wird derjenige Satz ausgewählt, der dem zu übersetzenden am ähnlichsten ist, und die zugehörige Übersetzung wird als Ausgangsbasis für einen interaktiven Editiervorgang verwendet. Zur Messung der Ähnlichkeit zweier Sätze sind unterschiedliche Methoden denkbar: Eine einfache Möglichkeit besteht darin, die Anzahl übereinstimmender Wortpositionen zu zählen. Mehr Rechenaufwand benötigen kompliziertere Verfahren, etwa das Zählen der übereinstimmenden Worttripel (vergl. Kapitel gif, wo ein auf Buchstabenebene operierender Algorithmus für die Messung von Wortähnlichkeiten verwendet wurde).

Mit der Verfügbarkeit brauchbarer Tagger wird es möglich, das Matching nicht auf Wörter, sondern auf Wortarten zu beziehen. Unter der Annahme, daß die Datenbank im wortorientierten System das Satzpaar

figure17616

enthält (hier versehen mit Markierungen zur Wortzuordnung), so wird dieses in einem wortartenorientierten System durch die Wortartenfolge

figure17638

ersetzt. (Die in diesem Beispiel gewählten Grundwortarten dienen nur der Veranschaulichung. Ein praktisches System würde detailliertere, syntaktisch orientierte Wortartenangaben erfordern).

Soll nun etwa der Satz ``dann bezahlte er das Essen'' übersetzt werden, so wird dieser zunächst mit dem deutschen Tagger in die Wortartenfolge ``Adverb Verb Pronomen Artikel Substantiv'' umgesetzt. Eine Anfrage in der Datenbank ergibt nun, daß sich zur Übersetzung dieser Wortartenfolge die Wortartenfolge ``adverb pronoun verb article noun'' eignet. Die Datenbank liefert zwei Arten von Informationen: Zum einen, durch welche Wortart der Zielsprache jede Wortform des Ausgangssatzes übersetzt werden muß. Und zum anderen, in welcher Reihenfolge die Wörter der Zielsprache anzuordnen sind.

Die Erstellung einer umfangreichen Datenbank mit wortartkodierten Satzpaaren kann unter Einsatz einiger in dieser Arbeit beschriebener Verfahren weitgehend maschinell vor sich gehen. In Kapitel gif wurde gezeigt, wie aus zweisprachig vorliegenden Texten Satzpaare extrahiert werden können. Auf der Grundlage der mit dem Wörterbuchgenerator erstellten Wortübersetzungslisten können die benötigten Markierungen zur Wortzuordnung einfach dadurch gewonnen werden, daß jedem Wort eines Ausgangssatzes nach Möglichkeit dasjenige Wort des übersetzten Satzes zugewiesen wird, das in der Wortübersetzungsliste des betrachteten Wortes den niedrigsten Rangplatz einnimmt. Anschließend werden den in den miteinander korrespondierenden Satzpaaren enthaltenen Wörtern mit Hilfe zweier Tagger ihre Wortarten zugeordnet.


next up previous contents index
Next: Technische Realisierung der Simulationsprogramme Up: Kontextorientierte Wortartenbestimmung Previous: Wortarten-Annotierung und Syntaxprüfung

Reinhard Rapp
Fri Jul 18 19:19:31 MET DST 1997