next up previous contents index
Next: Die Vorhersage der Aufeinanderfolge Up: Die maschinelle Generierung von Previous: Wortzuordnung

Zusammenfassung und Ausblick

Mit den besprochenen Algorithmen zur Satz- und Wortzuordnung werden mit relativ wenig Aufwand praxistaugliche Ergebnisse erzielt. Sie weisen jedoch zwei Nachteile auf: Zum einen werden parallele Texte benötigt, die häufig nicht oder nur schwer in ausreichendem Umfang beschafft werden können. Zum anderen arbeitet der Algorithmus zur Satzzuordnung nur dann zuverlässig, wenn bei der Übersetzung keine größeren Auslassungen, zusätzlichen Textteile oder Umstellungen in der Reihenfolge der Sätze vorgenommen wurden. Davon kann jedoch nicht in allen Fällen ausgegangen werden. So können unterschiedliche Formatierungen in Ausgangstext und Übersetzung dazu führen, daß Tabellen an anderen Positionen im Text plaziert werden, oder es kann beispielsweise die Reihenfolge der Kapitel eines Buches umgestellt werden.

Demgegenüber sieht die Terminologiearbeit  von Übersetzern so aus, daß zu einem bestimmten Fachgebiet Texte in den interessierenden Sprachen beschafft werden. Dabei handelt es sich in aller Regel nicht um parallele Texte . Dennoch ist der Übersetzer auf Grund seiner Sprachkenntnis in der Lage, Begriffszuordnungen vorzunehmen, die die eigene Übersetzungsarbeit unterstützen.

Im folgenden soll ein rein assoziativer Ansatz vorgestellt werden, der ebenfalls ohne parallele Texte auskommt. Ausgangspunkt ist die Annahme, daß sich die Assoziationen in unterschiedlichen Sprachen ähneln. Wenn also in einem Text der einen Sprache zwei Wörter A und B häufig gemeinsam vorkommen, dann sollten in einem Text einer anderen Sprache die Übersetzungen von A und B ebenfalls häufig zusammen auftreten. Werden etwa in einem deutschen Text die Wörter Lehrer und Schule besonders häufig im selben Satz verwendet, so ist zu erwarten, daß auch in einem englischen Text die Wörter teacher und school häufig zusammen vorkommen. Daß dies bei parallelen Texten so sein sollte, leuchtet ein, da die meisten Begriffe immer wieder in derselben Weise übersetzt werden. Unter der Annahme, daß sich das gemeinsame Auftreten von Wörtern in guten Übersetzungen nicht allzusehr von dem in Originaltexten unterscheidet, sollte dies aber auch für nicht parallele Texte gelten (vergl. Rapp, 1995 sowie Rapp, Armstrong & Wettler, im Druck).

 

blau grün Himmel Lehrer Pflanze Schule
blau tex2html_wrap_inline24180 tex2html_wrap_inline24180
grün tex2html_wrap_inline24180 tex2html_wrap_inline24180
Himmel tex2html_wrap_inline24180
Lehrer tex2html_wrap_inline24180
Pflanze tex2html_wrap_inline24180
Schule tex2html_wrap_inline24180
Tabelle: Wenn die Reihenfolge der Einträge in der englischen Matrix derjenigen in der deutschen entspricht, befinden sich auch die assoziativen Verbindungen an denselben Matrixpositionen.

blue green plant school sky teacher
blue tex2html_wrap_inline24180 tex2html_wrap_inline24180
green tex2html_wrap_inline24180 tex2html_wrap_inline24180
plant tex2html_wrap_inline24180
school tex2html_wrap_inline24180
sky tex2html_wrap_inline24180
teacher tex2html_wrap_inline24180

blue green sky teacher plant school
blue tex2html_wrap_inline24180 tex2html_wrap_inline24180
green tex2html_wrap_inline24180 tex2html_wrap_inline24180
sky tex2html_wrap_inline24180
teacher tex2html_wrap_inline24180
plant tex2html_wrap_inline24180
school tex2html_wrap_inline24180

 

Welche Folgerungen sich daraus für Assoziationsmatrizen  ergeben, wird in Tabelle gif gezeigt. Die obere Matrix wurde anhand eines deutschen, die mittlere anhand eines englischen Textes erstellt. Starke assoziative Beziehungen werden durch Punkte angezeigt. Die Reihenfolge der Zeilen und Spalten ist willkürlich. Im vorliegenden Fall wurden die Wörter alphabetisch angeordnet. Jede der beiden Matrizen hat aber eine Vielzahl äquivalenter Darstellungsformen, die durch Veränderung der Reihenfolge von Zeilen und/oder Spalten entstehen. In diesem Zusammenhang interessieren besonders diejenigen Darstellungsformen, die dadurch erzeugt werden, daß innerhalb einer Matrix Zeilen und Spalten in gleicher Weise vertauscht werden. Werden also die Zeilen n und m vertauscht, müssen gleichzeitig auch die Spalten n und m vertauscht werden. Sind die Assoziationen der beiden betrachteten Sprachen äquivalent, so wird diejenige Darstellungsform der englischen Matrix eine zur deutschen Matrix identische Anordnung der Punkte innerhalb der Matrix aufweisen, bei der die den einzelnen Zeilen bzw. Spalten zugeordneten Wörter denjenigen der deutschen Matrix entsprechen. Diesen Fall zeigt die dritte Matrix in Tabelle gif.

Werden umgekehrt die Zeilen und Spalten der englischen Matrix so lange vertauscht, bis die Punktanordnung der der deutschen Matrix entspricht, so wird dadurch die Wahrscheinlichkeit vergrößert, daß die den einzelnen Zeilen und Spalten zugeordneten Wörter in der englischen und deutschen Matrix einander entsprechen. Das englische Wort aus Zeile n der englischen Matrix ist dann die Übersetzung des deutschen Wortes aus Zeile n der deutschen Matrix.

Der bislang beschriebene Algorithmus geht von zweiwertigen Assoziationsstärken aus und berücksichtigt nicht, daß Wörter mehrdeutig sein können. Eine allgemeinere Methode wird nachfolgend beschrieben: Die englische Assoziationsmatrix E soll dadurch auf die deutsche Assoziationsmatrix D zurückgeführt werden, daß sie mit einer noch unbekannten Matrix U multipliziert wird.

equation15854

Hierbei wird davon ausgegangen, daß alle drei Matrizen dieselbe Dimensionalität haben. Sind die beiden Ausgangsmatrizen E und D nicht gleich groß, wird die kleinere der beiden mit Nullen aufgefüllt. Die Matrix U sei mit zufälligen Werten vorbelegt. Diese werden nun in kleinen Schritten so lange geändert, bis die sich aus dem Produkt von tex2html_wrap_inline25046 ergebende Matrix der Matrix D möglichst ähnlich ist. Den Einträgen der Matrix U kann anschließend entnommen werden, welche englischen mit welchen deutschen Wörtern korrespondieren. Ergäbe sich etwa für U die Einheitsmatrix, so hieße dies, daß die Reihenfolge der einander entsprechenden Wörter in D und E übereinstimmen.

Die Ähnlichkeit tex2html_wrap_inline25058 der beiden Matrizen wird als die über alle Felder gemittelte Differenz der Assoziationsstärken einander entsprechender Felder definiert.

equation15856

Zwar führt die Anwendung eines solchen Gradienten-Abstiegsverfahren  nicht unbedingt zu einem absoluten Minimum. Dennoch sollten bei geeigneter Vorbelegung von U akzeptable Ergebnisse erzielt werden können. Bei der Vorbelegung von U geht man davon aus, daß die relativen Korpushäufigkeiten (und/oder die Prägnanzwerte, vergl. Kapitel gif) einander entsprechender deutscher und englischer Wörter nicht zu weit auseinander liegen.

Sicherlich sind mit dieser Methode, die fast keine Bedingungen an die verwendeten Texte stellt, keine ebenso guten Ergebnisse zu erwarten, wie mit den auf parallele Texte spezialisierten Algorithmen. Die Weiterverfolgung dieses Ansatzes erscheint jedoch aus zwei Gründen interessant: Zum einen ist es in der Praxis häufig nicht möglich, ausreichende Mengen paralleler Texte zu beschaffen. Zum anderen ließe sich klären, inwieweit die menschliche Fähigkeit, die Übersetzungen von Wörtern zu erschließen, auf reines Assoziieren gegründet ist. Falls dies der Fall ist, wäre zu vermuten, daß auch Personen die Übersetzungen von Wörtern umso leichter erschließen können, je ähnlicher sich die Assoziationen der beiden betrachteten Sprachen sind.


next up previous contents index
Next: Die Vorhersage der Aufeinanderfolge Up: Die maschinelle Generierung von Previous: Wortzuordnung

Reinhard Rapp
Fri Jul 18 19:19:31 MET DST 1997