Mit den besprochenen Algorithmen zur Satz- und Wortzuordnung werden mit relativ wenig Aufwand praxistaugliche Ergebnisse erzielt. Sie weisen jedoch zwei Nachteile auf: Zum einen werden parallele Texte benötigt, die häufig nicht oder nur schwer in ausreichendem Umfang beschafft werden können. Zum anderen arbeitet der Algorithmus zur Satzzuordnung nur dann zuverlässig, wenn bei der Übersetzung keine größeren Auslassungen, zusätzlichen Textteile oder Umstellungen in der Reihenfolge der Sätze vorgenommen wurden. Davon kann jedoch nicht in allen Fällen ausgegangen werden. So können unterschiedliche Formatierungen in Ausgangstext und Übersetzung dazu führen, daß Tabellen an anderen Positionen im Text plaziert werden, oder es kann beispielsweise die Reihenfolge der Kapitel eines Buches umgestellt werden.
Demgegenüber sieht die Terminologiearbeit von Übersetzern so aus, daß zu einem bestimmten Fachgebiet Texte in den interessierenden Sprachen beschafft werden. Dabei handelt es sich in aller Regel nicht um parallele Texte . Dennoch ist der Übersetzer auf Grund seiner Sprachkenntnis in der Lage, Begriffszuordnungen vorzunehmen, die die eigene Übersetzungsarbeit unterstützen.
Im folgenden soll ein rein assoziativer Ansatz vorgestellt werden, der ebenfalls ohne parallele Texte auskommt. Ausgangspunkt ist die Annahme, daß sich die Assoziationen in unterschiedlichen Sprachen ähneln. Wenn also in einem Text der einen Sprache zwei Wörter A und B häufig gemeinsam vorkommen, dann sollten in einem Text einer anderen Sprache die Übersetzungen von A und B ebenfalls häufig zusammen auftreten. Werden etwa in einem deutschen Text die Wörter Lehrer und Schule besonders häufig im selben Satz verwendet, so ist zu erwarten, daß auch in einem englischen Text die Wörter teacher und school häufig zusammen vorkommen. Daß dies bei parallelen Texten so sein sollte, leuchtet ein, da die meisten Begriffe immer wieder in derselben Weise übersetzt werden. Unter der Annahme, daß sich das gemeinsame Auftreten von Wörtern in guten Übersetzungen nicht allzusehr von dem in Originaltexten unterscheidet, sollte dies aber auch für nicht parallele Texte gelten (vergl. Rapp, 1995 sowie Rapp, Armstrong & Wettler, im Druck).
blau | grün | Himmel | Lehrer | Pflanze | Schule | |
blau | ![]() | ![]() | ||||
grün | ![]() | ![]() | ||||
Himmel | ![]() | |||||
Lehrer | ![]() | |||||
Pflanze | ![]() | |||||
Schule | ![]() |
blue | green | plant | school | sky | teacher | |
blue | ![]() | ![]() | ||||
green | ![]() | ![]() | ||||
plant | ![]() | |||||
school | ![]() | |||||
sky | ![]() | |||||
teacher | ![]() |
blue | green | sky | teacher | plant | school | |
blue | ![]() | ![]() | ||||
green | ![]() | ![]() | ||||
sky | ![]() | |||||
teacher | ![]() | |||||
plant | ![]() | |||||
school | ![]() |
Welche Folgerungen sich
daraus für Assoziationsmatrizen ergeben,
wird in Tabelle gezeigt.
Die obere Matrix wurde anhand eines deutschen, die mittlere anhand
eines englischen Textes erstellt. Starke assoziative
Beziehungen werden durch Punkte angezeigt. Die Reihenfolge der
Zeilen und Spalten ist willkürlich. Im vorliegenden Fall wurden
die Wörter alphabetisch angeordnet. Jede der beiden Matrizen
hat aber eine Vielzahl äquivalenter Darstellungsformen, die
durch Veränderung der Reihenfolge von Zeilen und/oder Spalten
entstehen. In diesem Zusammenhang interessieren besonders diejenigen
Darstellungsformen, die
dadurch erzeugt werden, daß innerhalb einer Matrix
Zeilen und Spalten in gleicher Weise vertauscht werden.
Werden also die Zeilen n und m vertauscht, müssen gleichzeitig
auch die Spalten n und m vertauscht werden. Sind die
Assoziationen der beiden betrachteten Sprachen äquivalent,
so wird diejenige Darstellungsform der englischen Matrix
eine zur deutschen Matrix identische Anordnung der Punkte
innerhalb der Matrix aufweisen,
bei der die den einzelnen Zeilen bzw. Spalten zugeordneten
Wörter denjenigen der deutschen Matrix entsprechen.
Diesen Fall zeigt die dritte Matrix in
Tabelle
.
Werden umgekehrt die Zeilen und Spalten der englischen Matrix so lange vertauscht, bis die Punktanordnung der der deutschen Matrix entspricht, so wird dadurch die Wahrscheinlichkeit vergrößert, daß die den einzelnen Zeilen und Spalten zugeordneten Wörter in der englischen und deutschen Matrix einander entsprechen. Das englische Wort aus Zeile n der englischen Matrix ist dann die Übersetzung des deutschen Wortes aus Zeile n der deutschen Matrix.
Der bislang beschriebene Algorithmus geht von zweiwertigen Assoziationsstärken aus und berücksichtigt nicht, daß Wörter mehrdeutig sein können. Eine allgemeinere Methode wird nachfolgend beschrieben: Die englische Assoziationsmatrix E soll dadurch auf die deutsche Assoziationsmatrix D zurückgeführt werden, daß sie mit einer noch unbekannten Matrix U multipliziert wird.
Hierbei wird davon ausgegangen, daß alle drei Matrizen
dieselbe Dimensionalität haben. Sind die beiden Ausgangsmatrizen
E und D nicht gleich groß, wird die kleinere der beiden
mit Nullen aufgefüllt. Die Matrix U sei mit zufälligen
Werten vorbelegt. Diese werden nun in kleinen Schritten so
lange geändert, bis die sich aus dem Produkt von
ergebende Matrix der Matrix D möglichst ähnlich ist.
Den Einträgen der Matrix U kann anschließend entnommen
werden, welche englischen mit welchen deutschen Wörtern
korrespondieren. Ergäbe sich etwa für U die Einheitsmatrix,
so hieße dies, daß die Reihenfolge der einander entsprechenden
Wörter in D und E übereinstimmen.
Die Ähnlichkeit der beiden Matrizen wird als die über
alle Felder gemittelte Differenz der Assoziationsstärken
einander entsprechender Felder definiert.
Zwar führt die Anwendung eines solchen Gradienten-Abstiegsverfahren nicht
unbedingt zu einem absoluten Minimum. Dennoch sollten bei geeigneter
Vorbelegung von U akzeptable Ergebnisse erzielt werden können. Bei der
Vorbelegung von U geht man davon aus, daß die relativen
Korpushäufigkeiten (und/oder die Prägnanzwerte,
vergl. Kapitel ) einander entsprechender deutscher
und englischer Wörter nicht zu weit auseinander liegen.
Sicherlich sind mit dieser Methode, die fast keine Bedingungen an die verwendeten Texte stellt, keine ebenso guten Ergebnisse zu erwarten, wie mit den auf parallele Texte spezialisierten Algorithmen. Die Weiterverfolgung dieses Ansatzes erscheint jedoch aus zwei Gründen interessant: Zum einen ist es in der Praxis häufig nicht möglich, ausreichende Mengen paralleler Texte zu beschaffen. Zum anderen ließe sich klären, inwieweit die menschliche Fähigkeit, die Übersetzungen von Wörtern zu erschließen, auf reines Assoziieren gegründet ist. Falls dies der Fall ist, wäre zu vermuten, daß auch Personen die Übersetzungen von Wörtern umso leichter erschließen können, je ähnlicher sich die Assoziationen der beiden betrachteten Sprachen sind.