next up previous contents index
Next: Ein Algorithmus zur maschinellen Up: Die maschinelle Generierung von Previous: Die maschinelle Generierung von

Die Bestimmung korrespondierender Sätze in zweisprachigen Texten

Das Problem der automatischen Satzzuordnung wurde in den letzten Jahren von mehreren Arbeitsgruppen angegangen. Die erste allgemein zugängliche Veröffentlichung zu diesem Thema stammt von Brown et al. (1990) vom IBM Thomas J. Watson Research Center. Brown et al. schlagen einen Satzzuordnungsalgorithmus vor, der allein auf einer Satzlängenanalyse beruht. Die Arbeitsweise des Algorithmus wird jedoch nur grob skizziert. Diese Veröffentlichung war Anregung und alleiniger Ausgangspunkt für den im Rahmen dieser Arbeit entwickelten Algorithmus, auf den im nächsten Abschnitt näher eingegangen wird.

In der Zwischenzeit sind jedoch eine Anzahl weiterer Arbeiten zur Satzzuordnung erschienen. Dies ist einerseits eine detailliertere Darstellung der am IBM Thomas J. Watson Research Center durchgeführten Arbeiten (Brown et al., 1991). Die Satzzuordnung wird hierbei ähnlich behandelt wie das aus der Spracherkennung geläufige Problem, ein elektroakustisches Sprachsignal mit einer bekannten Folge von Buchstaben in möglichst optimaler Weise in Übereinstimmung zu bringen. Dabei geht es darum, jedem Buchstaben einen Ausschnitt des Sprachsignales zuzuordnen. In der Spracherkennung gibt es für diese Problemstellung den effizient arbeitenden EM-Algorithmus  (Baum, 1972; Dempster et al., 1977), der eine anfängliche Schätzung (Estimation) der Zuordnungen schrittweise optimiert (Maximization). Die Arbeit von Brown et al. ist eine Adaptation dieses Algorithmus auf das Satzzuordnungsproblem.

Eine weitere Veröffentlichung zur Satzzuordnung stammt von Gale und Church (1991). Hier wird ebenfalls ein Algorithmus verwendet, der allein die Satzlänge berücksichtigt. Diese wird jedoch nicht durch die Anzahl der Wörter, sondern durch die Anzahl der Zeichen in einem Satz gemessen. Die erzielten Ergebnisse werden einer gründlichen Evaluierung unterzogen.

Im Gegensatz zu diesen rein satzlängenbasierten Verfahren steht der schon früh verfolgte, aber lange Zeit nur als interner Bericht vorliegende lexikalische Ansatz von Kay und Röscheisen (1988 und 1993). Hier wird zunächst untersucht, welche Wörter des Ausgangstextes mit welchen Wörtern der Übersetzung korrelieren, und auf der Basis dieser Korrelation wird eine zunächst grobe Satzzuordnung vorgenommen, die durch Wiederholung des Vorganges verbessert wird. Bei dieser Vorgehensweise wird ein wesentlich größerer in den Texten steckender Informationsgehalt genutzt als bei den rein satzlängenbasierten Verfahren. Zudem wird gleichzeitig eine Wortzuordnung erreicht. Der erforderliche Rechenaufwand ist allerdings erheblich größer.

Nachdem mit dem Erscheinen der ersten Publikationen zur Satzzuordnung erkennbar wurde, daß mit den vorgeschlagenen statistischen Verfahren in der Praxis nützliche Resultate erzielt werden können, entstanden eine Vielzahl weiterer Veröffentlichungen mit verbesserten Algorithmen. Hierzu gehören Chen (1993), Church (1993), Dagan, Church & Gale (1993), Gale & Church (1993), Kupiec (1993), Matsumoto et al. (1993), Rapp (1994) und Schütze (1993c).


next up previous contents index
Next: Ein Algorithmus zur maschinellen Up: Die maschinelle Generierung von Previous: Die maschinelle Generierung von

Reinhard Rapp
Fri Jul 18 19:19:31 MET DST 1997