next up previous contents index
Next: Wortzuordnung Up: Die maschinelle Generierung von Previous: Dynamische Programmierung

Ergebnisse bei der Satzzordnung

Der Zuordnungsalgorithmus wurde auf deutsch- und englischsprachig vorliegende Literatur-Abstracts im Gesamtumfang von etwa zwei Millionen Wörtern angewandt, die der psychologischen Datenbank Psyndex entnommen wurden. Da die Abstracts jeweils paarweise vorlagen und selten länger als 20 Sätze waren, war eine hierarchische Vorgehensweise nicht erforderlich, und die Aufgabe beschränkte sich auf die Satzzuordnung für jeweils ein Paar der Abstracts.

Da das Problem der maschinellen Erkennung der Satzgrenzen noch keineswegs allgemeingültig gelöst ist (vergl. Gale & Church, 1993), wird der hier verwendete Algorithmus kurz skizziert. Unbedingte Satztrenner sind die folgenden Zeichen: `!', `?', `:' und `;'. Der Punkt wird nur dann als Satztrenner angesehen, wenn zusätzlich folgende Bedingungen erfüllt sind:

Der Rechenaufwand für die Zuordnung der so definierten Sätze erwies sich als relativ gering. Auf einer UNIX-Workstation mit einer Rechenleistung von 12 Millionen Instruktionen und 1,5 Millionen Fließkommaoperationen pro Sekunde betrug die Rechenzeit knapp sieben Stunden. Eine stichprobenartige Auswertung ergab, daß nur etwa 3 Prozent der erhaltenen Satzzuordnungen falsch waren. Zudem zeigte es sich, daß bei den meisten Falschzuordnungen Ausgangssatz und zugeordnete Sätze eine starke Längendifferenz aufwiesen. Wurden alle Zuordnungen aussortiert, bei denen die einander zugeordneten Sätze einen Längenunterschied von mehr als 25% aufwiesen, so reduzierte sich die Fehlerrate unter den verbleibenden Zuordnungspaaren auf unter 1 Prozent.



Reinhard Rapp
Fri Jul 18 19:19:31 MET DST 1997