next up previous contents index
Next: Anwendungen Up: Die Vorhersage der Aufeinanderfolge Previous: Ein Algorithmus zur assoziativen

 

Familiarität von Texten

Im vorigen Abschnitt wurde eine Methode vorgestellt, wie die Wörter eines sehr umfangreichen Wortschatzes nach ihrer Eignung für die Ergänzung einer Textlücke in eine Rangfolge gebracht werden können. Hierauf aufbauend sollen nun beliebigen Texten, insbesondere einzelnen Sätzen, Bewertungen zugeordnet werden, die eine Aussage darüber machen, wie wahrscheinlich das Auftreten des jeweiligen Satzes ist. In der Regel wird man hierbei davon ausgehen können, daß syntaktisch und semantisch richtigen Sätzen bessere Werte zugeordnet werden als falschen.

Die Vorgehensweise beruht auf dem Gedanken, daß einem Satz dann eine günstige Bewertung zugeordnet wird, wenn die einzelnen im Satz enthaltenen Wörter jeweils möglichst gut prognostizierbar sind. Der Algorithmus arbeitet wie folgt: Der Satz wird nacheinander an jeder Wortposition mit einer Lücke versehen und für jede Lücke wird wie im vorigen Abschnitt beschrieben eine sortierte Wortliste berechnet. Der Rangplatz des jeweils ausgelassenen Wortes wird bestimmt. Die Bewertung des Satzes ergibt sich aus dem Mittelwert dieser Rangplätze. Dieser Wert wird im weiteren als Familiarität M bezeichnet. Ein niedriger Wert für M deutet auf eine hohe Auftretenswahrscheinlichkeit eines Satzes hin. Diese Vorgehensweise soll am Beispiel des Satzes ``the word has seven letters'' dargestellt werden:

tex2html_wrap_inline23685 word has seven letters Rangplatz von the: 1
the tex2html_wrap_inline23685 has seven letters Rangplatz von word: 98
the word tex2html_wrap_inline23685 seven letters Rangplatz von has: 8
the word has tex2html_wrap_inline23685 letters Rangplatz von seven: 208
the word has seven tex2html_wrap_inline23685 Rangplatz von letters: 81
Mittlerer Rangplatz M: 79.2

Die für diesen Satz ermittelte Familiarität erlaubt für sich allein genommen noch keine Interpretation. Deshalb werden anhand der folgenden Referenztexte  Vergleichsmöglichkeiten geschaffen:

  1. Ein Textauszug aus dem Teil von Grolier's Electronic Encyclopedia, der nicht als Textkorpus zur Ermittlung der Wortfolgenhäufigkeiten verwendet wurde.
  2. Derselbe Text, dessen Wörter jedoch mit Hilfe eines Zufallsgenerators in eine zufällige Reihenfolge gebracht wurden.
  3. Ein Textauszug aus dem für die Ermittlung der Wortfolgenhäufigkeiten verwendeten Textkorpus.
  4. Ein Textauszug aus den Abstracts einer psychologischen Datenbank.

   figure16093
Abbildung: Die Familiarität M von Referenztext 1 in Abhängigkeit des Parameters P.

Die Referenztexte 1, 3 und 4 wurden in einer Länge von etwa 250 Wörtern aus den ersten in der jeweils verwendeten Textbasis gefundenen Sätzen zusammengestellt, die folgende beiden Bedingungen erfüllten: Um einen ausreichenden Kontext für jedes Wort zu garantieren, mußte die Mindestlänge der Sätze 30 Wörter betragen. Weiterhin sollten alle in den Sätzen vorkommenden Wörter im verwendeten Textkorpus ausreichend repräsentiert sein. Hierfür wurde eine minimale Korpushäufigkeit von 100 festgelegt. Diese Mindesthäufigkeit wurde von insgesamt 7102 unterschiedlichen Wörtern erreicht.

Mittels Referenztext 1 wurde zunächst der Parameter P aus Gleichung gif experimentell optimiert. Die Entwicklung der Familiarität M dieses Textes in Abhängigkeit von P ist in Abb. gif dargestellt. Das Minimum der Kurve wird für Werte von P=100 und größer erreicht. Dies bedeutet, daß sich - wie erwartet - eine höhere Gewichtung langer Wortfolgen gegenüber kürzeren als günstig erweist. Alle nachfolgenden Untersuchungen werden mit P = 100 durchgeführt.

Für diese Festlegung des freien Parameters P ergeben sich für die Referenztexte 1 bis 4 folgende Werte für die Familiarität M:

Referenztext 1: 196,49
Referenztext 2: 2517,13
Referenztext 3: 1,01
Referenztext 4: 539,35

Diese Werte können wie folgt interpretiert werden: Der Wert von 1,01 für Referenztext 3 bedeutet, daß einmal eingelesene Sätze zu fast 100 Prozent wieder reproduziert werden können, d. h. daß ein Gedächtniseffekt existiert. Wird dem System die Aufgabe gestellt, einen bekannten Text, dessen Anfang vorgegeben wurde, fortzuführen, so wird es diese Aufgabe dadurch lösen, daß der Text entsprechend dem früher eingelesenen fortgesetzt wird. Ist der Textanfang mehrdeutig, so wird es mit demjenigen Text fortfahren, der öfter eingelesen wurde.

   figure16133
Abbildung: Die Familiarität M von Referenztext 1 in Abhängigkeit von der Korpuslänge L (Millionen Wörter).

Der Wert von 196,49 für Referenztext 1 ist im Vergleich zum Wert von 2517 für denselben Text mit zufälliger Wortreihenfolge zu sehen. Er zeigt, daß ein korrekter Text gegenüber einer zufälligen Folge von Wörtern besser bewertet wird. Daß auch der Zufallstext eine den Erwartungswert (dieser ergibt sich als die Anzahl der Wörter im Vokabular geteilt durch zwei, also 56 809 / 2) übertreffende Familiarität erhält, liegt daran, daß entsprechend der Textauswahl fast nur häufige Wörter enthalten sind. Der stilistisch und inhaltlich im Vergleich zu Text 1 völlig andersartige Referenztext 4 hat mit einer Familiarität von 539,35 einen wesentlich besseren Wert als Referenztext 2. Dies bedeutet, daß für die jeweilige Sprache eine Generalisierung erzielt wird.

   figure16177
Abbildung: Die Familiarität M von Referenztext 1 in Abhängigkeit von der maximalen Wortfolgenlänge K (Anzahl Wörter).

Um eine Abschätzung zu erhalten, wie umfangreich das der Bewertung zugrundeliegende Textkorpus sein sollte, wurde für Referenztext 1 die Abhängigkeit der Familiarität von der Korpuslänge ermittelt (vergl. Abb. gif). Es zeigt sich, daß bei einer Vergrößerung des Korpus keine wesentliche Verbesserung der Familiaritätswerte zu erwarten ist.

Bei der Ermittlung der Korpushäufigkeiten von Wortfolgen (vergl. Tabelle gif) wurde bislang die maximale Länge der Wortfolgen willkürlich auf 20 Wörter begrenzt. Da sich Wortfolgen dieser Länge wohl nur in den seltensten Fällen wiederholen werden, scheint dieser Wert eher hoch gegriffen zu sein. Um hier eine genauere Aussage machen zu können, wurde die maximale Wortfolgenlänge versuchsweise verkürzt, das heißt, Wortfolgen ab einer festgesetzten Länge wurden nicht mehr berücksichtigt. In Abbildung gif wurde die Familiaritätsfunktion M für Referenztext 1 in Abhängigkeit von der maximalen Wortfolgenlänge aufgetragen. Es zeigt sich, daß bereits mit Worttripeln gute Werte erzielt werden können, und daß sich ab einer Wortfolgenlänge von fünf praktisch keine Verbesserung mehr ergibt. Dies bedeutet, daß das Verfahren in erster Linie Abhängigkeiten im Bereich kurzer Wortabstände erfaßt. Damit eignet es sich am ehesten für die syntaktische Analyse eines Textes, für die in vielen Fällen die Betrachtung der direkten Wortnachbarschften genügt.


next up previous contents index
Next: Anwendungen Up: Die Vorhersage der Aufeinanderfolge Previous: Ein Algorithmus zur assoziativen

Reinhard Rapp
Fri Jul 18 19:19:31 MET DST 1997