next up previous contents index
Next: Die numerische Kodierung von Up: Technische Realisierung der Simulationsprogramme Previous: Programmiersprache

Algorithmen

Die elementarsten Grundoperationen in den Algorithmen zur statistischen Textanalyse bestehen darin, daß Wörter gespeichert oder auf Identität verglichen werden. Üblicherweise liegen die Wörter im Rechner als ASCII-kodierte Zeichenketten vor, deren Länge stark variieren kann. Die richtige Behandlung dieser variablen Längen bedingt bei der Speicherung eines Wortes einen zusätzlichen Aufwand an Speicherplatz und/oder Rechenzeit im Vergleich zur Behandlung von Datentypen konstanter Länge. Beispielsweise müssen für die Prüfung zweier Wörter auf Identität nacheinander alle Buchstabenpaare verglichen werden, die an einander entsprechenden Positionen im Wort stehen. Es sind also mehrere Vergleichsoperationen nötig.

So einfach entsprechende Algorithmen auch sein mögen, millionenfach angewandt nehmen sie viel Zeit in Anspruch. Einen entscheidenden Vorteil bringt hier die Kodierung der Wörter als ganze Zahlen. Jedem Wort eines Vokabulars wird ein eineindeutiger ganzzahliger Wert zugewiesen, der beispielsweise der Position des Wortes in einer alphabetisch sortierten Liste des Vokabulars entsprechen kann. Durch diese Kodierung haben alle Wörter einen einheitlichen Speicherplatzbedarf und Vergleichsoperationen beschränken sich auf einen einzigen Befehl. Ein angenehmer Nebeneffekt dieser Art der Kodierung ist, daß der Speicherplatzbedarf von Texten reduziert wird.

Es werden jedoch zwei zusätzliche Schritte erforderlich: Zum einen müssen alle zu bearbeitenden Texte zunächst in die kodierte Form übersetzt werden. Zum anderen müssen alle Ausgaben des Systems wieder dekodiert werden, damit sie für den Benutzer lesbar sind.





Reinhard Rapp
Fri Jul 18 19:19:31 MET DST 1997