next up previous contents index
Next: Simulation Up: Versuchsdurchführung Previous: Die Recherche-Protokolle

Textkorpus und Vokabular

Zur Vorhersage von Suchwörtern für das Recherchieren in einer psychologischen Datenbank erschien es sinnvoll, ein domainspezifisches Textkorpus zu verwenden. Zur Bestimmung der Kookkurrenzhäufigkeiten zwischen den Wörtern wurde deshalb ein Korpus mit psychologischen Texten verwendet. Dieses wurde im Umfang von etwa 30 Millionen Wörtern aus den knapp 250 000 Abstracts der Datenbank PsycLIT (Ausgabe 1989) erstellt. Diese stellt alle Einträge der amerikanischen Datenbank PsycINFO, die sich auf Zeitschriftenartikel beziehen, auf CD-ROM zur Verfügung.

Um den Bedarf an Rechenleistung den vorhandenen Geräten anzupassen, wurden in der Simulation nicht alle im Textkorpus vorkommenden Wörter berücksichtigt, sondern es wurde mit einem eingeschränkten Vokabular gearbeitet. Bei der Festlegung des Vokabulares sollten alle in den Rechercheprotokollen vorkommenden Wörter (ohne die Befehle der Abfragesprache) berücksichtigt werden. Ein Problem bestand darin, daß die Problembeschreibungen teilweise in deutscher Sprache abgefaßt waren. In den Queries, die im Hinblick auf amerikanische Datenbanken erstellt worden waren, wurden hingegen überwiegend englische Begriffe verwendet. Deshalb wurden von Wettler und Ferber (Ferber, Wettler & Rapp, im Druck) jeweils englische und deutsche Wörter mit derselben Bedeutung zu einem Begriff zusammengefaßt. Sofern ein zusammengesetztes deutsches Wort (etwa Sozialarbeit) durch mehrere englische Wörter übersetzt werden muß (social work), wurde das deutsche Wort in entsprechender Weise aufgespalten und die Teilwörter wurden verschiedenen Begriffen zugeordnet. Da verschiedene Flexionsformen desselben Wortes nicht unterschieden werden sollten, wurden auch diese mit aufgenommen. Insgesamt wurden 2399 Wortformen auf 872 Begriffe reduziert. Nachfolgend einige Beispiele: ABHÄNGIGKEIT DEPENDENCIES DEPENDENCY DEPENDENT INTERDEPENDENCE
ABILITY ABILITIES FÄHIGKEIT FÄHIGKEITEN
ALLEIN ALONE
ALLGEMEIN ALLGEMEINE ALLGEMEINEN ALLGEMEINES COMMON
AND UND
ANTWORT BEANTWORTUNG RESPONSE RESPONSES
ANWENDUNG ANGEWENDET APPLICATION APPLICATIONS APPLIED EINSATZ
ANFALL ANFÄLLE ATTACK ATTACKE ATTACKS INFARKT
AUFGABE AUFGABEN TASK TASKS
BEISPIEL BSP EXAMPLE EXAMPLES



Reinhard Rapp
Fri Jul 18 19:19:31 MET DST 1997