next up previous contents index
Next: Zeitungstexte Up: Texte in englischer Sprache Previous: Texte in englischer Sprache

Annotierte Korpora

Brown-Korpus  (1 Million Wortformen). Repräsentativer Querschnitt durch die amerikanische Schriftsprache (Kucera & Francis, 1967). Jedes Wort ist mit einer Wortklassen-Markierung versehen. Das verwendete Wortklassen-System wird von Greene & Rubin (1971) detailliert beschrieben. Bezugsquelle: Text Research Inc. Kosten: 1000 US$ für akademische, 10 000 US$ für kommerzielle Nutzer.

LOB-Korpus  (1 Million Wortformen). Dem Brown-Korpus nachempfundener repräsentativer Querschnitt durch die englische Schriftsprache. Jedes Wort ist mit einer Wortklassen-Markierung versehen. Es handelt sich um ein gegenüber dem Brown-Korpus modifiziertes Wortklassen-System. Bezugsquelle: International Computer Archive of Modern English. Kosten: 1500 Norwegische Kronen.

Penn Treebank  (61 MB). Texte des Wall Street Journal und aus anderen Quellen wurden mit dem von Church (1988) entwickelten Tagger mit Wortartenmarkierungen versehen. Für einen Teil der Texte wurden mit Hilfe eines Syntax-Parsers Parse-Trees erstellt. Bezugsquelle: ACL/DCI CD-ROM 1. Kosten: 25 US$ einschließlich weiterer auf der CD-ROM enthaltener Texte.



Reinhard Rapp
Fri Jul 18 19:19:31 MET DST 1997