Datenaufbereitung
Die Aufbereitung der Korpustexte umfasst die Transkription und die Annotation mit Wortart, Morphologie und Lemma. Für beide Schritte wurden im Projekt Richtlinien ausgearbeitet, die sukzessive weiterentwickelt wurden. Jede veröffentlichte Korpusversion enthält die zum Zeitpunkt der Publikation aktuellen Richtlinien (vgl. z.B. die Version ReN 1.1).
Die aktuellen Versionen der Richtlinien finden sich hier:
- Transkriptionsrichtlinien (PDF)
- Annotationsrichtlinien
Transkription
Die Texte des ‚Referenzkorpus Mittelniederdeutsch/Niederrheinisch (1200-1650)‘ werden als Volltexte bzw. bis zu einem Umfang von ca. 20.000 Wortformen aufgenommen. Sie werden buchstabengetreu transkribiert. Abbreviaturen werden kenntlich gemacht, der Zeilen-, Spalten-, Seiten- und Blattanfang wird jeweils markiert und Interpunktionszeichen sowie die Groß- und Kleinschreibung orientieren sich an der jeweils vorliegenden Handschrift bzw. dem jeweils vorliegenden Druck.
Im Anschluss an die Transkription erfolgen für die grammatische Annotation notwendige Vorarbeiten. Hierzu zählen die Bestimmung von Satzgrenzen sowie die Normalisierung der Getrennt- und Zusammenschreibung (Präeditierung).
Die Transkriptionen lassen sich in ANNIS einsehen und sind über die Textliste (document browser) erreichbar (vgl. die Anleitung zur ANNIS-Oberfläche). Das Laden der Transkriptionen kann je nach Text sehr lange dauern. Dies ist ein bekanntes Problem, an dessen Lösung gearbeitet wird.
Annotation
Die grammatische Annotation im Projekt besteht aus einer PoS-Annotation (Wortarten) und einer flexionsmorphologischen Annotation. Beides erfolgt halbautomatisch, d. h., dass die Ergebnisse eines automatischen Taggers manuell korrigiert werden.
Das der Annotation zugrundegelegte Tagset orientiert sich zum Zwecke paralleler Suchabfragen in den anderen Referenzkorpora (Altdeutsch, Mittelhochdeutsch und Frühneuhochdeutsch) an dem Tagset für historische Sprachstufen des Deutschen (kurz: HiTS, Dipper et al. 2013) (PDF), das auf STTS (Stuttgart-Tübingen-Tagset) basiert.
Die Daten im Projekt ‚Referenzkorpus Mittelniederdeutsch/Niederrheinisch (1200-1650)‘ werden außerdem lemmatisiert. Die Lemmatisierung erfolgt computergestützt auf der Grundlage einer am Projektstandort Münster digitalisierten Lemmaliste.
Die manuelle Korrektur der Annotation wird mit dem in Bochum entwickelten Tool CorA (Bollmann et al. 2014) (PDF) durchgeführt.