Arbeitsprogramm

Das Vorhaben gliedert sich insgesamt in zwei Arbeitspakete:

Arbeitspaket 1 hat die Erschließung der zu erfassenden Dialektvarietäten zum Gegenstand und besteht aus mehreren Modulen.
Arbeitspaket 2 dient der Beschreibung der Syntax des Selkupischen.

1. Korpusaufbau, Annotation, Archivierung

Bei der Auswahl der Texte wurde darauf geachtet, dass die Subkorpora (nach dialektalen Gruppen getrennt) hinreichend umfangreich sein müssen, um eine statistisch aussagekräftige Auswertung gewährleisten zu können. In beiden dialektalen Gruppen werden drei Dialekte vertreten sein: Für das Zentralselkupische werden Texte aus den Dialekten Tym-, Narym- und Vasjugan untersucht, Südselkupisch ist mit dem Ket-, Ob- und Tschajadialekt vertreten.

Der Gesamtumfang der Subkorpora ist im Wesentlichen von den erreichbaren Texten bestimmt, nach dem jetzigen Stand enthalten beide Subkorpora jeweils etwa 2.700 Sätze. Neben der Unterteilung in die dialektalen Gruppen wird das Korpus auch nach Textgattungen unterteilt sein.

Die Materialien, die im Korpus genutzt werden sollen, liegen in verschiedenen Formen vor:

noch nicht digitalisierte Papierform
durchsuchbare PDF-Dateien
in Textbearbeitungsprogrammen erstellte Dokumente.

Dies bedeutet, dass folgende Arbeitsschritte notwendig sind: Digitalisierung, linguistische Modellierung, Annotation (dieser Schritt beinhaltet ebenfalls die Glossierung) sowie die Archivierung.

Für das Korpus wurden Texte aus dem Zentralselkupischen und Südselkupischen ausgewogen ausgesucht. Insgesamt liegen 5.376 Sätze vor:

Südselkupisch (mit Ket): 3.674
Zentralselkupisch: 2.314

Für detailliertere Informationen finden Sie unter dem Menüpunkt Korpus eine Textzusammenstellung.

Modul 1: Erfassung der Metadaten

Bei der Inventur der Texte wurden nicht nur die Materialien, sondern auch möglichst umfassende Informationen über deren Herkunft und Inhalt erfasst. In diesem Zusammenhang wird für das Gesamtprojekt ein auf gängigen Standards basierender Metadatenkatalog erstellt, der eine gemeinsame Schnittmenge an Informationen vorgibt (vgl. z.B. Wörner 2012). Die Metadaten ermöglichen neben der Auffindbarkeit der Ressourcen auch die Zusammenstellung von neuen virtuellen Korpora basierend auf in den Metadaten erfassten Gemeinsamkeiten und Unterschieden sowie das Korrelieren von sprachlichen Phänomenen mit zum Beispiel verschiedenen Eigenschaften der Sprecher.

Im Modul 1 werden einerseits Daten über die Sprecher, anderseits Daten über die Transkription erfasst. Bei den Sprechern ist es nötig, Daten über mögliche Migrationen zu sammeln. Im Zuge der Geschichte der Selkupen kam es mehrmals zu Migrationen oder, wie in den 1920er Jahren, zur Deportation (vom Ob nach Napas). Dies hat eine Vermischung der Dialekte zur Folge. Es ist nicht selten, dass ein Sprecher einen gemischten Dialekt spricht beziehungsweise Kasussuffixe von anderen Dialekten benutzt. Folgende Kategorien werden obligatorisch als Minimalanforderung aufgenommen:

Daten über den Sprecher

Name
Abstammung (Vater, Mutter, Großeltern (sofern die Daten vorhanden sind))
Geburtsdatum und -ort
Schulbildung (mit Ortsangaben)
Beruflicher Werdegang
Wohnort(e)
gesprochene Sprachen

Daten über die Transkription (Gesprächsereignisse)

Erhebungszeitpunkt
Erhebungsort
beteiligte Personen
genutzte Sprachen
Eigenschaften der beteiligten Sprecher bzw. Autoren
Genre (+ zusätzliche Informationen über den Inhalt des Textes)

Für die Genres werden folgende Abkürzungen benutzt:

el: elizitierte Daten
nar: narrativer Text
flk: Folkloretext

Übersetzungen aus dem Russischen werden zunächst nicht berücksichtigt. Eine diesbezügliche spätere Ergänzung des Korpus ist aber möglich.

Für die Speicherung der Metadaten wird die Software „EXMARaLDA Corpus Manager“ (Coma[1]) benutzt. Hier werden die Transkriptionen mit den Metadaten verknüpft. Coma bietet die Möglichkeit andere Dateien den Transkriptionen zuzuordnen, im Rahmen dieses Projektes kann das beispielsweise der eingescannte Originaltext sein.

Die Verwaltung der Daten, die das gesamte Korpus betreffen, wird ebenfalls mit Coma erfolgen, außerdem wird Coma genutzt, um die Subkorpora zu erstellen.

Modul 2: Digitalisierung der Materialien

Modul 3: Linguistische Modellierung und Annotation

Hier werden die einfachen Textdokumente in das EXMARaLDA-Datenformat überführt. Hier findet auch - sofern vorhanden - die Alignierung der Audioaufnahmen mit der Transkription statt. Im Projekt werden die Formate des am Hamburger Zentrum für Sprachkorpora (HZSK) entwickelten EXMARaLDA-Systems verwendet. Sie wurden bereits mehrfach für die Arbeit mit einigen anderen Sprachen genutzt und gewährleisten so die sehr gute Eignung für gesprochene Sprachen bestens.

Damit eine grammatische Auswertung des zusammengestellten Korpus erfolgen kann, müssen die Texte annotiert werden. Die vorgesehene Annotation der Transkripte umfasst

morphologische Glossierung
Wortartenbestimmung (Part-of-Speech Tagging)
syntaktische Annotation.

Für die morphologische Glossierung, Wortartenbestimmung und -segmentierung wird das Programm FLEX benutzt, in dem jedes Morph einzeln glossiert wird. Die fertig glossierten Texte werden in den EXMARaLDA Partitur-Editor importiert und dort mit weiteren Annotationen sowie einer englischen Übersetzung versehen. Die bereits publizierten Texte verfügen über eine russische Übersetzung. Um die Zugänglichkeit und Benutzbarkeit der Daten zu erhöhen, wird für sämtliche Texte eine englische Übersetzung angefertigt. Einige Texte sind mit einer deutschen Übersetzung publiziert, in diesem Fall werden sie im Korpus ebenfalls bereitgestellt.

Die syntaktischen Annotationen orientieren sich an den Anforderungen der syntaktischen Beschreibungen und können in den Annotationsrichtlinien nachgelesen werden. Die spätere Ergänzung mit weiterführenden Informationen auf weiteren Annotationsebenen in Hinblick auf andere konkrete Fragestellungen wird durch den Einsatz flexibler Datenformate zur Mehrebenenannotation ermöglicht. Eine mögliche Erweiterung wäre zum Beispiel die Annotation der Informationsstruktur.

Aus den jetzigen Erfahrungen leitet sich ab, dass eine Annotation des Informationsstatus möglich ist, man sich in diesem Stadium aber auf die Kernannotation beschränken muss (vgl. Götze et al. 2007). Eine vollständige Annotation des Korpus wäre zeitlich im Rahmen der Projektlaufzeit nicht zu schaffen.

Modul 4: Archivierung des Korpus

2. Syntaktische Beschreibung

Das zweite Arbeitspaket basiert auf der Auswertung des zusammengestellten Korpus (beziehungsweise der Subkorpora). Es wird, abgesehen von der Eingangsphase, parallel mit Arbeitspaket 1 durchgeführt. Das mit Coma zusammengestellte Korpus kann jederzeit mit „EXAKT“ (EXMARaLDA Analysis and Concordancetool) analysiert werden (vgl. Schmidt und Wörner 2005, Wörner 2010). Dieses Werkzeug ermöglicht die Suche auf verschiedenen Ebenen, beispielsweise:

Transkription
Annotation
Metadaten

Die syntaktische Beschreibung erfolgt basierend auf der Korpussuche systematisch und im Sinne von Haspelmath (2010) theorieneutral (framework-free). Entsprechend den Empfehlungen der modernen Dokumentationslinguistik (vgl. z. B. Himmelmann 1998, Woodbury 2003) wird dabei konsequent auf Belegstellen im verwendeten Korpus verwiesen. Hierbei wird eine eindeutige Identifikation zum Text und zum Satz angegeben (Persistent Identifiers (PID)).

Neben einer erstmals umfassenden Darstellung zur zentral- und südselkupischen Syntax wird das vorhandene Wissen über das Selkupische durch die hier stattfindende Beschreibung erweitert, weil bisher praktisch unerforschte oder wenig erforschte Phänomene zum ersten Mal beschrieben werden können. So wird diese Analyse nicht nur eine korpusbasierte, sondern gleichzeitig auch eine korpusgesteuerte Analyse sein (vgl. dazu Biber 2010, Storjohann 2012).

Bsp. 1: Verwendung unterschiedlicher Kasus in ditransitiven Konstruktionen

Der Rezipient einer ditransitiven Konstruktion kann - ähnlich wie in den obugrischen Sprachen Mansisch und Chantisch - unterschiedlich kodiert werden. Diesbezügliche Beschreibungen des Nordselkupischen (vgl. Kuznecova et al. 1980: 385–388) gehen davon aus, dass die Verteilung der Kodierung des Themas (Patiens) von der Verwendung des Konjugationstyps abhängt. Nach dieser Theorie wird der Rezipient mit Lativ, das sogenannte Thema (Patiens) mit Akkusativ markiert (Typ: indirektiv Ditransitiv), wenn das Verb objektiv konjugiert wird. Wird das Verb allerdings subjektiv konjugiert, wird der Rezipient mit Akkusativ und das Thema mit Instrumental kodiert (Typ: sekundativ Ditransitiv).

Diese Erscheinung wird mit den folgenden Sätze aus dem Nordselkupischen illustriert. Satz (1) zeigt die indirektive Ditransitivkonstruktion, Satz (2) die sekundative Variante.

(1) indirektiv ditransitiv: T-Acc, R-Lat, objektive Konjugation

nɨɨnɨ šɩntɨ püllakɨla-m mi-mpa-tɨ
dann du.lat Stein-acc geben-pst.nar-3sg.obj
‘Dann hat er ihm einen Stein gegeben.’ (Kuznecova et al. 1993: 38/99)

(2) sekundativ ditransitiv: T-Instr, R-Akk, subjektive Konjugation

šıp mi-ŋa qopɨ-sä
1sg.acc geben-co.3sg fell-instr
’Er/Sie hat mir ein Fell gegeben.’ (Kuznecova et al. 1980: 385)

Bereits die erste Sichtung und Auswertung der Textmaterialien zeigt eindeutig, dass die empirischen Daten diese Theorie für die zentral- und südselkupischen Dialekte in keinem Fall unterstützen. Wie die Arbeiten an benachbarten verwandten Sprachen zeigen, müssen hierbei mehrere Faktoren berücksichtigt werden. Alles deutet darauf hin, dass die Objektmarkierung in engem Zusammenhang mit der Topikalisierung steht, die wiederum einen Einfluss auf die Auswahl des Konjugationstyps haben kann. (Über die Ergebnisse ähnlicher Untersuchungen bezüglich der obugrischen Sprachen siehe Sipőcz 2013, 2012, 2011, Skribnik 2001; über die ditransitiven Konstruktionen im Allgemeinen vgl. Malchukov et al. 2010).

Für das Südselkupische wurden bis heute keine entsprechenden Untersuchungen durchgeführt.

Bsp. 2: Unmarkierte Objekte

Bsp. 3: Markierung des Possessors in adnominalen prädikativen Konstruktionen

Zusätzlich könnten die Analysen des Sprachmaterials neue grammatische Konstruktionen im Südselkupischen aufzeigen.

Die bisherigen Beschreibungen (Kuznecoca et al. 1980, Bekker 1995a) postulieren eine genitivische Markierung des Possessors in den adnominalen Possessivkonstruktionen, siehe Satz (5). Die erste Auswertung der Textmaterialien zeigt aber auch andere vorhandene Strukturen. Folgende Konstruktionen stammen aus demselben Text und zeigen die verschiedenen Markierungsmöglichkeiten.

(5) tabɨ-n ńeńńa eeǯal-gwa …
er-gen Schwester sagen-hab.3sg
‘Seine Schwester sagt …‘ (Bajdak et al. 2010: 161/98).

Wie die Sätze (6) und (7) zeigen, kann auch eine lokativische Markierung erscheinen. Im Selkupischen wird der Possessor in prädikativen Possessivsätzen mit dem Lokativ markiert. In den Norddialekten kann eine postpositionale Markierung mit der Postposition nååni erfolgen. Diese Sätze deuten darauf hin, dass die lokativische Markierung im Ob-Dialekt auch in den adnominalen Possessivsätzen möglich ist. Ohne die Auswertung weiterer Texte ist eine detailiertere Beschreibung der Struktur aber nicht möglich.

(6) tab-nan ara-t e-za peege
sie-loc alter.Mann-3sg sein-pst.3sg Haselhuhn
‘Ihr Ehemann war ein Haselhuhn.‘ (Bajdak et al. 2010: 152/60a)

(7) man-naani ii-m kɨga naadɨ-gu
ich-loc.pp Sohn-1sg wollen.3sg heiraten-inf
‘Mein Sohn will heiraten.’ (Bajdak et al. 2010: 145/32a)

Es ist zu erwarten, dass durch die Auswertung eines größeren Korpus nicht nur die oben beschriebenen Phänomene, sondern auch andere Erscheinungen, die möglicherweise noch unentdeckt sind, besser erklärt werden können. Ein zusätzlicher Effekt wäre die sichergestellte Überprüfbarkeit der Daten.

Selkup Language Corpus