• Zur Metanavigation
  • Zur Hauptnavigation
  • Zur Suche
  • Zum Inhalt
  • Zur Subnavigation
  • Zum Seitenfuß
  • Universität Hamburg
  • Presse
  • KUS-Portal0
  • STiNE
https://www.kus.uni-hamburg.de/aktuelles.json?recentnews=true
  • Einrichtungen und Zielgruppen
    • Einrichtungen
      • Fakultäten

        • Fakultät für Rechtswissenschaft
        • Fakultät für Wirtschafts- und Sozialwissenschaften
        • Medizinische Fakultät
        • Fakultät für Erziehungswissenschaft
        • Fakultät für Geisteswissenschaften
        • Fakultät für Mathematik, Informatik und Naturwissenschaften
        • Fakultät für Psychologie und Bewegungswissenschaft
        • University of Hamburg Business School
      • Dienste

        • STiNE
        • Surfmail
        • Exchange
        • KUS-Portal
        • eLearning-Plattformen
        • Katalogplus
        • SharePoint
      • Einrichtungen für Studierende

        • Campus-Center
        • Career-Center
        • PIASTA
        • AStA
        • Hochschulsport
        • Universitätsmusik
        • Familienbüro
        • Sprachenzentrum
        • Allgemeinsprachen
        • Koordination der Belange von Studierenden mit Beeinträchtigungen
        • Bibliotheken
      • Weitere Einrichtungen

        • Exzellenzcluster CLICCS
        • Exzellenzcluster CUI
        • Exzellenzcluster Quantum Universe
        • Exzellenzcluster Understanding Written Artefacts
        • Hamburg Research Academy
        • Pier Plus
        • Hamburger Zentrum für Universitäres Lehren und Lernen (HUL)
        • ISA-Zentrum
        • Centrum für Erdsystemforschung und Nachhaltigkeit (CEN)
        • Museen und Sammlungen
        • Universitätsarchiv
        • Regionales Rechenzentrum
        • Präsidialverwaltung
        • Transferagentur
        • Unikontor
    • Zielgruppen

      • Studieninteressierte
      • Studierende
      • Internationale
      • Promovierende
      • Forschende
      • Lehrende
      • Beschäftigte (KUS)
      • Weiterbildungsinteressierte
      • Alumni
      • Presse
      • Geflüchtete
    Schließen
  • Gebärdensprache
  • Leichte Sprache
  • /slc/sitemap.json
    GebärdenspracheLeichte Sprache
Universität Hamburg - der Forschung, der Lehre, der Bildung, zur Homepage
Selkup Language Corpus
Selkup Language Corpus (SLC)
  • Über SLC
    • Aktuelles
    • Projekt
    • Publikationen und Vorträge
  • Korpus
    • HZSK
    • SLC-Archiv
    • Textbeispiele
    • Orthographie
    • Annotationsrichtlinien
  • Selkupen
    • Geographie
    • Sprache
    • Forschung
  • Personen
  • Service
  • Kontakt

Foto: Aleksandr Popov

  1. UHH
  2. Fakultät GW
  3. Fachbereiche SLM I + II
  4. SLC
  5. Über SLC
  6. Projekt
  7. Arbeitsprogramm

Arbeitsprogramm

Das Vorhaben gliedert sich insgesamt in zwei Arbeitspakete:

  • Arbeitspaket 1 hat die Erschließung der zu erfassenden Dialektvarietäten zum Gegenstand und besteht aus mehreren Modulen.
  • Arbeitspaket 2 dient der Beschreibung der Syntax des Selkupischen.

1. Korpusaufbau, Annotation, Archivierung

Bei der Auswahl der Texte wurde darauf geachtet, dass die Subkorpora (nach dialektalen Gruppen getrennt) hinreichend umfangreich sein müssen, um eine statistisch aussagekräftige Auswertung gewährleisten zu können. In beiden dialektalen Gruppen werden drei Dialekte vertreten sein: Für das Zentralselkupische werden Texte aus den Dialekten Tym-, Narym- und Vasjugan untersucht, Südselkupisch ist mit dem Ket-, Ob- und Tschajadialekt vertreten.

Der Gesamtumfang der Subkorpora ist im Wesentlichen von den erreichbaren Texten bestimmt, nach dem jetzigen Stand enthalten beide Subkorpora jeweils etwa 2.700 Sätze. Neben der Unterteilung in die dialektalen Gruppen wird das Korpus auch nach Textgattungen unterteilt sein.

Die Materialien, die im Korpus genutzt werden sollen, liegen in verschiedenen Formen vor:

  • noch nicht digitalisierte Papierform
  • durchsuchbare PDF-Dateien
  • in Textbearbeitungsprogrammen erstellte Dokumente.

Dies bedeutet, dass folgende Arbeitsschritte notwendig sind: Digitalisierung, linguistische Modellierung, Annotation (dieser Schritt beinhaltet ebenfalls die Glossierung) sowie die Archivierung.

Für das Korpus wurden Texte aus dem Zentralselkupischen und Südselkupischen ausgewogen ausgesucht. Insgesamt liegen 5.376 Sätze vor:

  • Südselkupisch (mit Ket): 3.674
  • Zentralselkupisch: 2.314

Für detailliertere Informationen finden Sie unter dem Menüpunkt Korpus eine Textzusammenstellung.

Modul 1: Erfassung der Metadaten

Bei der Inventur der Texte wurden nicht nur die Materialien, sondern auch möglichst umfassende Informa­tionen über deren Herkunft und Inhalt erfasst. In diesem Zusammenhang wird für das Gesamtprojekt ein auf gängigen Standards basierender Metadatenkatalog erstellt, der eine gemeinsame Schnittmenge an Informationen vorgibt (vgl. z.B. Wörner 2012). Die Metadaten ermöglichen neben der Auffind­bar­keit der Ressourcen auch die Zusammenstellung von neuen virtuellen Korpora basierend auf in den Metadaten erfassten Gemeinsamkeiten und Unterschieden sowie das Korrelieren von sprachlichen Phänomenen mit zum Beispiel verschiedenen Eigenschaften der Sprecher.

Im Modul 1 werden einerseits Daten über die Sprecher, anderseits Daten über die Transkription erfasst. Bei den Sprechern ist es nötig, Daten über mögliche Migrationen zu sammeln. Im Zuge der Geschichte der Selkupen kam es mehrmals zu Migrationen oder, wie in den 1920er Jahren, zur Deportation (vom Ob nach Napas). Dies hat eine Vermischung der Dialekte zur Folge. Es ist nicht selten, dass ein Sprecher einen gemischten Dialekt spricht beziehungsweise Kasussuffixe von anderen Dialekten benutzt. Folgende Kategorien werden obligatorisch als Minimalanforderung aufgenommen:

Daten über den Sprecher

  • Name
  • Abstammung (Vater, Mutter, Großeltern (sofern die Daten vorhanden sind))
  • Geburtsdatum und -ort
  • Schulbildung (mit Ortsangaben)
  • Beruflicher Werdegang
  • Wohnort(e)
  • gesprochene Sprachen

 Daten über die Transkription (Gesprächsereignisse)

  • Erhebungszeitpunkt
  • Erhebungsort
  • beteiligte Personen
  • genutzte Sprachen
  • Eigenschaften der beteiligten Sprecher bzw. Autoren
  • Genre (+ zusätzliche Informationen über den Inhalt des Textes)

 Für die Genres werden folgende Abkürzungen benutzt:

  • el: elizitierte Daten
  • nar: narrativer Text
  • flk: Folkloretext

Übersetzungen aus dem Russischen werden zunächst nicht berücksichtigt. Eine diesbezügliche spätere Ergänzung des Korpus ist aber möglich.

Für die Speicherung der Metadaten wird die Software „EXMARaLDA Corpus Manager“ (Coma[1]) benutzt. Hier werden die Transkriptionen mit den Metadaten verknüpft. Coma bietet die Möglichkeit andere Dateien den Transkriptionen zuzuordnen, im Rahmen dieses Projektes kann das beispielsweise der eingescannte Originaltext sein.

Die Verwaltung der Daten, die das gesamte Korpus betreffen, wird ebenfalls mit Coma erfolgen, außerdem wird Coma genutzt, um die Subkorpora zu erstellen. 

Modul 2: Digitalisierung der Materialien

In diesem Arbeitsschritt werden sämtliche Texte nach dem Einscannen und - sofern möglich - unter Einsatz von auto­matischer Schrifterkennungssoftware über­prüft und gegebenenfalls ergänzt und so in einen bearbeitbaren Text transformiert. In einigen Fällen (zum Beispiel im Falle von älteren, schlecht lesbaren Publikationen) muss der Text händisch abgetippt werden.

Bei der Digitalisierung der Daten wird eine IPA-basierte phonologische Transkription verwendet. Damit nimmt das Projekt Abstand von der in Uralistik benutzten FUT-basierten phonetischen Transkription. Bei dieser Arbeit muss ein konsequenter Vereinheitlichungsprozess ablaufen, damit die Durchsuchbarkeit sichergestellt werden kann. Zum Beispiel wird anstelle von mehreren möglichen Schreibweisen für [ʒ] – <ǯ> und <ž> – nur die Variante aus dem IPA benutzt.

Der Originaltext in Form eines PDFs wird im Corpusmanager der Transkription beigefügt.

Modul 3: Linguistische Modellierung und Annotation

Hier werden die einfachen Textdokumente in das EXMARaLDA-Datenformat überführt. Hier findet auch - sofern vorhanden - die Alignierung der Audioaufnahmen  mit der Transkription statt. Im Projekt werden die Formate des am Hamburger Zentrum für Sprachkorpora (HZSK) entwickelten EXMARaLDA-Systems verwendet. Sie wurden bereits mehrfach für die Arbeit mit einigen anderen Sprachen genutzt und gewährleisten so die sehr gute Eignung für gesprochene Sprachen bestens.

Damit eine grammatische Auswertung des zusammengestellten Korpus erfolgen kann, müssen die Texte annotiert werden. Die vorgesehene Annotation der Transkripte umfasst

  • morphologische Glossierung
  • Wortartenbestimmung (Part-of-Speech Tagging)
  • syntaktische Annotation.

Für die morphologische Glossierung, Wortartenbestimmung und -segmentierung wird das Programm FLEX benutzt, in dem jedes Morph einzeln glossiert wird. Die fertig glossierten Texte werden in den EXMARaLDA Partitur-Editor importiert und dort mit weiteren Annotationen sowie einer englischen Übersetzung versehen. Die bereits publizierten Texte verfügen über eine russische Übersetzung. Um die Zugänglichkeit und Benutzbarkeit der Daten zu erhöhen, wird für sämtliche Texte eine englische Übersetzung angefertigt. Einige Texte sind mit einer deutschen Übersetzung publiziert, in diesem Fall werden sie im Korpus ebenfalls bereitgestellt.

Die syntaktischen Annotationen orientieren sich an den Anforderungen der syntaktischen Beschreibungen und können in den Annotationsrichtlinien nachgelesen werden. Die spätere Ergänzung mit weiterführenden Informationen auf weiteren Annotationsebenen in Hinblick auf andere konkrete Fragestellungen wird durch den Einsatz flexibler Datenformate zur Mehrebenenannotation ermöglicht. Eine mögliche Erweiterung wäre zum Beispiel die Annotation der Informationsstruktur.

Aus den jetzigen Erfahrungen leitet sich ab, dass eine Annotation des Informationsstatus möglich ist, man sich in diesem Stadium aber auf die Kernannotation beschränken muss (vgl. Götze et al. 2007). Eine vollständige Annotation des Korpus wäre zeitlich im Rahmen der Projektlaufzeit nicht zu schaffen.

Modul 4: Archivierung des Korpus

Wie schon im Modul 1 beschrieben, werden die im Projekt bearbeiteten Transkriptionen mithilfe des „EXMARaLDA Corpus Manager“ (Coma) strukturiert, indem sie mitsamt ihren jeweiligen Metadaten und den Beziehungen zwischen ihnen erfasst werden. Im Einzelnen sind das:

  • Trans­kripte
  • Vorhandene Aufnahmen
  • Weitere Materialien (wie Scans)
  • Sprecher
  • Aufnahmesituationen

2. Syntaktische Beschreibung

Das zweite Arbeitspaket basiert auf der Auswertung des zusammengestellten Korpus (beziehungsweise der Subkorpora). Es wird, abgesehen von der Eingangsphase, parallel mit Arbeitspaket 1 durchgeführt. Das mit Coma zusammengestellte Korpus kann jederzeit mit „EXAKT“ (EXMARaLDA Analysis and Concordancetool) analysiert werden (vgl. Schmidt und Wörner 2005, Wörner 2010). Dieses Werkzeug ermöglicht die Suche auf verschiedenen Ebenen, beispielsweise:

  • Transkription
  • Annotation
  • Metadaten

Die syntaktische Beschreibung erfolgt basierend auf der Korpussuche systematisch und im Sinne von Haspelmath (2010) theorieneutral (framework-free). Entsprechend den Empfehlungen der modernen Dokumentationslinguistik (vgl. z. B. Himmelmann 1998, Woodbury 2003) wird dabei konsequent auf Belegstellen im verwendeten Korpus verwiesen. Hierbei wird eine eindeutige Identifikation zum Text und zum Satz angegeben (Persistent Identifiers (PID)).

Neben einer erstmals umfassenden Darstellung zur zentral- und südselkupischen Syntax wird das vorhandene Wissen über das Selkupische durch die hier stattfindende Beschreibung erweitert, weil bisher praktisch unerforschte oder wenig erforschte Phänomene zum ersten Mal beschrieben werden können. So wird diese Analyse nicht nur eine korpusbasierte, sondern gleichzeitig auch eine korpusgesteuerte Analyse sein (vgl. dazu Biber 2010, Storjohann 2012).

Bsp. 1: Verwendung unterschiedlicher Kasus in ditransitiven Konstruktionen

Der Rezipient einer ditransitiven Konstruktion kann - ähnlich wie in den obugrischen Sprachen Mansisch und Chantisch - unterschiedlich kodiert werden. Diesbezügliche Beschreibungen des Nordselkupischen (vgl. Kuznecova et al. 1980: 385–388) gehen davon aus, dass die Verteilung der Kodierung des Themas (Patiens) von der Verwendung des Konjugationstyps abhängt. Nach dieser Theorie wird der Rezipient mit Lativ, das sogenannte Thema (Patiens) mit Akkusativ markiert (Typ: indirektiv Ditransitiv), wenn das Verb objektiv konjugiert wird. Wird das Verb allerdings subjektiv konjugiert, wird der Rezipient mit Akkusativ und das Thema mit Instrumental kodiert (Typ: sekundativ Ditransitiv).

Diese Erscheinung wird mit den folgenden Sätze aus dem Nordselkupischen illustriert. Satz (1) zeigt die indirektive Ditransitivkonstruktion, Satz (2) die sekundative Variante.

(1) indirektiv ditransitiv: T-Acc, R-Lat, objektive Konjugation

nɨɨnɨ       šɩntɨ      püllakɨla-m        mi-mpa-tɨ
dann      du.lat    Stein-acc             geben-pst.nar-3sg.obj
‘Dann hat er ihm einen Stein gegeben.’ (Kuznecova et al. 1993: 38/99)

(2) sekundativ ditransitiv: T-Instr, R-Akk, subjektive Konjugation

šıp              mi-ŋa                      qopɨ-sä 
1sg.acc      geben-co.3sg        fell-instr
’Er/Sie hat mir ein Fell gegeben.’ (Kuznecova et al. 1980: 385)

Bereits die erste Sichtung und Auswertung der Textmaterialien zeigt eindeutig, dass die empirischen Daten diese Theorie für die zentral- und südselkupischen Dialekte in keinem Fall unterstützen. Wie die Arbeiten an benachbarten verwandten Sprachen zeigen, müssen hierbei mehrere Faktoren berücksichtigt werden. Alles deutet darauf hin, dass die Objektmarkierung in engem Zusammenhang mit der Topikalisierung steht, die wiederum einen Einfluss auf die Auswahl des Konjugationstyps haben kann. (Über die Ergebnisse ähnlicher Untersuchungen bezüglich der obugrischen Sprachen siehe Sipőcz 2013, 2012, 2011, Skribnik 2001; über die ditransitiven Konstruktionen im Allgemeinen vgl. Malchukov et al. 2010).

Für das Südselkupische wurden bis heute keine entsprechenden Untersuchungen durchgeführt.

Bsp. 2: Unmarkierte Objekte

Ebenfalls unbeschrieben blieben bis heute Konstruktionen, in denen das Objekt unmarkiert bleibt (siehe Satz (3)) , oder eine der Konstituenten im Satz nicht präsent ist, wie in Satz (4) der Rezipient.

(3) kətsa-tɨ-nɨk                   mi-ŋɨ-tɨ                           ńärqɨ         qampɩ.
      Enkel-obl.3sg-lat         geben-co-3sg.obj        rot              Tuch
      ‘Er/Sie hat dem Enkel ein rotes Tuch gegeben.’ (Kuznecova et al. 1993: 43/45)

(4) Imɨľa-tɨ                           mi-ŋɨ-tɨ                           poqqɨ-sä.
      Großmutter-3sg          geben-co-3sg.obj        Netz-instr
      ‘Die Großmutter gab ihm ein Netz.‘ (Kuznecova et al. 1993: 17/4)

Bsp. 3: Markierung des Possessors in adnominalen prädikativen Konstruktionen

Zusätzlich könnten die Analysen des Sprachmaterials neue grammatische Konstruktionen im Südselkupischen aufzeigen.

Die bisherigen Beschreibungen (Kuznecoca et al. 1980, Bekker 1995a) postulieren eine genitivische Markierung des Possessors in den adnominalen Possessivkonstruktionen, siehe Satz (5). Die erste Auswertung der Textmaterialien zeigt aber auch andere vorhandene Strukturen. Folgende Konstruktionen stammen aus demselben Text und zeigen die verschiedenen Markierungs­möglichkeiten.

(5) tabɨ-n       ńeńńa              eeǯal-gwa …
     er-gen       Schwester       sagen-hab.3sg
     ‘Seine Schwester sagt …‘ (Bajdak et al. 2010: 161/98).

Wie die Sätze (6) und (7) zeigen, kann auch eine lokativische Markierung erscheinen. Im Selkupischen wird der Possessor in prädikativen Possessivsätzen mit dem Lokativ markiert. In den Norddialekten kann eine postpositionale Markierung mit der Postposition nååni erfolgen. Diese Sätze deuten darauf hin, dass die lokativische Markierung im Ob-Dialekt auch in den adnominalen Possessivsätzen möglich ist. Ohne die Auswertung weiterer Texte ist eine detailiertere Beschreibung der Struktur aber nicht möglich.

 (6) tab-nan       ara-t                                e-za                         peege
       sie-loc           alter.Mann-3sg           sein-pst.3sg          Haselhuhn
       ‘Ihr Ehemann war ein Haselhuhn.‘ (Bajdak et al. 2010: 152/60a)

 (7) man-naani         ii-m                kɨga                  naadɨ-gu        
       ich-loc.pp           Sohn-1sg       wollen.3sg     heiraten-inf
       ‘Mein Sohn will heiraten.’ (Bajdak et al. 2010: 145/32a)

Es ist zu erwarten, dass durch die Auswertung eines größeren Korpus nicht nur die oben beschriebenen Phänomene, sondern auch andere Erscheinungen, die möglicherweise noch unentdeckt sind, besser erklärt werden können. Ein zusätzlicher Effekt wäre die sichergestellte Überprüfbarkeit der Daten.

Bsp. 4: Definitheit

Untersucht werden soll die kognitive Kategorie "Definitheit", die als universell angesehen werden kann. Mithilfe des erstellten Korpus soll herausgearbeitet werden, wie diese Kategorie grammatikalisch im Südselkupischen ausgedrückt wird.

Analysiert wird dabei unter anderem der Gebrauch der Possessivsuffixe und Demonstrativpronomina, aber auch inwiefern zum Beispiel die Wortstellung Einfluss nimmt.

  • Über SLC

  • Aktuelles
  • Projekt
    • Ziele und Ergebnisse
    • Arbeitsprogramm
      • Materialbasis
    • Publikationen und Vorträge

    Verändert am 13. Dezember 2016

    • Feedback
    • Impressum
    • Datenschutzerklärung
    • Barrierefreiheit
    • Sitemap

    Universität Hamburg

    Innovating and Cooperating for a Sustainable Future in a Digital Age

    • Instagram
    • Facebook
    • Threads
    • YouTube
    • LinkedIn
      • Studium an der UHH
      • Studieninteressierte
      • Weiterbildung
      • Forschung an der UHH
      • Promovieren
      • Karriere & Stellenangebote
      • Transfer
      • Universität
      • Exzellenz
      • Nachhaltigkeit
      • Fakultäten
      • Alumni-Netzwerk
      • Kontakt
      • Campus-Karte
      • Notfall & Sicherheit
      • Antidiskriminierung
    audit familiengerechte hochschule
    Audit
    HRK-Audit
    Systemakkreditierung

    © 2025 Universität Hamburg. Alle Rechte vorbehalten

    124