heureCLÉA – Collaborative Literature Exploration and Annotation
Im Rahmen des interdisziplinären Projekts heureCLÉA wurden die Möglichkeiten erforscht, kollaborative Textannotationen mithilfe sogenannter 'Machine Learning‘-Verfahren schrittweise zu automatisieren und so eine computergestützte Heuristik zur Erkennung von Zeitstrukturen in Texten zu entwickeln. Dabei wurden folgende Ergebnisse erzielt:
(1) Annotiertes Korpus
In heureCLÉA wurden 21 deutschsprachige Kurzgeschichten unterschiedlicher Autorinnen und Autoren des 19. und 20. Jahrhunderts mithilfe eines narratologischen Tagsets annotiert, das 57 narratologische Auszeichnungskategorien umfasst. Dabei wurden von trainierten Annotatoren auf der Grundlage komplexer Annotationsguidelines insgesamt 32 000 Annotationen generiert. Die Annotationen erfüllen entweder das Kriterium freiwillig erreichter Übereinstimmung zwischen den Annotatoren (‚inter-annotator agreement‘) – oder das Kriterium informierter Uneinigkeit, wenn die unterschiedlichen Annotationen beispielsweise durch textuelle Mehrdeutigkeit begründet sind.
(2) Automatische Annotation
Drei der manuell annotierten Phänomenkomplexe (Tempus, Zeitausdrücke und zeitliche Ordnung) dienten als Trainingskorpus für ‚Machine Learning‘-Verfahren. Zwei der so entwickelten automatischen Annotationsfunktionen sind bereits in das online verfügbare Annotations- und Analysetool CATMA integriert worden – die Integration der dritten Funktion folgt in Kürze.
Neben diesen vorgesehenen Projektzielen wurden weitere Ergebnisse realisiert – darunter die Entwicklung eines Workflows für kollaborative Annotationsprojekte in narratologischen sowie hermeneutischen Kontexten und das Erzielen neuer theoretischer Erkenntnisse hinsichtlich der gegenseitigen Abhängigkeit bestimmter narratologischer Phänomene.
Projektleitung: Prof. Dr. Jan Christoph Meister
Projektmitarbeiter:
Dr. Evelyn Gius
Janina Jacke
Marco Petris
Kooperationspartner:
Prof. Dr. Michael Gertz (Arbeitsgruppenleiter Universität Heidelberg, Informatik)
Thomas Bögel
Dr. Jannik Strötgen
Projektlaufzeit: 02/2013 – 01/2016
Mittelgeber: BMBF
Website: http://heureclea.de/
Publikationen und Vorträge (Auswahl):
- Evelyn Gius & Janina Jacke: The Hermeneutic Profit of Annotation. On Preventing and Fostering Disagreement in Literary Analysis. In: International Journal for Humanities and Arts Computing 11 (2), 2017, 233–254.
- Evelyn Gius, Janina Jacke, Jan Christoph Meister & Marco Petris: heureclea/sourcedocuments. Version 1.0 [Data set]. Zenodo. 2017. http://doi.org/10.5281/zenodo.274962
- Evelyn Gius, Janina Jacke, Jan Christoph Meister & Marco Petris: heureclea/time-annotations-uncompared-public. Version 1.1 [Data set]. Zenodo. 2017. http://doi.org/10.5281/zenodo.321439
- Evelyn Gius, Janina Jacke, Jan Christoph Meister & Marco Petris: heureclea/time-annotations-compared-public. Version 1.1 [Data set]. Zenodo. 2017. http://doi.org/10.5281/zenodo.321438
- Evelyn Gius & Janina Jacke: Zur Annotation narratologischer Kategorien der Zeit. Guidelines zur Nutzung des CATMA-Tagsets. Version 2, Hamburg, November 2016. [pdf]
- Thomas Bögel, Evelyn Gius, Janina Jacke & Jannik Strötgen: From Order to Order Switch. Mediating between Complexity and Reproducibility in the Context of Automated Literary Annotation. Digital Humanities 2016. Krakow, Poland, July 11–16, 2016. (extended abstract for oral presentation)
- Thomas Bögel, Jannik Strötgen & Michael Gertz: A Hybrid Approach to Extract Temporal Signals from Narratives. Accepted at: International Conference of the German Society for Computational Linguistics and Language Technology (GSCL’15). Duisburg-Essen, Germany, 2015. Evelyn Gius, Janina Jacke, Jan Christoph Meister, Thomas Bögel & Jannik Strötgen: Beyond Pragmatics: Disciplinary Profits of Interdisciplinary Approaches. Digital Humanities 2015. Sydney, Australia, July 1–3 , 2015. (extended abstract for oral presentation) [link]
- Thomas Bögel, Michael Gertz, Evelyn Gius, Janina Jacke, Jan Christoph Meister, Marco Petris & Jannik Strötgen: Collaborative Text Annotation Meets Machine Learning. heureCLÉA, a Digital Heuristic of Narrative. DHCommons 1, July 2015.
- Evelyn Gius & Janina Jacke: Informatik und Hermeneutik. Zum Mehrwert interdisziplinärer Textanalyse. In: Zeitschrift für digitale Geisteswissenschaften 1, 2015. [link]
- Thomas Bögel, Michael Gertz, Evelyn Gius, Janina Jacke, Jan Christoph Meister, Marco Petris & Jannik Strötgen: Gleiche Textdaten, unterschiedliche Erkenntnisziele? Zum Potential vermeintlich widersprüchlicher Zugänge zu Textanalyse. DHd 2015: Digital Humanities im deutschsprachigen Raum. Graz, Austria, February 23–27, 2015. (extended abstract for oral presentation)
- Thomas Bögel, Marco Petris, Jannik Strötgen & Michael Gertz: An End-to-End Integration of Automatic Annotations into CATMA. DHd 2015: Digital Humanities im deutschsprachigen Raum. Graz, Austria, February 23–27 , 2015. (extended abstract for poster presentation)
- Janina Jacke Janina & Jan Christoph Meister: Pushing Back the Boundary of Interpretation. Concept, Practice and Relevance of a Digital Heuristic. Digital Humanities 2014, Lausanne, Switzerland, July 7–12, 2014.
- Thomas Bögel, Jannik Strötgen & Michael Gertz: Computational Narratology: Extracting Tense Clusters from Narrative Texts. In: Proceedings of the 9th Edition of the Language Resources and Evaluation Conference (LREC’14). Pages 950–955, Reykjavik, Iceland, May 21-31, 2014. [pdf]