Corpus Services
Die Software “Corpus Services” des Hamburger Zentrums für Sprachkorpora (HZSK) bietet eine breite Palette von Funktionen zur Prüfung und Aufbereitung von Sprachkorpora.
Diese Funktionen decken eine breite Palette von Aufgaben ab, die von der Metadatenverwaltung und der Validierung von Exmaralda-Transkriptionen und COMA-orgnaisierten Korpora bis hin zur Erstellung von Visualisierungen und Berichten reichen.
Hier ist eine Übersicht der Hauptfunktionen und deren Anwendungen:
Metadaten-Management
Diese Funktionen unterstützen das Hinzufügen und Überprüfen von Metadaten in verschiedenen Formaten und gewährleisten die Konsistenz und Korrektheit der Metadaten in Sprachkorpora.
• AddCSVMetadataToComa: Fügt Metadaten aus CSV-Dateien in Coma-Dateien ein.
• ComaAddTiersFromExbsCorrector: Fügt Tiers aus EXB-Dateien in Coma-Beschreibungen ein.
• ComaApostropheChecker: Korrigiert Apostrophe in Coma-Dateien.
• ComaFedoraIdentifierLengthChecker: Prüft Fedora-PID-Grenzen in Coma-Dateien.
• HandlePidRegistration: Registriert Handle-PIDs für CMDI-Daten.
Validierung und Überprüfung
Diese Funktionen dienen der Validierung und Überprüfung von Korpusdaten, um Fehler und Inkonsistenzen zu identifizieren und die Integrität der Daten sicherzustellen.
• CmdiChecker: Überprüft CMDI-Daten auf Repository-Probleme.
• ComaNSLinksChecker: Überprüft verlinkte Dateien in Coma-Dateien.
• ComaXsdChecker: Validiert Coma-Dateien mit XML-Schema.
• ExbFileReferenceChecker: Validiert Dateireferenzen in EXB-Dateien.
• ExbForbiddenSymbolsChecker: Überprüft auf verbotene Symbole.
• NgexmaraldaCorpusChecker: Überprüft Dateinamen im Nganasan-Korpus.
Transkription und Annotation
Diese Funktionen unterstützen die Überprüfung, Korrektur und Verwaltung von Transkriptionen und Annotationen in Korpusdaten, um die Genauigkeit und Konsistenz der Sprachdaten zu gewährleisten.
• ExbAnnotationPanelCheck: Überprüft Annotationsspezifikationen.
• ExbEventLinebreaksChecker: Korrigiert Zeilenumbrüche in EXB-Dateien.
• ExbSegmentationChecker: Überprüft und korrigiert Segmentierungsprobleme.
• GenerateAnnotationPanel: Erstellt Annotationsspezifikationspanel.
• RemoveEmptyEvents: Entfernt leere Ereignisse aus EXB-Dateien.
Analyse und Berichterstellung
Diese Funktionen bieten Werkzeuge zur Analyse und Berichterstellung, die die Auswertung und Darstellung von Korpusdaten erleichtern und statistische Einblicke ermöglichen.
• CalculateAnnotatedTime: Berechnet die annotierte Zeit in EXB-Dateien.
• ComaChartsGeneration: Erstellt HTML-Übersichten für Coma-Dateien.
• ReportStatistics: Erstellt und aktualisiert HTML-Statistikberichte.
• ScoreHTML: Erstellt HTML-Visualisierungen im Score-Format.
• LanguageToolChecker: Überprüft auf Rechtschreib- und Grammatikfehler.
Datenverwaltung und -formatierung
Diese Funktionen helfen bei der Verwaltung und Formatierung von Korpusdaten, um die Konsistenz zu gewährleisten und die Daten für verschiedene Anwendungen vorzubereiten.
• NormalizeEXB: Normalisiert Transkriptionsdaten.
• PrettyPrintData: Formatiert XML-Daten einheitlich.
• RemoveAbsolutePaths: Ersetzt absolute Pfade durch relative.
• ZipCorpus: Erstellt Zip-Dateien aus Korpusdaten für die Ablage.
Die Software “Corpus Services” kann vom GitLab-Repository des Hamburger Zentrums für Sprachkorpora (HZSK) heruntergeladen werden. Besuchen Sie dieses Repository. Nach dem Download der Software (corpus-services-1.0.jar) installieren Sie sie, indem Sie das Java-Archiv in einem Terminal oder einer Eingabeaufforderung ausführen. Verwenden Sie den Befehl java -jar corpus-services-1.0.jar -h, um die Hilfe anzuzeigen und sicherzustellen, dass die Software korrekt installiert ist. Detaillierte Installationsanweisungen und Benutzerhandbücher finden Sie ebenfalls im Repository.