Lernerkorpora

In den Forschungsprojekten MERLIN (2012-2014) und SpraStu (2017-2020) sind unter Mitarbeit bzw. Leitung von Katrin Wisniewski einige Lernerkorpora, also systematische Sammlungen digitaler L2-Produktionen, entstanden.

Andere Lernerkorpora des Deutschen sind z. B. BeMaTaC, FALKO, Teile von GeWiss, HaMaTaCund HaMoTiC oder SWIKO. Siehe auch die ?bersicht der Learner Corpus Association.

MERLIN

Webseite: https://merlin-platform.eu/

MERLIN war ein EU-Projekt (Kooperation aus u. a. TU Dresden, Eberhard-Karls-Universit?t Tübingen, Karls-Universit?t Prag, Europ?ische Akademie Bozen, telc gGmbH), innerhalb dessen das gleichnamige Korpus erstellt wurde. Das MERLIN-Korpus enth?lt rund 2300 Texte von Lernenden der italienischen, deutschen und tschechischen Sprache, die aus schriftlichen Prüfungen entnommen wurden. Die Prüfungen haben zum Ziel, Kenntnisse auf den Niveaustufen A1-C1 des Gemeinsamen Europ?ischen Referenzrahmens (GER) nachzuweisen. Die Texte sind schriftliche Prüfungsleistungen aus TELC-Sprachtests (Deutsch und Italienisch) und den Prüfungen des Testzentrums der Karlsuniversit?t Prag (Tschechisch). Die Aufgaben sind standardisiert und auf den GER bezogen. Um einen m?glichst direkten Bezug zum Referenzrahmen zu gew?hrleisten, wurden alle Prüfungstexte von eigens geschulten Prüfern anhand des im Projekt entwickelten MERLIN-Bewertungsrasters nachbewertet. Die Texte wurden transkribiert, annotiert und mit Zielhypothesen und Fehlerannotationen versehen.

Die MERLIN-Webseite enth?lt umfangreiche Dokumentationen zum Korpus. Au?erdem ist das Korpus direkt in ANNIS durchsuchbar. Es ist auch m?glich, das Korpus vollst?ndig für eigene Forschungsarbeiten herunterzuladen.

DISKO

Webseite: https://home.uni-leipzig.de/sprastu/korpora/disko/

Das longitudinale Lernerkorpus DISKO (Deutsch im Studium: Lernerkorpus) entstand im BMBF-Projekt ?Sprache und Studienerfolg bei Bildungsausl?nder/-innen“ (SpraStu). Alle Texte aus DISKO entstanden im Kontext von Sprachtests zum Nachweis der sogenannten ?sprachlichen Studierf?higkeit“; vorwiegend handelt es sich um TestDaF-Schreibaufgaben. Die meisten Texte (n = 510) wurden von internationalen Studierenden (Bildungsausl?nder:innen), weitere (n = 85) von Studierenden mit der L1 Deutsch verfasst. Die Texte wurden von TestDaF-Bewerter:innen beurteilt (nach GER-Niveaus bzw. TestDaF-Niveaustufen).

Alle Texte wurden transkribiert und automatisch POS-getaggt (inkl. teilautomatischer Korrektur). Teile von DISKO wurden zus?tzlich mit einer Zielhypothese versehen.

Informationen zum Korpusaufbau und anderen Details finden sich im Korpushandbuch. Auf der Webseite des Projektes SpraStu sind weitere Informationen zum Projekt und zum Korpus verfügbar.

DISKO kann im Langzeitrepositorium des IDS Mannheim vollst?ndig heruntergeladen werden. ?ber den Korpusserver der HU Berlin ist das Korpus in ANNIS durchsuchbar.

MIKO

Webseite: https://home.uni-leipzig.de/sprastu/korpora/miko/

Das multimodale, wissenschaftssprachliche Korpus MIKO (Mitschreiben in Vorlesungen: multimodales Lehr-Lernerkorpus) entstand im BMBF-Projekt ?Sprache und Studienerfolg bei Bildungsausl?nder/-innen“ (SpraStu). Es enth?lt korpuslinguistisch aufbereitete Video- und Audiomitschnitte aus 8 Vorlesungen (10:00 Stunden, 82075 Token). Die 8 Vorlesungen wurden transkribiert und liegen jeweils mit und ohne Tokenisierung und automatischen Annotationen vor. Die Daten werden erg?nzt durch umfangreiche Metadaten zu den Vorlesungen und den Sprechenden. Weitere 4 Vorlesungen (5:38 Stunden) sind ohne Transkription verfügbar. Zus?tzlich sind die in diesen Vorlesungen verfassten Mitschriften (n=146) von Studierenden mit Deutsch als L1 oder L2 als Scans verfügbar.

MIKO kann im Archiv für Gesprochenes Deutsch des IDS Mannheim durchsucht werden. Im Langzeitarchiv des IDS steht es zum Download zur Verfügung.

Auf der Webseite des Projektes SpraStu sind umfangreiche Informationen zum Projekt sowie das detaillierte Handbuch zu MIKO verfügbar.