Metainformationen über SprecherInnen im Datensatz Deutsch

Hallo zusammen,
im Rahmen meiner Master Thesis über die automatische Spracherkennung von Deutsch-Nicht-MuttersprachlerInnen suche ich Datensätze. Leider bricht der Download des großen Korpus zum Deutschen immer wieder.
Es wäre sehr hilfreich, wenn ich über diesem Wege erfahren kann, ob in dem Datensatz Material von Nicht-MuttersprachlerInnen vorhanden ist und wie die Datenstruktur aufgebaut ist (gibt es zu dem Audiomaterial entsprechende Metadatendateien, sodass man herausfinden kann, mit welchem Akzent die Personen sprechen?

Herzlichen Dank im Voraus!

Hi, ich kann den Datensatz im Moment leider auch nicht herunter laden, nächste Woche könnte ich Dir die Daten aber geben. Erinnere mich bitte noch mal daran wenn nichts kommt.

Bis dahin kannst Du dir mal dieses Repo anschauen: https://github.com/common-voice/cv-dataset

Dort steht beschrieben wie der Datensatz gebaut wird und welche Felder er enthält.

Hallo Stefan, vielen Dank für die Rückmeldung.
Ich habe mittlerweile herausgefunden, dass man an den Datensatz auch über einen Import ins Colab Notebook kommt :slight_smile:

1 Like