Metainformationen über SprecherInnen im Datensatz Deutsch

Kristina_Becker · August 22, 2022, 11:49am

Hallo zusammen,
im Rahmen meiner Master Thesis über die automatische Spracherkennung von Deutsch-Nicht-MuttersprachlerInnen suche ich Datensätze. Leider bricht der Download des großen Korpus zum Deutschen immer wieder.
Es wäre sehr hilfreich, wenn ich über diesem Wege erfahren kann, ob in dem Datensatz Material von Nicht-MuttersprachlerInnen vorhanden ist und wie die Datenstruktur aufgebaut ist (gibt es zu dem Audiomaterial entsprechende Metadatendateien, sodass man herausfinden kann, mit welchem Akzent die Personen sprechen?

Herzlichen Dank im Voraus!

stergro · August 23, 2022, 6:21pm

Hi, ich kann den Datensatz im Moment leider auch nicht herunter laden, nächste Woche könnte ich Dir die Daten aber geben. Erinnere mich bitte noch mal daran wenn nichts kommt.

Bis dahin kannst Du dir mal dieses Repo anschauen: https://github.com/common-voice/cv-dataset

Dort steht beschrieben wie der Datensatz gebaut wird und welche Felder er enthält.

Kristina_Becker · September 3, 2022, 10:20am

Hallo Stefan, vielen Dank für die Rückmeldung.
Ich habe mittlerweile herausgefunden, dass man an den Datensatz auch über einen Import ins Colab Notebook kommt

Topic		Replies	Views
Informationen über de_538h_2019-12-10 Deutsch (de)	2	666	July 9, 2020
Labelled data of Native and non-native speakers Common Voice	3	509	January 21, 2024
Native language in dataset Common Voice dataset	2	920	July 1, 2020
Same recording in different languages? Common Voice	1	376	October 29, 2020
Question: All datasets without recordings (i.e. clips.tsv) Common Voice	0	401	August 22, 2022

Metainformationen über SprecherInnen im Datensatz Deutsch

Related topics