Informationen über de_538h_2019-12-10

Wie ich mit freuden festellen musste wurde eine neue Version des deutsch Sprachkorpus von Common Voice veröffentlicht.

Jedoch benötige ich die Metadaten der Version de_538h_2019-12-10, also insgesamt bestätigte Stunden, Anzahl der Stimmen, Unterteilung, etc.

Kann man das noch irgendwo einsehen?

Auf Wikipedia stehen noch die alten Daten:

Die englische Datenbank von Common Voice ist mittlerweile vor LibriSpeech die größte frei zugängliche Sprachdatenbank. Zur Veröffentlichung des letzten englischen Datensatzes am 10. Dezember 2019 sprachen weltweit über 50.000 Nutzer 1.118 Stunden validierte Sätze ein.[10][11]

An der deutschen Datenbank beteiligen sich bisher mehr als 8460 Sprecher. Die Summe der von den Freiwilligen bestätigten deutschen Sprachaufnahmen beläuft sich auf über 483 Stunden. (Stand: 10. Dezember 2019)

Die Wayback Machine hat leider nichts gespeichert. Ich habe die tsv dateien vom alten Release noch auf einem anderen Computer herumliegen, würde dir das helfen?

Oh voll gut, das mit Wikipedia hätte ich nicht gewusst.

Ich habe jetzt mittels der Wayback Machine etwas rechechiert und rausgefunden dass die Metadaten per Javascript dargestellt werden. Hier ist der Ausschnitt für den deutschen Korpus:

de: {
	clips: 413561,
	splits: {
		accent: {
			germany: .64,
			russia: 0,
			"": .31,
			austria: .02,
			liechtenstein: 0,
			switzerland: .01,
			france: 0,
			other: 0,
			poland: 0,
			united_kingdom: 0,
			hungary: 0,
			netherlands: 0,
			namibia: 0,
			slovakia: 0,
			united_states: 0,
			italy: 0,
			czechia: 0,
			brazil: 0,
			canada: 0,
			turkey: 0,
			slovenia: 0,
			luxembourg: 0,
			belgium: 0,
			denmark: 0,
			greece: 0
		},
		age: {
			twenties: .23,
			fourties: .19,
			"": .23,
			thirties: .17,
			teens: .03,
			sixties: .02,
			fifties: .11,
			seventies: 0,
			eighties: 0,
			nineties: 0
		},
		gender: {male: .67, "": .23, female: .09, other: .01}
	},
	users: 8460,
	duration: 1939923648,
	buckets: {
		dev: 13511,
		invalidated: 19511,
		other: 22014,
		test: 13511,
		train: 71841,
		validated: 370976
	},
	size: 15073085593,
	avgDurationSecs: 4.691,
	validDurationSecs: 1740166.784,
	totalHrs: 538.86,
	validHrs: 483.37
},