Zu dieser Frage vielleicht noch ein paar mehr Details. Für gute Ergebnisse im machine learning sollte vermieden werden, dass ein Satz doppelt aufgenommen wird. Deswegen müssen extrem viele Sätze gesammelt werden um mindestens 1200 Stunden ohne Wiederholungen zu erreichen.
Die Sätze stammen aus mehreren Quellen. Der Großteil wurde mit Hilfe eines Scripts aus der Wikipedia extrahiert. Wenn Dich die Details interessieren dann findest du die Datei, die die Regeln definierst hier. Das sind alleine über eine Million Sätze.
Dann wurden erst neulich über 300k Sätze aus einem Datensatz des EU-Parlaments importiert, siehe dazu diesen Thread.
Und zu guter letzt gibt es den Sentence Collector wo verschiedene Sätze aus gemeinfreien Quellen importiert und validiert werden. Nur hier wird wirklich jeder Satz von zwei Personen reviewed, deswegen sind die Sätze von dort qualitativ viel hochwertiger. Das ist allerdings ein langwieriger händischer Prozess, der nicht ausreicht, um genügend Sätze zu sammeln.
Alles zusammen landet am Ende hier im Repo von Common Voice: common-voice/server/data/de at master · common-voice/common-voice · GitHub
Dort kannst Du auch Pull-Requests stellen in denen falsche Sätze gelöscht werden