Könntest du mir ein paar Beispiele geben, falls du weitere findest? Dann kann ich schauen von wo die kommen. Ein Kandidat wäre der Wikipedia-Export, welcher jedoch unter der akzeptablen Fehlerquote liegt.
Jap.
Solange es verständlich und korrekt ist, ist alles ok. Wir brauchen kein homogenes Datenset, das würde sogar schaden. Schlussendlich sollen Produkte, welche Common Voice Daten oder Modelle verwenden, alle verstehen, und nicht nur wenn man langsam spricht. Das hilft auch anderen Einsatzmöglichkeiten abgesehen von Spracherkennung.