Variationen im Datensatz sind gewünscht, aber nur als Akzente. Es muss also so klingen als würde jemand aus einer Dialektregion Hochdeutsch sprechen, aber es darf nicht Dialekt gesprochen werden und das Geschriebene Wort nicht verändert werden. Meiner Meinung nach sind aber kleinere Nuschler und ein wenig verschlucken von Silben okay und hilft eher den Datensatz zu verbessern. Wir möchten ja einen Datensatz haben, der nah an der Sprachrealität der Menschen dran ist.
So wie die Technologie im Moment funktioniert muss man, wenn man das möchte für jeden Dialekt eine eigene Sprachversion innerhalb Common Voice anlegen. Das gibt es bereits, z.B. für verschiedene kurdische Dialekte und für Westfriesisch. Die Diskussion kommt immer wieder auf, z.B. hier wurde ausführlich darüber diskutiert:
Leider scheitert der Aufbau einer eigenen Dialekt-Sprachversion oft daran, dass Dialekte nicht standardisiert sind und deswegen die Sätze zum Vorlesen nicht alle der gleichen Grammatik folgen würden und Wörter immer unterschiedlich geschrieben werden. Es gibt aber trotzdem die Dialektversionen der Wikipedia, die man verwenden könnte, um einen relativ großen Satzkorpus aufzubauen. Am Ende hätte man dann eine Spracherkennung nur für einen Dialekt, der auch alles in Dialektform ausgibt und schreibt.
Wenn aber jemand eine alemannische Version von Common Voice aufbauen möchte, helfe ich gerne.