Die meisten Sätze kommen ja offenbar aus Wikipedia. Dass diese inhaltlich trocken und das Vorlesen daher nicht besonders spannend ist – okay, daran können wir nicht viel ändern. Wir brauchen nun mal sehr viele Sätze und so viel kann sich keiner aus den Fingern saugen.
Allerdings enthalten sehr viele Sätze auch ausländische Namen und Ortsbezeichnungen. Die Leser geraten dadurch ins Stocken und ich wette, nicht wenige verlieren dadurch auch die Lust am Stimme spenden. Welcher deutsche Muttersprachler weiß denn bitte, wie man Wörter wie “Praia Brancirca”, “Gainesville”, “Gateway Rehabilitation Center” oder “Consadole Sapporo” korrekt ausspricht? Abgesehen davon sind diese Wörter auch absolut ungebräuchlich und stellen damit keinen Nutzen für den Datensatz dar.
Ich denke, viele solcher komplizierten Sätze könnte man filtern. Wikipedia-Artikel sind ja kategorisiert und teils mit Wikidata verknüpft. Solche Metadaten könnte man beim Import heranziehen und Artikel über ausländische Persönlichkeiten und Orte ausschließen. Oder man schlägt jedes einzelne Wort im Wiktionary nach. Kommt auch nur ein einziges Wort dort nicht vor, wird der Satz gestrichen.
Ich glaube ein Problem ist, dass Leute schwierige Sätze überspringen und mit der Zeit nur noch schwierige Sätze übrig bleiben. Es wäre gut Sätze die häufig übersprungen wurden irgendwann nicht mehr vorzuschlagen. Die Idee existiert schon länger, ich schaue später mal, ob ich dazu ein Ticket auf GitHub finde.
Außerdem passiert im Moment nichts, wenn man einen Satz reportet. Der Satz wird nur auf eine Liste geschrieben, bleibt aber auf der Webseite. Jemand müsste diese Liste manuell durcharbeiten, sie befindet sich im Datensatz, den man herunter laden kann.
@mkohler vielleicht ist es mal wieder Zeit für einen neuen Wikipedia Import? Das würde das Mischverhältnis ein wenig verbessern.
Ich denke, dass das sinnvoll wäre, aber die technische Machbarkeit kann ich nicht ohne weiteres einschätzen. Ich würde vorschlagen dies im globalen Forum einzubringen, das Common Voice Team hat da ggf. Argument dagegen.