Die meisten Sätze kommen ja offenbar aus Wikipedia. Dass diese inhaltlich trocken und das Vorlesen daher nicht besonders spannend ist – okay, daran können wir nicht viel ändern. Wir brauchen nun mal sehr viele Sätze und so viel kann sich keiner aus den Fingern saugen.
Allerdings enthalten sehr viele Sätze auch ausländische Namen und Ortsbezeichnungen. Die Leser geraten dadurch ins Stocken und ich wette, nicht wenige verlieren dadurch auch die Lust am Stimme spenden. Welcher deutsche Muttersprachler weiß denn bitte, wie man Wörter wie “Praia Brancirca”, “Gainesville”, “Gateway Rehabilitation Center” oder “Consadole Sapporo” korrekt ausspricht? Abgesehen davon sind diese Wörter auch absolut ungebräuchlich und stellen damit keinen Nutzen für den Datensatz dar.
Ich denke, viele solcher komplizierten Sätze könnte man filtern. Wikipedia-Artikel sind ja kategorisiert und teils mit Wikidata verknüpft. Solche Metadaten könnte man beim Import heranziehen und Artikel über ausländische Persönlichkeiten und Orte ausschließen. Oder man schlägt jedes einzelne Wort im Wiktionary nach. Kommt auch nur ein einziges Wort dort nicht vor, wird der Satz gestrichen.
Wie denkt ihr darüber?