Sätze zum Vorlesen zu kompliziert

hugento · July 16, 2022, 5:38pm

Die meisten Sätze kommen ja offenbar aus Wikipedia. Dass diese inhaltlich trocken und das Vorlesen daher nicht besonders spannend ist – okay, daran können wir nicht viel ändern. Wir brauchen nun mal sehr viele Sätze und so viel kann sich keiner aus den Fingern saugen.

Allerdings enthalten sehr viele Sätze auch ausländische Namen und Ortsbezeichnungen. Die Leser geraten dadurch ins Stocken und ich wette, nicht wenige verlieren dadurch auch die Lust am Stimme spenden. Welcher deutsche Muttersprachler weiß denn bitte, wie man Wörter wie “Praia Brancirca”, “Gainesville”, “Gateway Rehabilitation Center” oder “Consadole Sapporo” korrekt ausspricht? Abgesehen davon sind diese Wörter auch absolut ungebräuchlich und stellen damit keinen Nutzen für den Datensatz dar.

Ich denke, viele solcher komplizierten Sätze könnte man filtern. Wikipedia-Artikel sind ja kategorisiert und teils mit Wikidata verknüpft. Solche Metadaten könnte man beim Import heranziehen und Artikel über ausländische Persönlichkeiten und Orte ausschließen. Oder man schlägt jedes einzelne Wort im Wiktionary nach. Kommt auch nur ein einziges Wort dort nicht vor, wird der Satz gestrichen.

Wie denkt ihr darüber?

robovoice · August 9, 2022, 5:00pm

Willkommen!

Beim Aufnehmen können Sätze mit Zungenbrechern:

Übersprungen werden (die dir später noch einmal präsentiert werden)
Gemeldet werden (unter schwer auszusprechen das Häckchen setzen)

Sätze, die ich nach 3 Versuchen nicht richtig hinbekomme, reporte ich als zu schwer.

Neue Sätze können hier eingefügt werden
https://commonvoice.mozilla.org/sentence-collector/#/en

stergro · August 10, 2022, 2:15pm

Ich glaube ein Problem ist, dass Leute schwierige Sätze überspringen und mit der Zeit nur noch schwierige Sätze übrig bleiben. Es wäre gut Sätze die häufig übersprungen wurden irgendwann nicht mehr vorzuschlagen. Die Idee existiert schon länger, ich schaue später mal, ob ich dazu ein Ticket auf GitHub finde.

Außerdem passiert im Moment nichts, wenn man einen Satz reportet. Der Satz wird nur auf eine Liste geschrieben, bleibt aber auf der Webseite. Jemand müsste diese Liste manuell durcharbeiten, sie befindet sich im Datensatz, den man herunter laden kann.

@mkohler vielleicht ist es mal wieder Zeit für einen neuen Wikipedia Import? Das würde das Mischverhältnis ein wenig verbessern.

mkohler · August 10, 2022, 7:20pm

Jap, ich schau Mal, wie viele Sätze wir da rauskriegen. Der letzte Export war im Januar.

mkohler · August 10, 2022, 8:47pm

Dürften ca. 43’000 Sätze sein. Ich aktualisiere jedoch zuerst kurz die Regeln, habe noch einige gute Ergänzungen gefunden.

stergro · August 11, 2022, 6:24am

Cool, das ist sicher schon mal eine Verbesserung, plus aktuelle Wörter kommen in den Korpus.

Denkst du, es wäre möglich und sinnvoll automatisiert gemeldete Sätze aus dem Corpus zu löschen?

mkohler · August 11, 2022, 3:32pm

Ich denke, dass das sinnvoll wäre, aber die technische Machbarkeit kann ich nicht ohne weiteres einschätzen. Ich würde vorschlagen dies im globalen Forum einzubringen, das Common Voice Team hat da ggf. Argument dagegen.

mkohler · August 16, 2022, 9:19pm

Sobald der PR gemerged ist und eine neue Version der Webseite veröffentlicht wird, werden wir 43’000 neue Sätze haben. PR hier: Add Wikipedia DE re-run - 2022-08-16 by MichaelKohler · Pull Request #3777 · common-voice/common-voice · GitHub