Wer kontrolliert die Sätze, die zum 'Sprechen' drankommen?

Hallo, bin neu hier. Finde das Projekt gut, und werde versuchen, regelmässig sowohl Sätze zu sprechen als auch zu kontrollieren (Bin selber im Nebenberuf Sprecher, meist bei (Doku-)Film und für Hintergrund-Sprache); Hauptberuf (falls es jemanden interessiert) übrigens Software-Entwickler seit > 20 Jahren (u.a. auch Java), und Spezialgebiet Qualitäts-Sicherung (daher fallen mir auch immer gleich Fehler (anderer) auf, und ich habe immer gleich Verbesserungsvorschläge in petto - sorry for that)

Daher habe ich (bitte nicht gleich mir als Vorwurf machen) gleich einige Fragen, und Anregungen:

  1. Wer kontrolliert eigentlich die deutschen “Sätze”, die hier zum Vorlesen drankommen? Mir ist jetzt schon - nach wenigen 20-30 Kontrollen - mehrfach untergekommen, dass die Sätze unvollständig sind. Sollte man evtl noch einen Task (neben Vorlesen & Kontrolle) ins Leben rufen: “Sätze auf sprachliche Vollständigkeit kontrollieren”?

  2. Leider kommen auch immer noch Sätze in fremden Sprachen dran, obwohl ich (denke ich) doch auf ‘deutsch’ eingestellt bin. Dies ist wohl ein immer noch nicht behobener aber bekannter Fehler?

  3. Mir ist nicht ganz klar, wenn ich als Anhören-Kontroller arbeite, wie ‘genau’ ich die Aussprache bewerten soll. Bisher habe ich alles, was auch nur im Entferntesten ungenau, zu schnell, oder mit Nebengeräuschen war, abgelehnt.

Daher wäre eine “Richtschnur” sowohl für Sprecher als auch für Kontroller wünschenswert.

Meine Bitte an Sprecher: ein geschlossenes Zimmer, kein Radio, kein TV. Hört euch doch auch selber mal ab: gibt es ein 50-HZ-Brummen, Papier-Knistern, Geräusche von Wind oder vom Bart am Mikro-Schaumstoff? Zweitens beim Sprechen selber: denkt doch einfach mal, ihr seid Nachrichtensprecher, oder kommentiert einen Film, oder ihr sprecht zu alten Menschen, die nicht mehr so schnell sind im Gehör und im nachgelagerten “Gehirn”:: andere Zuhörer wollen das doch auch verstehen, was ihr sagt! Also immer schön langsam und deutlich sprechen, fast schon ein bisschen ‘theater-like’, oder man könnte auch sagen ‘gestelzt’. Und bitte keine Silben oder so verschlucken. (Ja, ich weiss es auch aus eigener Erfahrung als Sprecher: manchmal sagt man einen - vermeintlich - einfachen Satz 5 mal, bis er tatsächlich fehlerfrei über die Lippen kommt)

Vielleicht kann man ja eine FAQ für Sprecher und für Kontroller daraus basteln.

Mehr Vorschläge, wie man besser spricht, und wie man kontrolliert, sind natürlich hier immer willkommen.

Gruss

Freebird

Hallo Freebird

Könntest du mir ein paar Beispiele geben, falls du weitere findest? Dann kann ich schauen von wo die kommen. Ein Kandidat wäre der Wikipedia-Export, welcher jedoch unter der akzeptablen Fehlerquote liegt.

Jap.

Solange es verständlich und korrekt ist, ist alles ok. Wir brauchen kein homogenes Datenset, das würde sogar schaden. Schlussendlich sollen Produkte, welche Common Voice Daten oder Modelle verwenden, alle verstehen, und nicht nur wenn man langsam spricht. Das hilft auch anderen Einsatzmöglichkeiten abgesehen von Spracherkennung.

Weitere Infos von der Common Voice Webseite:

1 Like

Zu dieser Frage vielleicht noch ein paar mehr Details. Für gute Ergebnisse im machine learning sollte vermieden werden, dass ein Satz doppelt aufgenommen wird. Deswegen müssen extrem viele Sätze gesammelt werden um mindestens 1200 Stunden ohne Wiederholungen zu erreichen.

Die Sätze stammen aus mehreren Quellen. Der Großteil wurde mit Hilfe eines Scripts aus der Wikipedia extrahiert. Wenn Dich die Details interessieren dann findest du die Datei, die die Regeln definierst hier. Das sind alleine über eine Million Sätze.

Dann wurden erst neulich über 300k Sätze aus einem Datensatz des EU-Parlaments importiert, siehe dazu diesen Thread.

Und zu guter letzt gibt es den Sentence Collector wo verschiedene Sätze aus gemeinfreien Quellen importiert und validiert werden. Nur hier wird wirklich jeder Satz von zwei Personen reviewed, deswegen sind die Sätze von dort qualitativ viel hochwertiger. Das ist allerdings ein langwieriger händischer Prozess, der nicht ausreicht, um genügend Sätze zu sammeln.

Alles zusammen landet am Ende hier im Repo von Common Voice: https://github.com/mozilla/voice-web/tree/master/server/data/de

Dort kannst Du auch Pull-Requests stellen in denen falsche Sätze gelöscht werden

1 Like

… solange sich diese nicht in sentence-collector.txt befinden. Diese meldet man besser via https://github.com/Common-Voice/sentence-collector/issues/new (ein Satz pro Zeile in einer Textdatei erspart uns viel Mühe).

1 Like

Danke euch (mkohler, stergro).

Ich werde dann hier ein paar Beispiele von (m.M. nach) falschen bzw unmöglichen Sätzen einstellen (ich sammle mal über einige Tage, dann poste ich es). Bisher habe ich solche vorgeschlagenen Sätze mit einem Kommentar versehen und ‘abgewiesen’, das mache ich auch weiterhin so.

Gut, dann mache ich mal weiter (solange diese verordnete Freizeit noch andauert - jeder weiss, was gemeint ist :grinning: )

Gruss
Freebird

Hallo
es hatte sich jemand für unvollständige (oder unsinnige) deutsche Sätze interessiert? Hier nach 3 Tagen meine (doch geringer als erwartete) Ausbeute. Nur 2 Stück:

Das angeschlossene Versandhaus "St.
(ist irgendwie unvollständig ?)

Schließlich geht es um das genaue Format, in dem die Angaben zu übermitten sind.
(Fehler: soll wohl ‘übermitteln’ heissen)

Einige Sätze in fremden Sprachen habe ich direkt über den Button ‘Melden’ mit ‘Andere Sprachen’ zurückgegeben.

Gruss (Räusper, nicht der C-V, sondern das viele Vorlesen hier)

2 Likes

Danke für die Beispiele.

Das kommt aus dem Wikipedia-Export. Das Skript hat manchmal etwas Mühe die Sätze korrekt beim richtigen Punk zu trennen, so entstehenden einige unvollständige Sätze. Die Fehler-Rate dürfte aber im angemessenen Bereich liegen, wir haben dies stichproben-mässig überprüft. Weitere Infos hier: https://github.com/Common-Voice/cv-sentence-extractor/issues/11

Dies kommt aus dem Europaparlament-Korpus. Auch dieser wurde stichprobenmässig überprüft und dürfte unter der angemessenen Fehlerquote liegen.

Danke!

1 Like

Solche Sätze, egal wie sie ausgesprochen werden, sind übrigens immer falsch, da Abkürzungen sind im Datensatz nicht erwünscht sind. Wenn dort “Sankt” statt “St.” stünde, okay. Was die Vollständigkeit von Sätzen angeht wäre ich nicht allzu streng, solange noch ein Sinn zu erkennen ist. Umgangssprachlich spricht (insbesondere antwortet) man ja auch oft nicht in ganzen Sätzen.