Wir haben 600 geprüfte Stunden erreicht, 50% des ersten Ziels

Hallo zusammen,

heute Morgen haben wir die 600-Stunde Marke überschritten und sind damit die erste Sprache nach Englisch, die 50% des ersten Ziels von 1200 Stunden erreicht.

Das ist eine gewaltige Leistung. Deswegen Danke an alle Helfer, alle Sprecher, Validierer und Leute die Sätze im Sentence-Collector einpflegen und Validieren! Auf die nächsten 600 Stunden :slight_smile:

3 Likes

Glückwunsch auch von mir! Wäre das nicht ein guter Zeitpunkt, die Validierungsrichtlinien mal endlich transparent und einfach auf der Seite für jeden darzustellen? Hatte da selbst oft schon genug Probleme und es bleibt ein stetiger Quell von Fehlinterpretation.

Würde ich mir wünschen für die nächsten 50%! Gerade Deutsch wäre echt mal gut, wenn man da ein “top notch” Modell hinbekäme, denn sonst ist das mal wieder nur ein weiterer Baustein in der US-Abhängigkeit von GAFA und Co. in der IT!

2 Likes

Sehe ich ähnlich. Aber wo kann man diese Vorgaben sinnvoll in der Webseite anzeigen? Soll man die FAQs erweitern oder die Infos lieber irgendwo anders hin schreiben?

Solche größeren Änderungen an der Webseite sind immer etwas schwierig, aber wir sollten dafür mal ein Improvement auf GitHub aufmachen, sobald wir einen halbwegs brauchbaren Vorschlag haben.

Ne, nicht (nur) in die FAQs! Das sollte quasi als “Hinweis zur Beurteilung der Qualität” auf die Seite neben den eigentlichen Texten. Dann ist es nur einen Klick entfernt und man kann es jederzeit gleich finden und nachlesen.

Im Prinzip sollte es das ja für alle Sprachen geben - aber von mir aus kann man gerne im Deutschen erstmal anfangen und es gibt ja auch immer sprachliche Besonderheiten, die natürlich möglichst berücksichtigt werden sollten - also ein “generischer” Text hilft vermutlich nicht vollständig.

Wenn ich irgendwie helfen kann, helfe ich gerne - die Kriterien müssen aber vermutlich von den ASR-Experten kommen, die Erfahrung mit dem Training haben (um die Do’s und Don’t Do’s zu kennen).

2 Likes

Scheinbar findet die Diskussion darüber seit 2017 hier statt: https://github.com/mozilla/voice-web/issues/273

Hm… kann man da was (für Deutsch) machen trotzdem?

Ich glaube nicht, dass eine Sprache hier die Webseite nur für sich verändern kann. Aber dieses Problem hat nicht nur deutsch und ich werde ab jetzt regelmäßig in diese Richtung pieksen. Das Team hat ja auch gesagt, dass sie dieses Jahr an der Qualität der Daten arbeiten wollen, da würde das gut rein passen.

Ich denke aber auch, dass der ganze Datensatz noch mal besser bereinigt werden kann, sobald man eine gute Spracherkennungssoftware hat. Gerade solche dinge wie ausgesprochene Satzzeichen kann man damit dann leicht im Nachhinein heraus filtern.

schade :frowning: … dann wird es vermutlich versacken…

Hm, die Logik erschließt sich mir nicht - die Qualität von DS Modellen korreliert direkt mit der Qualität von CV (es sei denn, es sind andere Datensätze mit drin überwiegend vielleicht)… wenn da zu viele Outlier drin sind, leidet alles und du wirst mehr “Murks” bekommen hinten raus …!?

Beides, viele der Projekte, die Common Voice im Moment verwenden, nutzen auch bis zu 500 Stunden aus anderen Quellen, hier z.B. benutzen sie auch den deutschen Datensatz von VoxForge, Tatoeba, Spoken Wikipedia Corpora, German Distant Speech Corpus usw.

Aber soweit ich neuronale Netzwerke verstehe haben einzelne Ausreißer nur kleine Auswirkungen auf das Ergebnis wenn der Datensatz groß genug ist. D.h. man kann durchaus mit einem neuronalen Netzwerk seine eigenen Trainingsdaten verbessern.

So pauschal würde ich das nicht formulieren bzw. da lässt sich wenig gegen sagen :slight_smile: Aber im Detail können viele dieser “kleinen” Fehler sehr wohl Probleme machen (in Summe). Es bleibt ja nicht bei einem Fehler, sondern da gibt es zig mögliche Fehlinterpretationen bzw. “Falschvalidierungen”

Ja das stimmt. Wir sollten definitiv daran arbeiten den Datensatz selbst von Anfang an so gut wie möglich hinzubekommen.

Wenn du nen direkten Draht zu den CS maintainern hast, dann finde ich es gut, wenn du die darauf verstärkt aufmerksam machst bzw. dafür sensibilisierst - vielleicht (hoffentlich) wird das dann “hochpriorisiert”.

Wie gesagt, falls ich was tun kann, sag Bescheid (hab keine Verbindungen zu Mozilla… leider :slight_smile:

Ich habe auch nur indirekte Verbindungen, weil ich seit bald einem Jahr hier relativ aktiv bin. Aber ich schaue was ich machen kann, zumindest ein neuer Eintrag in den FAQs müsste ja möglich sein.

FAQ “liest keiner” … leider … du willst doch möglichst den “convenience couch surfer” als Helfer rekrutieren :wink:

Viel Erfolg! :crossed_fingers:

Das mag sein, aber eine Erklärung in der FQA ist besser als keine Erklärung in der FAQ.

1 Like

*Seufz* Das sind alles uralte Baustellen, die immer noch nicht behoben sind. Es wird nicht angezeigt, wie vorgelesen werden soll. Es wird nicht angezeigt, nach welchen Kriterien validiert werden soll. Erst-Vorleser werden nicht gezwungen, ihre eigenen Aufnahmen anzuhören. Notorische Satzzeichen-Vorleser werden nicht darauf hingewiesen, dass ihre Ablehnungsrate bei 100% liegt.

Zu all diesen Punkten (bis auf den letzten, glaube ich) gibt es auf Github entsprechende Issues, wahrscheinlich sogar aus dem ersten Jahr des Projekts. Ich bin relativ frustriert, dass sich da nichts getan hat. Ich weiß nicht, ob Mozilla zu wenige Entwickler hat oder einfach zu schlecht organisiert ist, aber es frustriert.

Und zu den 600 Stunden: Die sind extrem unausgewogen, so dass zum Training nur ein Bruchteil verwendet werden kann. In der Realität sind wir also weit von der Hälfte unseres Ziels entfernt.

Vor allem fehlen Frauen! Deshalb brauchen wir Kampagnen, um Frauen zu mobilisieren. Leider passiert in diese Richtung nicht wirklich etwas. Man könnte zum Beispiel Feministinnen-Magazine oder so anschreiben und sie darauf hinweisen, dass hier die nächste Benachteiligung für Frauen entsteht, aber jede Frau dazu beitragen kann, dies zu ändern. Oder halt einfach zielgerichtet Werbung in Social-Media-Kanälen schalten.

Bevor wir aber große Mengen an bisher nicht involvierten Menschen mobilisieren, sollten wir dafür sorgen, dass denen auch absolut klar ist, was auf Common Voice zu tun ist. Sonst ist hinterher wieder viel Arbeit für die Tonne.

1 Like

Meine Erfahrung aus anderen IT-Firmen ist die, dass eine einmal “fertig” entwickelte Webseite schwer zu ändern ist. Vermutlich erscheint das Problem nicht groß genug um es ändern zu müssen. Ich sage, wenn nicht jemand aus der Community diese Features implementiert, dann werden wir sie nicht von Mozilla bekommen.

Ja ich hoffe das es dazu mal bessere Zahlen gibt. Z.B. auf der Seite, wo man den Datensatz herunterladen kann wäre die Zahl der nur einmal aufgenommenen Stunden extrem interessant. Allerdings haben wir jetzt schon fast ein Jahr lang genug Sätze um keinen Satz mehr doppelt aufnehmen zu müssen. (der Wiki Import war Juli 2019) Ich denke, die Situation ist nicht mehr so schlimm wie vor einem Jahr und wird mit jedem Monat besser.

Oft bekommt man gar nicht mit, was so passiert. Zum Beispiel hat jemand auf Reddit auf r/Weibsvolk (den größten deutschsprachigen Sub für Frauen dort) vor einer Weile für Common Voice geworben und ich bin nur zufällig darüber gestolpert:

Wenn man ein bisschen sucht, gibt es viele Menschen, die in diesem kleinen Rahmen immer wieder Werbung für das Projekt machen. Offline und online. Ich denke es ist kein Zufall, dass Deutsch auf Platz 2 der größten Sprachen ist, Leute machen definitiv Werbung für das Projekt, nur eben nicht besonders koordiniert. Die Idee mit Feministen zusammenzuarbeiten, gefällt mir auch gut, ich schau mal was mir dazu so einfällt. Da gibt es ja einige Organisationen, die man ansprechen kann.

Was Satzwiederholungen angeht, wird es bestimmt besser. Ich meinte eigentlich vor allem die demografische Unausgewogenheit und die wird ja angegeben:

Alter
3% < 19
23% 19 - 29
17% 30 - 39
19% 40 - 49
11% 50 - 59
2% 60 - 69

Geschlecht
67% Männlich
9% Weiblich

Und das ist ja noch nicht alles. Es gibt einige wenige, die allein locker eine zweistellige Zahl von Stunden vorgelesen haben. Spitzenreiter dürfte ein rauchender Mann mittleren Alters aus Nordrhein-Westfalen sein (ich denke, ihr wisst, welche Stimme ich meine). Ich finde es toll, dass sich einige so intensiv engagieren, aber für einen ausgewogenen Datensatz kann man davon vielleicht eine Stunde verwenden.

Das stimmt alles und daran müssen wir arbeiten. Trotzdem gibt es keinen anderen freien Datensatz, der so groß und so divers ist wie Common Voice. Andere großen Datensätze sind schlimmer. Der LibriVox Corpus basiert z.B. auf Hörbüchern, was dazu führt, dass man nur sehr große Blöcke mit der gleichen Stimme hat.

Lass uns darauf fokussieren was wir tun können. Über die Probleme sind wir uns glaube ich einig. Das wichtigste ist Common Voice innerhalb und außerhalb der IT-Blase bekannt zu machen. Ich habe für andere Sprachen schon mal Promo-Material erstellt, wenn ich die Zeit finde werde ich da mal etwas davon übersetzen.

Es gibt jetzt zu einigen der Themen ein paar Updates:

Hier z.B. über die Qualität der Sätze. Im vorletzen Absatz klingt das so als würde es bald (“zweites Quartal”) Richtlinien zum Validieren geben:

1 Like