Start einer speziellen Kampagne u. a. für Deutsch und massenhaft neue Sätze

Hallo zusammen,

wir würden euch gerne mitteilen, dass unsere Bemühungen, mehr Sätze zum Vorlesen zusammenzutragen, erfolgreich waren. Als Resultat haben wir ab sofort genügend Sätze in Deutsch, Französisch und Spanisch, um richtig große Stimmsammlungsaktionen starten zu können.

Damit folgen die drei neuen Sprachen den Sprachen Englisch und vereinfachtem Chinesisch. An letzteren beiden wurde der Ansatz des Imports von Fremdquellen zuerst getestet.

In dieser Woche werden wir eine Kampagne in den neuen Sprachen starten, um die Leute zum Beitragen zu Common Voice zu motivieren. Dies wird den internen Newsletter von Mozilla, Firefox Snippets und Social-Media-Kanäle betreffen.

Wir werden diesmal nicht zu Veranstaltungen aufrufen, aber wer dennoch welche umsetzen will, kann das natürlich gerne machen (hier gibt es Anregungen). Das Ziel ist, möglichst viele Menschen aus möglichst unterschiedlichen Altersklassen, Dialekten, Geschlechtern usw. zum Mitmachen zu bewegen. Besonders wertvoll wären Beiträge von bisher unterrepräsentierten Gruppen (d. h. unter anderem Frauen und ältere Menschen). Vielen Dank euch allen für euer Mitwirken!

Anmerkung: Dies ist eine freie Übersetzung des englischen Originaltexts. Die neuen Sätze sind halbautomatisch extrahierte Schnipsel aus Wikipedia. Was haltet ihr davon? Findet ihr das neue Material gelungen oder ist es zu fehlerhaft/klinisch/kompliziert vorzulesen/…? Euer Feedback würde mich interessieren.

1 Like

Hallo ich bin ein wenig bei Code for Germany aktiv (https://codefor.de/). Wir haben in vielen Städten lokale Gruppen und sind sozusagen die Ortsgruppen der Open Knowledge Foundation Germany. Was habt ihr denn so für Erfahrungen mit Aufnahme-Parties bezüglich Teilnahmebereitschaft, Lautstärke in der Räumlichkeit und was man noch so alles beachten muss? Also abgesehen von den generellen Tipps die Du schon verlinkt hast. Vielleicht schlage ich das mal bei mir im lokalen Lab als Aktion vor.

Am meisten interessiert mich dabei ob es sinnvoll ist für jeden Freiwilligen einen eigenen Account einzurichten oder ob man lieber einen Sammelaccount für alle einrichtet und dafür die Einstiegshürden senkt.

@stergro Das wäre eine super Sache, wenn du Common Voice auf diese Weise bekannt machen würdest. Erfahrungen mir Aufnahme-Partys habe ich persönlich keine (und ich glaube auch sonst niemand aus der deutschen Community). Ich weiß aber, das Mozilla selbst in Berlin ab und zu solche Veranstaltungen hat. Die haben extra einen Raum für solche Zwecke. Die Leute, die dort arbeiten, sind aber größtenteils englischsprachig. Falls du des Englischen mächtig bist, würde ich dir daher empfehlen, im englischen Forum oder auf anderem Wege direkt bei Mozilla nachzufragen.

Der Account erfüllt afaik zwei Zwecke:

  1. Mit den Aufnahmen sollen demografische Daten (Alter, Geschlecht, Dialekt) verknüpft werden.
  2. Der Datensatz, der in unregelmäßigen Abständen veröffentlicht wird, enthält ein offizielles Trainingsdatenset. Dies ist eine Untermenge des Gesamtdatensatzes. Dabei wird darauf geachtet, dass kein Geschlecht, keine Altersgruppe und kein Sprecher signifikant überrepräsentiert wird. Dazu muss man die einzelnen Sprecher voneinander unterscheiden können.

Früher konnte man Alter, Geschlecht und Sprachfärbung auch ohne Account einstellen. Für Aufnahme-Veranstaltungen wäre das meiner Meinung nach ein guter Weg, weil es bestimmt Leute gibt, die zwar zum Spenden ihrer Stimme bereit wären, dies aber nicht mit ihrer E-Mail-Adresse verknüpfen wollen.

Unter der Annahme, dass diese Möglichkeit nicht wiederkommt, würde ich Teilnehmern nahelegen, einen individuellen Account zu erstellen oder - wenn sie das nicht wollen - ohne Account aufzunehmen. Einen Sammelaccount würde ich nicht machen, denn die Sprecher werden sich ja unterscheiden. Lieber keine Metadaten angeben als falsche.

PS: Entschuldige bitte die späte Antwort. Ich bin kein offizieller Mitarbeiter von Mozilla oder so, nur ein Freiwilliger, der früh zum Projekt beigetragen hat und dafür ungefragt zum Forenmoderator gekürt wurde. :smiley:

1 Like

Hallo, ich bin neu angemeldet, habe aber schon viele Beiträge angehört und bewertet. Leider finde ich nicht den richtigen Ort für meine Nachricht. Könntet Ihr sie eventuell verschieben?
Mir ist nicht ganz wohl bei dem Gedanken, dass Nichtmuttersprachlerinnen als besonders wertvoll gelten. Manche haben eine tadellose Aussprache, aber andere liegen beim Erraten der Sätze völlig daneben. Wem nützt denn so etwas? Beispiel: weise klingt wie weiche, statt Moderatorin wird Moderation gelesen usw. Ich habe mir die Mühe gemacht, diese Fehler jeweils zu melden, aber bekommen die Sprecherinnen denn das jemals zu lesen? Auch Muttersprachler sehen oft nie genau hin und lesen ungeniert “Bürgerschaft” statt “Bürgschaft” oder sprechen in Ermangelung von Fremdsprachenkenntnissen einfach alles genauso aus, “wie es da steht”. Dann reimt sich ein frz. Prix auf nix, ein deutscher Forscher wird andererseits englisch ausgesprochen, gängige Fremdwörter werden gern auf der falschen Silbe betont. Dabei lässt sich das vermeiden. Taucht ein ausländischer offensichtlich prominenter Name auf, genügt ein Klick in die Wikipedia (oft mit Aussprache von Eigennamen). Bei Bedenken, es richtig auszusprechen, kann man alternativ auf “überspringen” klicken. Auch der Online-Duden ist per Klick erreichbar. Man muss sich nur eingestehen, dass man nicht alles weiß und auch mal etwas nachschauen. Man erspart den anderen damit viel Zeit und Arbeit. Hoffentlich habe ich jetzt keine Eulen nach Athen getragen. Danke.
P. S.: Gerade wieder ein Beispiel für Ausspracheverwechslung gehört: Weitergabe wurde als Wiedergabe missverstanden. Das geht doch einfach nicht. Lieber Klasse statt Masse.

1 Like

Hallo @monscampus willkommen im Forum,
Ziel dieser Datenbank ist es eine Spracherkennung zu bauen die jeder benutzen kann, deswegen werden explizit auch nicht-Mittersprachler gewünscht. Trotzdem muss der Satz natürlich richtig ausgesprochen werden oder wenn es Varianten gibt zumindest dem Geschriebenen entsprechen. Meiner Erfahrung nach gibt es bei allen Gruppen ähnlich viele Fehler, Muttersprachler benutzen z.B. oft aus versehen falsche Wörter wenn sie zu schnell lesen. Natürlich gibt es auch eine Reihe von Nicht-Muttersprachler die gar nichts zur Datenbank beitragen können, aber die werden dann ja über die Validierung heraus gefiltert.

Hast Du sie wirklich gemeldet oder hast Du einfach auf “Nein” geklickt? Nein genügt völlig, das melden bewirkt im Moment nicht viel außer ein Datenbankeintrag der manuell geprüft werden muss. Sprecher erfahren nie etwas davon, sie können aber sehen wie viel Prozent ihrer Aufnahmen angenommen wurden.

Auch falsche Aufnahmen sind wertvoll, denn damit kann man Computern beibringen Fehler zu erkennen. Deswegen landen auch alle aussortieren Aufnahmen in der Datenbank, nur in einem anderen Ordner.

EDIT: ich gehöre auch zu den strengeren Validatoren, bei mir sind 94% der Sätze korrekt, bei den anderen eher 97/98%. Ich finde eine qualitativ hochwertige Datenbank im Zweifel auch wichtiger als mehr verfügbare Sätze. Zum Glück gibt es ja immer Drei Meinungen pro Satz und wenn einer von drei Nein sagt genügt das ja auch um die unsauberen Sätze später heraus filtern zu können selbst wenn sie am Ende Teil der Datenbank sind.

Danke für die prompte Reaktion, Stefan. Tatsächlich war ich mir nie sicher, ob ich lieber Nein anklicken oder einen Fehler melden soll. Ersteres spart Zeit, aber vielleicht wird der Fehler sonst nie entdeckt? Gutes Beispiel: Satz wird einwandfrei gelesen, aber darin steht fälschlich “das” statt “dass”. Viele scheinen das gar nicht zu bemerken. Bin sehr gespannt, wie es weitergeht. Ich wäre sehr dafür, Freiwilligen schonend nahezulegen, dass sie nicht unbedingt Wörter und Namen aus fremden Sprachen wie geschrieben sprechen sollen, sondern dann lieber “überspringen”. Vor einer Sprachaufnahme können sie doch einen Blick auf den Satz werfen. Lesen ist ja auch für Muttersprachler oft eine nicht praktizierte Kunst.

Ach so meintest Du das. Fehler in den geschriebenen Sätzen sollte man schon Melden, nur bei Fehlern in der Aussprache ergibt das selten Sinn. Die gemeldeten Fehler werden unregelmäßig von einzelnen aufgeräumt.

Alles klar! Danke. Dann habe ich mich nicht umsonst bemüht.

Hallo Stergro,

wo kann ich diese Quote bei mir sehen?

@monscampus Ich habe ähnliche Bedenken, dass mit dem jetzige Verfahren zu viel Schrott in die Datenbank kommt.
Meiner erster Eindruck ist, dass ausländische Namen jenseits von Englisch und Französisch (z.B. Zoran Bihać) praktisch immer falsch ausgesprochen werden.

Hallo monscampus! Du sprichst mir aus der Seele! Ich habe nun mehrere hundert Dateien angehört und wundere mich über die Fehlerquote. Aus singular wird plural oder umgekehrt, aus Flusshafen Flughafen, aus Ereignissen Ergebnisse und so weiter. Ich sortiere das konsequent aus. Was mich noch interessieren würde: wo ist die Grenze zwischen Akzent und Dialekt gegenüber einem Sprachfehler? Wenn beispielswiese ein -ch- immer wie -sch- gesprochen wird und ein Satz dann (überspitzt) lautet: “Isch finde es nicht rischtisch, dass das Mädschen nischt in die Kirsche geht.”? Wie gehst du damit um - bzw. andere Leser dieser Antwort? Über einen Hinweis, wie ihr das handhabt, wäre ich dankbar.

wo kann ich diese Quote bei mir sehen?

Du findest die Quote in deinem Dashboard (Oben rechts im Menü auf dem Benutzernamen klicken, dann “Übersicht” und dort unten rechts in der Box " Aktivste Mitwirkende")

Ich finde genaus solche Dinge sollten wir drinn behalten, es geht bei dieser Datenbank ja gerade darum die Unterschiede einzufangen. Solange es weiterhin Hochdeutsch ist und nur einzelne Laute anders ausgesprochen werden finde ich das gutes Trainignsmaterial für das neuronale Netzwerk. Im Zweifel stelle ich mir immer die Frage: würde die Person auch so im Alltag mit einem Sprachassistenten sprechen oder könnte sie es noch besser ausprechen? Ist natürlich spekulation, aber mir hilft das bei der Entscheidung.

Vielen Dank stergrofür die Antwort! Den Hinweis zum Sprachassistenten im Alltagsgebrauch finde ich sehr hilfreich. Deutsch als plurizentrische Sprache mit diversen Standardvarianten hat ja eine große Bandbreite an Aussprachen, was sich ja auch widerspiegeln soll. Damit ein Sprachassistent den Kirchweg vom Kirschweg unterscheiden kann, würde vermutlich auch in rheinländischer oder hessischer Mundart ein Unterschied gesprochen werden :-), der sich sonst in der Alltagssprache verwischt.