✅ Vorläufige Richtlinien für das Validieren von Sätzen

Vorläufige Richtlinien für die Kontrolle der Aufnahmen
(freie Übersetzung der englischen Richtlinien ins Deutsche von @mozilla_fire und mir)

Probleme mit der Aufnahme selbst:

Vorlage falsch vorgelesen:

Du solltest sehr sorgfältig überprüfen, dass das, was aufgezeichnet wurde, ganz genau das ist, was geschrieben steht. Klicke auf Nein, wenn es nur geringfügige Fehler aufweist. Häufig vorkommende Fehler können sein (ohne Anspruch auf vollständige Auflistung aller Gründe):

  • ausgelassene Artikel, z.B.: ‘ein’, ‘der’ am Anfang, unvollständiges erstes Wort (weil man schon spricht, bevor man auf ‘Aufnehmen’ geklickt hat)

  • vergessene oder undeutliche Plural ‘s’; oder verschluckte Pluralendungen (’…en’, ‘…es’) am Ende eines Wortes

  • Undeutliche ‘t’, stattdessen ‘d’; analog hört man oft statt ‘p’ nur ein ‘b’

  • Nicht vorhandene (ausgelassene) Buchstaben in einem Wort; auch: Buchstaben gesprochen, die gar nicht da sind.

  • Eigene Ergänzungen eines Satzes (sogenannte “Umdeutungen”, die Fehlerkorrektur, die unser Gehirn selbstständig übernimmt; hier ist ein “sich selber zuhören” ganz, ganz wichtig)

  • Vorlesen eines Plural - ‘s’ wo im Text keiner steht; auch das Weglassen eines ‘s’ oder anderer Endungen (geschweige denn: ganzer Silben)

  • Unzulässige Konkatenation (die es umgangssprachlich oft gibt), die aber nicht im geschriebenen Satz so stehen.

  • Mehrere Anläufe ein Wort vorzulesen

Beispiele (im Deutschen):

  • :white_check_mark: “auf der einen Seite … auf der anderen Seite”
  • :x: “… auf der andren Seite”, oder “auf der andern Seite”;
  • :white_check_mark: “wir sind…”
  • :x: (im Dialekt oft üblich): “Wir sin”, “Mer sind…”, oder noch extremer: “Mer san …”
  • :x: Abgeschnittene Wortendungen am Satzende, weil man zu schnell auf ‘STOP’ beim Recording geklickt hat (Hinweis: man kann seinen eigenen Text auch nochmal anhören, man >sollte< dies sogar immer tun).
  • :x: Versprecher beim Vorlesen und Wort- oder Silbenwiederholung (besser: Recording abbrechen und nocheinmal aufnehmen, dies geht sogar mehrmals, bis es korrekt ist)
  • :x: Stottern, nicht-flüssiges Vorlesen (Hinweis: es hilft, wenn man VOR der Aufzeichnung den Satz einmal stumm sich durchliest).

Viele Beispiele aus der englischen Richtlinie lassen sich nicht 1:1 ins Deutsche übertragen, es lohnt sich daher auch noch die englischen Regeln zu lesen, um ein besseres Verständnis von qualitativ hochwertigen Sätzen zu bekommen.

Vorsicht bei vermeintlich falscher Aussprache und Betonung!

Sei vorsichtig, wenn Du einen Text aufgrund einer Betonung zurückweisen willst. Betonung und Wortmelodie, genauso wie Satzmelodie (etwa das Anheben der Stimme bei Fragesätzen) können regional sehr unterschiedlich ausgeprägt sein. Solche für Dich ungewohnten Betonungen und Sprachmelodien können sogar in Deiner eigenen Sprache in anderen Gegenden üblich sein, die Du selbst aber als ungewöhnlich und falsch empfingen könntest. Weise einen Text allein aus diesem Grund noch nicht zurück, sondern lasse auch solche für Dich ungewohnten Aussprachen zu und ermögliche damit eine vielfältige Sprachdatenbank

Andererseits, wenn Du der Meinung bist, dass der Sprecher möglicherweise ein bestimmtes Wort noch nie gehört hat und lediglich rät, wie es wohl ausgesprochen werden könnte, dann weise diese Aufnahme durchaus zurück. Insbesondere dann, wenn Du selbst weißt, wie ein Begriff richtig ausgesprochen wird.

Im Zweifel kannst Du eine Aufnahme jederzeit überspringen, wenn Du Dich weder für ‘akzeptieren’ noch für ‘zurückweisen’ entscheiden kannst.

Nuscheln

  • :x: Unverständliche Aufnahmen kann man ablehnen

Mikrofonfehler

Manche Mikrofone knacken, übersteuern, verzerren die Stimme stellenweise oder erzeugen andere Probleme. Wir möchten möglichst realistische Daten sammeln, daher sind solche Aufnahmen in Ordnung, so lange der gesprochene Text weiterhin verständlich bleibt

  • :white_check_mark: [Knack] Die gewaltigen Dinosaurier [Wort verzerrt aber noch verständlich] wandelten über den Planeten.
  • :x: Die gewaltigen [Knack] wandelten über [unverständlich verzerrt] …neten.

Hintergrundgeräusche:

Wir wollen die Algorithmen dazu bringen, dass sie ein gewisses Maß an Hintergrundgeräusch akzeptieren und auch sauber verarbeiten können. Sogar relativ laute Geräusche können noch verarbeitet werden, vorausgesetzt, dass Dich es (als menschlicher Zuhörer) nicht dabei hindert (bei sehr genauem Zuhören), alles am Text verstehen zu können. Ebenfalls ist leise Hintergrundmusik zu okay, vorausgesetzt, sie hindert Dich nicht am Verständnis des Textes; würde die Musik dafür zu laut dann ist dies nicht mehr akzeptabel.

Überlagernde Störgeräusche oder Fehler, die man während dem Vorlesen macht (Husten, Räuspern, Stimme versagt oder wird belegt oder heiser, oder es kommt silbenweise nur “heiße Luft”): hier ist der Text nicht mehr vollständig und sauber zu hören, daher ist eine solche Aufnahme zurückzuweisen.

Tipp: Mit geschlossenen Augen zuhören, und entscheiden, ob man ohne das geschriebene Wort vor Augen den Text tatsächlich noch verstehen würde

Hintergrund-Stimmen:

Leises und/oder unverständliche Stimmen sind okay, aber wir wollen keine zusätzlichen Stimmen, die den Algorithmus dazu bringen, weitere (nicht im Text vorhandenen) Wörter zu identifizieren. Wenn Du einzelne (überlagerte) Worte heraushören kannst: bitte die Aufzeichnung zurückweisen.

Typische Situationen, in denen dies vorkommt: Der TV ist noch an, oder es finden nebenher [im selben Raum] noch andere Unterhaltungen statt.

Lautstärke einer Aufzeichnung

Es gibt natürliche Variationen in der Lautstärke der Aufnahmen. Weise bitte nur Aufzeichnungen zurück, die derart übersteuert sind, dass es im Lautsprecher (Kopfhörer) bereits ‘kracht/knackst’. Oder im anderen Extrem, wenn die Aufzeichnung bei Dir, trotz maximaler Lautstärke, nicht zu verstehen ist (ohne dass Du zusätzlich den Text in geschriebener Form zur Hilfe nimmst).

Variationen des Sprachstils:

Wir gehen davon aus, dass die Sprecher mit Ihrer normalen Alltags-Stimme sprechen. Du kannst auch Aufnahmen akzeptieren, die gelegentlich gebrüllt, geflüstert oder in andere Art und Weise ‘dramatisiert’ vorgetragen werden. Bitte weise aber Aufnahmen zurück, die gesungen werden und solche, die sich nach einer synthetischen Stimme anhören.
Hast Du Probleme mit dem eigentlichen Text der Sätze? Dafür gibt es im englischen Original der Guidelines einen Link zu einem Diskussionsfaden bzgl Regeln für neue Texte. Fehler im Text können jederzeit über den Melde-Button unten links gemeldet werden.

Immer noch unsicher?

Wenn Du noch keine Antwort auf Deine Fragen gefunden hast, so entscheide nach bestem Wissen und Gewissen, im Zweifelsfall benutze (bei der Kontrolle einer Aufnahme) den Button “Überspringen” unten rechts.


Übersetzer, Anmerkungen:
@mozilla_fire (ist in den Top 10 der deutschen Reviewer und in den Top 100 bzgl der Gesamt-Reviewer). Diese Übersetzung wurde dann noch von mir (@stergro) angepasst und erweitert.

@jf99 kannst Du diesen Thread bitte anpinnen?

Dieser Text wird sich sicher noch verändern. Wenn Ihr Anmerkungen, Ideen oder bessere Beispiele habt, dann schreibt sie hier bitte. Ich füge ich sie dann gerne noch hinzu.

3 Likes

@stergro Gute Arbeit habt ihr hier geleistet. Ich würde den Thread gerne anpinnen, wenn ich wüsste wie. Ich würde dich auch gerne zum Moderator ernennen, da du offensichtlich im Moment mehr Zeit für Common Voice findest als ich. Auch hier bin ich mir leider nicht sicher, wie bzw. ob ich das kann.

Hi, ein paar dieser Regeln stellen ein Problem dar – nämlich für Menschen aus Gegenden, in denen auch Standarddeutsch fast immer auf Arten ausgesprochen wird, die gegen sie verstoßen. Ich bringe hier ein paar Beispiele.

  • Undeutliche ‘t’, stattdessen ‘d’; analog hört man oft statt ‘p’ nur ein ‘b’

Ich kenne eine gar nicht so insignifikante Anzahl von Menschen aus Niederösterreich, die diese Unterscheidung einfach nicht machen. Wenn sie sich darauf konzentrieren, können sie das eine oder das andere bewusst produzieren, aber nicht unbedingt innerhalb des selben Wortes beide Laute. Selbst wenn sie Standarddeutsch sprechen – sagen wir, sie halten eine wichtige Rede, ohne besonders lange darauf trainiert worden zu sein – machen sie sicher keinen Unterschied dazwischen, weil das ihren Sprachfluss stören würde.
Selbst bin ich aus einer Gegend, in der diese Laute zwar unterschieden werden, aber anders verteilt sind, als die Buchstaben es nahelegen. Ich kann nicht ohne starke Konzentration die jeweils andere Version sagen.

  • Unzulässige Konkatenation (die es umgangssprachlich oft gibt), die aber nicht im geschriebenen Satz so stehen.

Mit dem ist es sehr ähnlich. Ich kann zwar statt “Hundn” “Hunden” sagen, aber mit Konzentration und Störung meines üblichen Sprachflusses.

Und da wird schon klar, was das Problem ist. Common Voice soll ja möglichst alltägliche Sprache sammeln, um darauf Spracherkennungs-Modelle trainieren zu können. Spracherkennung soll für alle nutzbar sein, die diese Sprache verwenden. Nicht-dialektal und möglichst klar zu sprechen bedeutet noch nicht, dass jegliche regionale Färbung ausgeschaltet werden kann.

Wird das Modell ohne solche Varianten trainiert, führt das dazu, dass nur Menschen verstanden werden, die auf diese bestimmte Art sprechen. Ich zieh also irgendwann in der Zukunft mein googlefreies Telefon aus der Tasche, drück auf den Diktat-Knopf, weil ich meine Hände schonen will, und muss ersteinmal mein Bühnendeutsch trainieren, um verstanden zu werden. :joy:

Ich hoffe, ihr könnt nachvollziehen, was ich meine. “hi, wia sin noch untawegs, ich meld mich nachher wegn den Hundn” ist eine Aussprache-Variante, die so ein Programm verstehen muss, um in manchen Gebieten überhaupt nutzbar zu sein. Genau für den Umgang mit solchen Unterschieden kann im Profil der Akzent ausgewählt werden.

Deswegen hoffe ich, dass die deutschsprachige Community diese Ansprüche nocheinmal überdenkt. Anmerken möchte ich besonders, dass sich in den englischen Regeln solche Aussprache-Guides nicht finden – aus gutem Grund, denn genau wie Deutsch ist auch Englisch eine plurizentrische Sprache mit stark variierender Aussprache auf sämtlichen Ebenen der Formalität.

Das einzige dort verwendete Beispiel ist “we are”/“we’re”, was auf Deutsch etwa mit “geht es”/gehts" vergleichbar ist. Die deutschen Regeln dagegen verbieten unterschiedliche Arten, das Wort “geht” an sich auszusprechen, etwa als “gedd”. Das ist ein gravierender Unterschied mit großen Auswirkungen auf die Verwendbarkeit des Datensatzes.

Da kann ich Dir Recht geben. Auch ohne österreichisch gefärbtes Deutsch gibt es genug Probleme auf dem Staatsgebiet Deutschland, dass sich Menschen untereinander verstehen können, wenn sie nicht Hochdeutsch reden.

Mein völlig empirischer Eindruck ist es, dass in Deutschland Dialekte noch weiter auseinander fallen und vielfältiger sind als z.B. in den Ländern mit romanischen Sprachen. Gut möglich, dass ich mich da täusche.

Wenn man wirklich regionale Besonderheiten respektieren wollte und nicht mit kulturimperalistischem Zwang alle Beteiligten auf eine Art Aussprache einnorden wollte, dann bräuchte es ein viel granularer abgestimmtes Sprachmodell.

Ich denke, dass ist in Anbetracht des Zeitaufwands mit den heutigen technischen und organisatorischen Voraussetzungen nicht realisierbar, deswegen wird der hier aufgebaute Sprachkorpus nur grob für doofe Automaten erstellt, die halt nur Hochdeutsch mit geringen Abweichungen können. Wie sollten auch die “Anhörer” dialektale Fehler heraushören können, wenn sie selbst den Dialekt nicht beherrschen?

Es wäre traumhaft, wenn Software eines Tages sowohl Dialekt sprechen und verstehen könnte. Ich bin sicher, dass das kommt.

Wie Frau Dr. Prof. Nanda Piersma https://www.youtube.com/watch?v=w8dixW6ycAY sagt, arbeitet Sie an Modellen, die auch Emotionen aus der Sprache heraushören und Bewerber für das Recruiting für bestimmte Aufgaben nach ihrer Tonalität filtern können. Das ist faszinierend und gruselig zugleich, dass es das geben wird.

Dieses common voice Projekt ist nur eine Basis künftiger Computer-Mensch Interfaces, die bisherige Nutzer-“Oberflächen” mit Nutzer-“Soundscapes” erweitert und in vielen Bereichen sogar ablöst.

Wir sind hier ganz am Anfang mit der Entwicklung.

Variationen im Datensatz sind gewünscht, aber nur als Akzente. Es muss also so klingen als würde jemand aus einer Dialektregion Hochdeutsch sprechen, aber es darf nicht Dialekt gesprochen werden und das Geschriebene Wort nicht verändert werden. Meiner Meinung nach sind aber kleinere Nuschler und ein wenig verschlucken von Silben okay und hilft eher den Datensatz zu verbessern. Wir möchten ja einen Datensatz haben, der nah an der Sprachrealität der Menschen dran ist.

So wie die Technologie im Moment funktioniert muss man, wenn man das möchte für jeden Dialekt eine eigene Sprachversion innerhalb Common Voice anlegen. Das gibt es bereits, z.B. für verschiedene kurdische Dialekte und für Westfriesisch. Die Diskussion kommt immer wieder auf, z.B. hier wurde ausführlich darüber diskutiert:

Leider scheitert der Aufbau einer eigenen Dialekt-Sprachversion oft daran, dass Dialekte nicht standardisiert sind und deswegen die Sätze zum Vorlesen nicht alle der gleichen Grammatik folgen würden und Wörter immer unterschiedlich geschrieben werden. Es gibt aber trotzdem die Dialektversionen der Wikipedia, die man verwenden könnte, um einen relativ großen Satzkorpus aufzubauen. Am Ende hätte man dann eine Spracherkennung nur für einen Dialekt, der auch alles in Dialektform ausgibt und schreibt.

Wenn aber jemand eine alemannische Version von Common Voice aufbauen möchte, helfe ich gerne.

1 Like

häufig höre ich vergleichsweise sehr leise, eingesprochene Sätze. Sie sind richtig ausgesprochen, aber sehr leise. Bis jetzt hab ich viele sätze negativ bewertet weil sie sehr leise sind. Nach meinem Verständnis, von weiter oben, muss das aber nicht sein.

Mein Vorschlag wäre das man solche Tipps zum Anhören von Gesprochenem zwischendrin mal als Sprechblase, während des Anhörens, gibt.
So was wie die Büroklammer in Word, die gelegentlich kleine Tipps gibt wie man mit häufig vorkommenden, unklaren Situation umgeht. Das könnte die Qualität von Gesprochenem und Angehörtem deutlich erhöhen und würde bei allen Beteiligten zu mehr Zufriedenheit führen.