This thread is supposed to discuss issues concerning the German language. That’s why the rest of this post is written in German.
Nach einem Monat, in dem der Sentence Collector nun in Betrieb war, muss ich feststellen, dass dort nicht nur viele offensichtlich fehlerhafte Sätze hinzugefügt werden, sondern dass diese auch viel zu oft durchkommen. Dass möglichst alle Sätze korrekt geschrieben sind, ist aber wichtig, damit auf Common Voice basierende STT-Systeme nicht von vornherein Rechtschreibfehler produzieren.
Die meisten Fehler werden immer wieder aufs Neue gemacht. Dies ist sicherlich auch der Tatsache geschuldet, dass man beim Review bisher nur annehmen oder ablehnen kann. Korrekturvorschläge und Kommentare sind nicht möglich. Dadurch fehlt der Dialog zwischen Autoren und Reviewern. Aus so einem Dialog könnten Autoren lernen, ihre Lieblingsfehler in Zukunft zu vermeiden. Genau diese Erfahrung habe ich gemacht, bevor das Sentence Collector Tool zur Verfügung stand und neue Sätze per Pull Request auf Github akzeptiert wurden. @Ordoviz hat mir “damals” sehr wertvolles Feedback gegeben:
Ähnlich fruchtbare Arbeit würde ich mir auch für das Tool wünschen.
Solange das Tool selbst keinen Dialog erlaubt, möchte ich diesen Thread zur Diskussion von häufigen oder strittigen Fällen nutzen. Daraus lassen sich vielleicht eine Handvoll Regeln ableiten, die anschließend direkt ins How-To für deutsche Nutzer ins Tool integriert werden können.
Hier ist eine Liste von Regeln, die meiner Meinung nach besonders oft missachtet werden. Diese Liste ist als Vorschlag zu verstehen. In meinen eigenen Beiträgen und Korrekturen versuche ich, mich stets danach zu richten:
-
Wir verwenden die neue deutsche Rechtschreibung. D. h. u. a.: Ein scharfes S wird nach einem kurzen Vokal “ss” (Elsass), nach einem langen “ß” (Schoß) geschrieben. Die Personalpronomen du, ihr, dir, euch und dich werden kleingeschrieben. Wenn man jemanden siezt, schreibt man das entsprechende Sie oder Ihr hingegen groß:
Nehmen Sie Ihre Finger da weg! -
Wenn mehrere Schreibweisen möglich sind, richten wir uns nach der Empfehlung des Dudens: zu Hause statt zuhause, circa statt zirka, sodass statt so dass
-
Auf “mal” endende Wörter werden in zwei Wörter getrennt, wenn das “mal” die verkürzte Form von “einmal” ist: erst mal, noch mal, schon mal
Nicht jedoch: erstmals, allemal, diesmal -
“mal”-Wörter mit Zahlen jedoch zusammen: einmal, zweimal, zehnmal, dreißigmal, hundertmal
-
Eigennamen werden großgeschrieben: Internationale Raumstation, Deutsche Demokratische Republik
Im Zweifelsfall hilft es, sich am entsprechenden Wikipedia-Artikel zu orientieren. -
Nebensätze werden mit Kommas abgetrennt. Man erkennt sie daran, dass sie ein eigenes Prädikat haben:
Denkst du, ich kann das?
Ich gehe zum Bäcker, um Brötchen zu holen. -
Fragen beendet man mit Fragezeichen.
Ich hoffe, wir können als deutsche Community von Common Voice eine gemeinsame Übereinstimmung darüber erzielen, was wie geschrieben wird. Ergänzungen, Alternativvorschläge und Diskussionen sind willkommen und erwünscht.
Außerdem möchte ich alle Autoren bitten, wenigstens einen Spellchecker zu benutzen, bevor man die Sätze ins Tool kopiert. Firefox hat zum Beispiel einen eingebaut. Weitergehende Korrekturen kann z. B. https://languagetool.org/ bieten.