Rules for German sentence contribution / Deutsche Sprache

jf99 · February 27, 2019, 9:40pm

This thread is supposed to discuss issues concerning the German language. That’s why the rest of this post is written in German.

Nach einem Monat, in dem der Sentence Collector nun in Betrieb war, muss ich feststellen, dass dort nicht nur viele offensichtlich fehlerhafte Sätze hinzugefügt werden, sondern dass diese auch viel zu oft durchkommen. Dass möglichst alle Sätze korrekt geschrieben sind, ist aber wichtig, damit auf Common Voice basierende STT-Systeme nicht von vornherein Rechtschreibfehler produzieren.

Die meisten Fehler werden immer wieder aufs Neue gemacht. Dies ist sicherlich auch der Tatsache geschuldet, dass man beim Review bisher nur annehmen oder ablehnen kann. Korrekturvorschläge und Kommentare sind nicht möglich. Dadurch fehlt der Dialog zwischen Autoren und Reviewern. Aus so einem Dialog könnten Autoren lernen, ihre Lieblingsfehler in Zukunft zu vermeiden. Genau diese Erfahrung habe ich gemacht, bevor das Sentence Collector Tool zur Verfügung stand und neue Sätze per Pull Request auf Github akzeptiert wurden. @Ordoviz hat mir “damals” sehr wertvolles Feedback gegeben:
https://github.com/jf99/voice-web/pulls?q=is%3Apr+is%3Aclosed
Ähnlich fruchtbare Arbeit würde ich mir auch für das Tool wünschen.

Solange das Tool selbst keinen Dialog erlaubt, möchte ich diesen Thread zur Diskussion von häufigen oder strittigen Fällen nutzen. Daraus lassen sich vielleicht eine Handvoll Regeln ableiten, die anschließend direkt ins How-To für deutsche Nutzer ins Tool integriert werden können.

Hier ist eine Liste von Regeln, die meiner Meinung nach besonders oft missachtet werden. Diese Liste ist als Vorschlag zu verstehen. In meinen eigenen Beiträgen und Korrekturen versuche ich, mich stets danach zu richten:

Wir verwenden die neue deutsche Rechtschreibung. D. h. u. a.: Ein scharfes S wird nach einem kurzen Vokal “ss” (Elsass), nach einem langen “ß” (Schoß) geschrieben. Die Personalpronomen du, ihr, dir, euch und dich werden kleingeschrieben. Wenn man jemanden siezt, schreibt man das entsprechende Sie oder Ihr hingegen groß:
Nehmen Sie Ihre Finger da weg!
Wenn mehrere Schreibweisen möglich sind, richten wir uns nach der Empfehlung des Dudens: zu Hause statt zuhause, circa statt zirka, sodass statt so dass
Auf “mal” endende Wörter werden in zwei Wörter getrennt, wenn das “mal” die verkürzte Form von “einmal” ist: erst mal, noch mal, schon mal
Nicht jedoch: erstmals, allemal, diesmal
“mal”-Wörter mit Zahlen jedoch zusammen: einmal, zweimal, zehnmal, dreißigmal, hundertmal
Eigennamen werden großgeschrieben: Internationale Raumstation, Deutsche Demokratische Republik
Im Zweifelsfall hilft es, sich am entsprechenden Wikipedia-Artikel zu orientieren.
Nebensätze werden mit Kommas abgetrennt. Man erkennt sie daran, dass sie ein eigenes Prädikat haben:
Denkst du, ich kann das?
Ich gehe zum Bäcker, um Brötchen zu holen.
Fragen beendet man mit Fragezeichen.

Ich hoffe, wir können als deutsche Community von Common Voice eine gemeinsame Übereinstimmung darüber erzielen, was wie geschrieben wird. Ergänzungen, Alternativvorschläge und Diskussionen sind willkommen und erwünscht.

Außerdem möchte ich alle Autoren bitten, wenigstens einen Spellchecker zu benutzen, bevor man die Sätze ins Tool kopiert. Firefox hat zum Beispiel einen eingebaut. Weitergehende Korrekturen kann z. B. https://languagetool.org/ bieten.

Bullnados · March 3, 2019, 8:14pm

Die Kommasetzung ist auch oft eher schlecht.
Aber ich finde auch, dass hier ein Guide fehlt, um eine Richtlinie zu haben, was man up oder downvoten kann.
Die Kommsetzung kann ja bekanntlich leben retten und hat Auswirkungen für die Betonung von Sätzen.
Ist es aber relevant, dass man ß oder ss unterscheidet?

Auch verstehe ich nicht, warum man die Sätze nicht im Collector meinetwegen sammelt und pre-reviewed und das ganze dann in https://pontoon.mozilla.org/de/ überträgt?

Was haltet ihr von der Idee eine Google/Excle Online Sheets oder anderer Dienst, in welches man initial die Sätze einträgt? So könnte man die Sätze reviewen und kommentieren. Und dann eine disskutierte Version in die sentence-collection einfügen?

Bruno.Fischer · March 4, 2019, 5:56am

Hallo @jf99 !

ich finde deine Hinweise sehr gut. Wichtig ist, dass die Anleitung und die Regeln auf der Seite übersetzt werden!

Außerdem wäre es gut, wenn man statt Daumen runter, auch die Rechtschreib-/Kommafehler bearbeiten könnte. D.h. der Satz wird bei einer Bearbeitung gesperrt und beide Sätze Richtig und Falsch stehen zur Auswahl und 3 oder 5 Leute müssen sich für einen Satz entscheiden. Wenn das geschehen ist, dann kann über den Satz selbst entschieden werden.

Gruß

nukeador · March 5, 2019, 12:16pm

Hi,

Since this is going to be a conversation in German I’ve moved it to #communities:germany category. We don’t really have a better place here and posts in Common Voice are expected to be in English to avoid generating noise to the rest of the people there.

Thanks for your understanding.

Cheers.

jf99 · March 7, 2019, 3:18pm

@nukeador The problem with that is that people won’t find this thread if it’s not in the Common Voice category. I am trying to target everyone who is contributing German sentences to Common Voice. Can we place a direct link somewhere in the collector tool?

@Bruno.Fischer Genau so stelle ich mir die Korrekturfunktion im Sentence-Collector auch vor. Eine Korrekturfunktion ist afair auch geplant, aber wer weiß, wann die kommt. Ich finde das entsprechende Issue auch gerade nicht auf Github.

Ja, natürlich. Wenn ich dem Computer diktiere, dass ich viel Spaß hatte, dann soll er “Spaß” auch bitte mit ß schreiben, weil das die derzeit einzige korrekte Schreibweise ist.

@Bullnados Den Vorschlag mit Pontoon verstehe ich nicht. Das ist doch ein Tool, um die Interfaces von Software zu lokalisieren/übersetzen. Inwiefern würde uns das hier helfen?

@all: Was haltet ihr davon, wenn jemand “kucken” schreibt? Laut Duden ist das inzwischen ein normales Verb, allerdings norddeutsch. Ich komme aus Norddeutschland und mir wurde gelehrt, dass man nicht “kucken” schreibt, sondern “gucken”. Auch wenn jemand, der mir diktiert, es wie kucken ausspricht, würde ich es mit g schreiben. Andere Aussprachen dieses Wortes höre ich eigentlich nie.

Daher mein Vorschlag: Wir schreiben es immer mit g. Wenn wir sowohl Sätze mit “gucken” als auch welche mit “kucken” hätten, müssten wir von den Lesern verlangen, dass sie beides unterschiedlich aussprechen. Was sind eure Meinungen?

nukeador · March 7, 2019, 3:20pm

I’m not able to understand anything that is being discussed in this topic. I suggest you post a summary in English in the main Common Voice category if you think it’s useful.

Thanks!

Ordoviz · March 7, 2019, 8:09pm

Habe den Thread hier gerade zufällig entdeckt. Ich habe auch schon mehrere Sätze überprüft und werde zukünftig mal zu den häufigen Fehlern beisteuern. Reviewt bitte die Sätze im Screenshot nicht; sind nämlich gute Werbung hierfür

Bezüglich gucken und kucken: Ich komme auch aus Norddeutschland und kenne das Verb gesprochen nur mit k und geschrieben nur mit g. Wenn also jemand kucken sagt, würde ich gucken aufschreiben. Ich denke daher, dass wir beide Aussprachen akzeptieren sollten, uns aber an die standardsprachliche Schreibweise halten sollten (solange das die STT-Engine nicht verwirrt).

jf99 · March 7, 2019, 9:21pm

Und standardsprachlich heißt in deinen Augen was? Laut Duden sind beide Schreibweisen korrekt, jedoch ist die eine norddeutsch, die andere hingegen umgangssprachlich.

mhack · March 8, 2019, 1:05pm

Das ß existiert in der Schweizer Rechtschreibung nicht, Spass wird also hier auch so geschrieben. Was ist die beste Methode damit umzugehen? Ich kenne die regeln für das ß nicht und würde dann keine Sätze beitragen können.

Bullnados · March 8, 2019, 6:28pm

Pontoon war nur eine fixe Idee.

Im Endeffekt wäre es nur wichtig, dass
a) Mehrere Leute den Satz reviewen könnten, ähnlich zu Transifex. Hier wird zuerst übersetzt und die Phrase kann verwendet werden, der als zweiter Schritt wird die Phrase reviewed.
Sowas würde ich mir auch wünschen, dass man gerreviewdte Sätze erneut anschauen kann
b) Ähnlich zu Voice sollten auch sowas einstellbar sein wie Deutsch(Schweiz) etc.

jf99 · March 8, 2019, 9:28pm

Hm, das mit der Schweiz ist ein guter Einwand. Für Englisch werden ja auch verschiedene Schreibweisen akzeptiert (amerikanisch, britisch usw.). Chinesisch wird hingegen aufgetrennt in China, Taiwan und Hong Kong.

Ich glaube, es wäre sinnvoll, eine einheitliche Schreibweise zu haben. Sonst wird es am Ende vom Zufall abhängen, was die STT-Engine ausspuckt. In einem Satz könnte “Spaß” stehen und im nächsten plötzlich “Spass”. Wenn mein ein STT für Schweizerdeutsch haben wollte, könnte man aber prinzipiell eins nehmen, das auf Hochdeutsch trainiert wurde und eine Übersetzerschicht dahinter schalten, die aus ß wieder ss macht. Solche Schichten wird es wohl sowieso geben, alleine um Zahlen vernünftig aufzuschreiben (achtzehnhundertzweiundsechzig -> 1862)-

Die ß-Regel habe ich übrigens im ersten Post erläutert. Man schreibt es immer (und nur), wenn auf einen langen Vokal (oder Doppelvokal wie “ei”) ein scharf gesprochenes S folgt.

jf99 · March 9, 2019, 8:49pm

Habe gerade einige Stunden investiert, um Fehler aufzuräumen. Wer mag, kann gerne mal rüberschauen:

github.com/common-voice/common-voice

Remove incorrect German sentences

common-voice:master ← jf99:corrections

opened 08:31PM - 09 Mar 19 UTC

jf99

+1 -159

[According to](https://discourse.mozilla.org/t/grammatically-poor-sample-sentenc…es/36463/14) @nukeador, we shall make PRs to correct wrong submissions through the sentence collector. This is such a PR. Whenever I downvote a sentence in the collector tool, I re-submit a corrected version of it. As a result, many sentences made it twice into the corpus - once correctly, once incorrectly. The first commit removes the incorrect sentences in such cases. The second commit fixes a lot of other issues. Here is the list of corrected sentences which I ~~am going to submit~~ already submitted to the tool: sentence-collector.txt: > Ja, warum denn bitte schön nicht? > Stattdessen hat ihm die Ärztin einen Katheter ans Herz gelegt. > Ist Common Voice zusammengebrochen? > Ich möchte weitere Sätze für Common Voice kreieren. > Ob das stimmt, bin ich mir gar nicht so sicher. > Die Müritz ist der größte Binnensee in Mecklenburg-Vorpommern. > Man könnte meinen, in der Bauordnung wären weiße Häuser vorgeschrieben gewesen. > Annette hob den Martini hoch und sprach einen Toast. > Appetit holt man sich woanders, gegessen wird zu Hause. > Sag mal, tanzen die Nachbarn da oben wieder Polka? > Beziehen Sie Leistungen von Staat? > Facebook bietet dir Lösungen, die nicht rechtskonform sind. > Man glaubte es nicht, der vierjährige Junge spielte das Schlagzeug wie ein Profi. > In Wirklichkeit kannst du dir Folgendes überlegen, wenn ein Trojaner angreift. > Maroni denkt, wir kommen zu ihr, um mit ihr frühstücken zu gehen. > Hör auf, mit der Schere zu spielen! > Hände hoch oder ich schieße! > Man muss die Erinnerung an die Verbrechen und die Gräueltaten der Nazis wach halten. > Ich hasse dich! > Das ist die eine Möglichkeit, es zu erkennen. > Tschüss, bis zum nächsten Mal! > Sie musste sich den Satz gleich ein paarmal anhören, um sich zu versichern. > Ihr beide schwebt ja regelrecht auf Wolke sieben. > Gleich schwinge ich mich auf das Fahrrad und nehme den Hund mit. > Andere versuchen, dem Meeressäuger zu helfen. > Bei manchen vorgelesenen Sätzen könnte man meinen, die Stimme würde verstellt. > Man will ja wissen, woran man ist. > Das ist unfair, so mit mir umzugehen. > Gestern hat er plötzlich angefangen, sich wie wild zu kratzen. > Wenn wir Glück haben, können wir gleich auf unsere Zimmer. > Na ja, das ist aber nur ein Teil der Wahrheit. > Sie haben eine WhatsApp-Gruppe für das neue Baugebiet generiert. > Meine Sätzesammlung entnehme ich diversen WhatsApp-Gruppen. > Kann man auch eigene Motive erstellen und sich aufs T-Shirt drucken lassen? > Bitte Zutreffendes ankreuzen. > Wieso schießt der mit links? Ich schieße mit rechts. > Ich habe der Wespe mehrere Chancen gegeben, abzuhauen. > Ich setze dieses Mal den Trend. > Könntest du das Toastbrot aus dem Toaster nehmen? > Ich brauche jetzt etwas Härteres als Bier. > Letztes Mal war er echt süß. Nicht mehr so krumpelig. > Und wieder gerät der Nachschub ins Hintertreffen. > Musst du da reinschießen? > Venezuela kann einem echt leidtun. > Manchmal täte ich gern noch etwas korrigieren. > Schnelle Schiffe erzeugen größere Wellen, die sich aber genauso schnell ausbreiten. > Damit will die Partei ausdrücken, dass sie genauso inhaltslos wie das Plakat ist. > Wie heißt du? > Freddie machte sich auf den Heimweg. > Was hältst du von einer Übergangsgesellschaft? > Guten Morgen, meine Hübsche! > Ich wünschte, ich wäre in Hollywood. > Immer dasselbe mit euch! > Komm, ich mache dir ein Sandwich. > Was war noch mal ein Vamp? > Das Babyfon hat sogar einen Monitor. > Noch mal von vorne, bitte. > Unterstehe dich, das noch mal zu sagen! jf99.txt: > Wo bitte schön steht das? > Was bitte schön befähigt ihren Gatten zu diesem Amt? > Danke schön für den wertvollen Tipp! > In der Psychiatrie versucht Doktor Henkel herauszufinden, wie sich diese Paranoia entwickelt hat. > Finn absolviert sein Referendariat an einer Schule mitten im Getto. from other files: > Die Flugzeit beträgt circa sechs Stunden. > Eine WhatsApp-Nachricht an Tina schreiben. > Obwohl sie aus Eisen bestand, fühlte sich die eiserne Wand nicht kalt an. > Das Königreich Neapel existierte von dreizehnhundertzwei bis achtzehnhundertsechzehn. Quite a bunch of mistakes, isn't it?

Vielleicht sind mir dabei ja Fehler unterlaufen. Falls nicht, würde ich mich freuen, wenn jemand den PR approven würde, damit er auch gemergt wird. War echt ein Haufen Arbeit.

Bullnados · March 10, 2019, 12:13am

Wenn mir keiner zuvor kommt, approve ich das morgen früh,
aber hier ein Paar fragen.
mM stimmt ohne Komma: 139, 154, 372, 876, 1920,2081,2445,3455, 4194, 4329
hier hätte ich auch ein Komma gesetzt: 489,1414, 1852
2022: hier sind beide Versionen möglich

1210 würde ich IT-Sicherheits… schreiben, warum lässt du das IT weg?

Sind die 6 Dateien aus dem commit alle relevanten Daten, die man prüfen muss?
Dann würde ich helfen die Daten zu reviewen, bis der collector diese Funktion bietet.

jf99 · March 10, 2019, 12:19pm

Weil IT eine Abkürzung ist, die der Sentence Collector nicht zulassen würde. In diesem Fall ist das übrigens auch verständlich. Manche würden es englisch aussprechen, andere deutsch. Einfach einen Bindestrich zwischen die Buchstaben zu setzen, sollte aber auch nicht die Lösung sein.

Aus allen txt-Dateien in diesem Verzeichnis werden deutschen Lesern Sätze angezeigt:

Über Unterstützung würde ich mich freuen.

Bullnados · March 10, 2019, 6:26pm

Ich verstehe bzgl. der IT ich habe aber auch schon D-D-R gesehen, oder ist es in diesem Fall korrekt?

Ich schau mir mal die txt an.
Eine Frage, wie geht man mit Wörtern um, die zwar korrekt geschrieben sind im Kontext aber keinen Sinn machen bzw. beim Lesen sehr leicht “falsch” gelesen werden?

Ist es eigentlich auch möglich direkt ins Git seine Sätze zu pushen? Ich bin gerade an einer Liste mit Bundesländern, Gebirgen (erstmal deutsche), Flüssen, Seen etc.
Die zweite Liste die ich mir überlegt habe sind Befehle für einen Mycroft Mark x.
Z.B.
Setze XYZ auf die Einkaufsliste!
Wie wird heute das Wetter?
Spiele XYZ Lied/Playliste ab.

Machen solche speziellen Listen Sinn?

Wie geht man mit nicht ganz jugendfreien Wörtern und Themen um?

jf99 · March 11, 2019, 2:18pm

[quote=“Bullnados, post:15, topic:36310”]
Ich verstehe bzgl. der IT ich habe aber auch schon D-D-R gesehen, oder ist es in diesem Fall korrekt?[/quote]
Diese Bindestrichabkürzungen finde ich auch nicht gut. Eigentlich wollte ich die ebenfalls entfernen, habe ich dann aber vergessen. Zumal einige davon sogar Entsprechungen ohne Abkürzungen im Corpus haben.

Das Thema “Ideen für neue Sätze” würde ich gerne in einen eigenen Thread auslagern. Hier geht es um sprachliche Aspekte.

Bullnados · March 13, 2019, 4:07pm

Wie behandlet man Sätze, bei denen Satzzeichen mitgelesen werden?
Der Hund bellt (Punkt)

jf99 · March 13, 2019, 8:48pm

Satzzeichen sollen nicht mitgelesen werden. Gehört eher hierhin:

Bullnados · March 13, 2019, 9:03pm

Sehr gut, warum steht den sowas nicht auf der Hauptseite, direkt neben Sprechen und Anhören und das natürlich für möglichst viele Sprachen angepasst?
Das gleiche würde natürlich auch für die sentence contribution gelten.

Michael_Maggs · April 2, 2019, 8:06pm

In case it may be useful, here are the latest suggestions for sentence contributions in English: Discussion of new guidelines for uploaded sentence validation.

(They’re still suggestions that haven’t yet been adopted by the team. And I don’t know what they are planning to do about various languages).

Topic		Replies	Views
:white_check_mark: Vorläufige Richtlinien für das Validieren von Sätzen Deutsch (de)	7	2048	October 3, 2021
Sentence collection tool development topic Common Voice sentence-collection , announcements	32	4053	January 26, 2019
We want your feedback: Improving the sentence collection Common Voice sentence-collection , feedback	39	8905	January 9, 2019
Wir haben 600 geprüfte Stunden erreicht, 50% des ersten Ziels Deutsch (de)	56	2394	May 26, 2020
Mithilfe benötigt bei Verifikation - Export von Deutscher Wikipedia Deutsch (de)	11	1163	December 30, 2019

Rules for German sentence contribution / Deutsche Sprache

Related topics