Rules for German sentence contribution / Deutsche Sprache

This thread is supposed to discuss issues concerning the German language. That’s why the rest of this post is written in German.

Nach einem Monat, in dem der Sentence Collector nun in Betrieb war, muss ich feststellen, dass dort nicht nur viele offensichtlich fehlerhafte Sätze hinzugefügt werden, sondern dass diese auch viel zu oft durchkommen. Dass möglichst alle Sätze korrekt geschrieben sind, ist aber wichtig, damit auf Common Voice basierende STT-Systeme nicht von vornherein Rechtschreibfehler produzieren.

Die meisten Fehler werden immer wieder aufs Neue gemacht. Dies ist sicherlich auch der Tatsache geschuldet, dass man beim Review bisher nur annehmen oder ablehnen kann. Korrekturvorschläge und Kommentare sind nicht möglich. Dadurch fehlt der Dialog zwischen Autoren und Reviewern. Aus so einem Dialog könnten Autoren lernen, ihre Lieblingsfehler in Zukunft zu vermeiden. Genau diese Erfahrung habe ich gemacht, bevor das Sentence Collector Tool zur Verfügung stand und neue Sätze per Pull Request auf Github akzeptiert wurden. @Ordoviz hat mir “damals” sehr wertvolles Feedback gegeben:


Ähnlich fruchtbare Arbeit würde ich mir auch für das Tool wünschen.

Solange das Tool selbst keinen Dialog erlaubt, möchte ich diesen Thread zur Diskussion von häufigen oder strittigen Fällen nutzen. Daraus lassen sich vielleicht eine Handvoll Regeln ableiten, die anschließend direkt ins How-To für deutsche Nutzer ins Tool integriert werden können.

Hier ist eine Liste von Regeln, die meiner Meinung nach besonders oft missachtet werden. Diese Liste ist als Vorschlag zu verstehen. In meinen eigenen Beiträgen und Korrekturen versuche ich, mich stets danach zu richten:

  • Wir verwenden die neue deutsche Rechtschreibung. D. h. u. a.: Ein scharfes S wird nach einem kurzen Vokal “ss” (Elsass), nach einem langen “ß” (Schoß) geschrieben. Die Personalpronomen du, ihr, dir, euch und dich werden kleingeschrieben. Wenn man jemanden siezt, schreibt man das entsprechende Sie oder Ihr hingegen groß:
    Nehmen Sie Ihre Finger da weg!

  • Wenn mehrere Schreibweisen möglich sind, richten wir uns nach der Empfehlung des Dudens: zu Hause statt zuhause, circa statt zirka, sodass statt so dass

  • Auf “mal” endende Wörter werden in zwei Wörter getrennt, wenn das “mal” die verkürzte Form von “einmal” ist: erst mal, noch mal, schon mal
    Nicht jedoch: erstmals, allemal, diesmal

  • “mal”-Wörter mit Zahlen jedoch zusammen: einmal, zweimal, zehnmal, dreißigmal, hundertmal

  • Eigennamen werden großgeschrieben: Internationale Raumstation, Deutsche Demokratische Republik
    Im Zweifelsfall hilft es, sich am entsprechenden Wikipedia-Artikel zu orientieren.

  • Nebensätze werden mit Kommas abgetrennt. Man erkennt sie daran, dass sie ein eigenes Prädikat haben:
    Denkst du, ich kann das?
    Ich gehe zum Bäcker, um Brötchen zu holen.

  • Fragen beendet man mit Fragezeichen.

Ich hoffe, wir können als deutsche Community von Common Voice eine gemeinsame Übereinstimmung darüber erzielen, was wie geschrieben wird. Ergänzungen, Alternativvorschläge und Diskussionen sind willkommen und erwünscht.

Außerdem möchte ich alle Autoren bitten, wenigstens einen Spellchecker zu benutzen, bevor man die Sätze ins Tool kopiert. Firefox hat zum Beispiel einen eingebaut. Weitergehende Korrekturen kann z. B. https://languagetool.org/ bieten.

3 Likes

Die Kommasetzung ist auch oft eher schlecht.
Aber ich finde auch, dass hier ein Guide fehlt, um eine Richtlinie zu haben, was man up oder downvoten kann.
Die Kommsetzung kann ja bekanntlich leben retten und hat Auswirkungen für die Betonung von Sätzen.
Ist es aber relevant, dass man ß oder ss unterscheidet?

Auch verstehe ich nicht, warum man die Sätze nicht im Collector meinetwegen sammelt und pre-reviewed und das ganze dann in https://pontoon.mozilla.org/de/ überträgt?

Was haltet ihr von der Idee eine Google/Excle Online Sheets oder anderer Dienst, in welches man initial die Sätze einträgt? So könnte man die Sätze reviewen und kommentieren. Und dann eine disskutierte Version in die sentence-collection einfügen?

Hallo @jf99 !

ich finde deine Hinweise sehr gut. Wichtig ist, dass die Anleitung und die Regeln auf der Seite übersetzt werden!

Außerdem wäre es gut, wenn man statt Daumen runter, auch die Rechtschreib-/Kommafehler bearbeiten könnte. D.h. der Satz wird bei einer Bearbeitung gesperrt und beide Sätze Richtig und Falsch stehen zur Auswahl und 3 oder 5 Leute müssen sich für einen Satz entscheiden. Wenn das geschehen ist, dann kann über den Satz selbst entschieden werden.

Gruß

1 Like

Hi,

Since this is going to be a conversation in German I’ve moved it to #communities:germany category. We don’t really have a better place here and posts in Common Voice are expected to be in English to avoid generating noise to the rest of the people there.

Thanks for your understanding.

Cheers.

@nukeador The problem with that is that people won’t find this thread if it’s not in the Common Voice category. I am trying to target everyone who is contributing German sentences to Common Voice. Can we place a direct link somewhere in the collector tool?

@Bruno.Fischer Genau so stelle ich mir die Korrekturfunktion im Sentence-Collector auch vor. Eine Korrekturfunktion ist afair auch geplant, aber wer weiß, wann die kommt. Ich finde das entsprechende Issue auch gerade nicht auf Github.

Ja, natürlich. Wenn ich dem Computer diktiere, dass ich viel Spaß hatte, dann soll er “Spaß” auch bitte mit ß schreiben, weil das die derzeit einzige korrekte Schreibweise ist.

@Bullnados Den Vorschlag mit Pontoon verstehe ich nicht. Das ist doch ein Tool, um die Interfaces von Software zu lokalisieren/übersetzen. Inwiefern würde uns das hier helfen?

@all: Was haltet ihr davon, wenn jemand “kucken” schreibt? Laut Duden ist das inzwischen ein normales Verb, allerdings norddeutsch. Ich komme aus Norddeutschland und mir wurde gelehrt, dass man nicht “kucken” schreibt, sondern “gucken”. Auch wenn jemand, der mir diktiert, es wie kucken ausspricht, würde ich es mit g schreiben. Andere Aussprachen dieses Wortes höre ich eigentlich nie.

Daher mein Vorschlag: Wir schreiben es immer mit g. Wenn wir sowohl Sätze mit “gucken” als auch welche mit “kucken” hätten, müssten wir von den Lesern verlangen, dass sie beides unterschiedlich aussprechen. Was sind eure Meinungen?

I’m not able to understand anything that is being discussed in this topic. I suggest you post a summary in English in the main #voice category if you think it’s useful.

Thanks!

Habe den Thread hier gerade zufällig entdeckt. Ich habe auch schon mehrere Sätze überprüft und werde zukünftig mal zu den häufigen Fehlern beisteuern. Reviewt bitte die Sätze im Screenshot nicht; sind nämlich gute Werbung hierfür :wink:

Bezüglich gucken und kucken: Ich komme auch aus Norddeutschland und kenne das Verb gesprochen nur mit k und geschrieben nur mit g. Wenn also jemand kucken sagt, würde ich gucken aufschreiben. Ich denke daher, dass wir beide Aussprachen akzeptieren sollten, uns aber an die standardsprachliche Schreibweise halten sollten (solange das die STT-Engine nicht verwirrt).

Und standardsprachlich heißt in deinen Augen was? Laut Duden sind beide Schreibweisen korrekt, jedoch ist die eine norddeutsch, die andere hingegen umgangssprachlich.

Das ß existiert in der Schweizer Rechtschreibung nicht, Spass wird also hier auch so geschrieben. Was ist die beste Methode damit umzugehen? Ich kenne die regeln für das ß nicht und würde dann keine Sätze beitragen können.

Pontoon war nur eine fixe Idee.

Im Endeffekt wäre es nur wichtig, dass
a) Mehrere Leute den Satz reviewen könnten, ähnlich zu Transifex. Hier wird zuerst übersetzt und die Phrase kann verwendet werden, der als zweiter Schritt wird die Phrase reviewed.
Sowas würde ich mir auch wünschen, dass man gerreviewdte Sätze erneut anschauen kann
b) Ähnlich zu Voice sollten auch sowas einstellbar sein wie Deutsch(Schweiz) etc.

Hm, das mit der Schweiz ist ein guter Einwand. Für Englisch werden ja auch verschiedene Schreibweisen akzeptiert (amerikanisch, britisch usw.). Chinesisch wird hingegen aufgetrennt in China, Taiwan und Hong Kong.

Ich glaube, es wäre sinnvoll, eine einheitliche Schreibweise zu haben. Sonst wird es am Ende vom Zufall abhängen, was die STT-Engine ausspuckt. In einem Satz könnte “Spaß” stehen und im nächsten plötzlich “Spass”. Wenn mein ein STT für Schweizerdeutsch haben wollte, könnte man aber prinzipiell eins nehmen, das auf Hochdeutsch trainiert wurde und eine Übersetzerschicht dahinter schalten, die aus ß wieder ss macht. Solche Schichten wird es wohl sowieso geben, alleine um Zahlen vernünftig aufzuschreiben (achtzehnhundertzweiundsechzig -> 1862)-

Die ß-Regel habe ich übrigens im ersten Post erläutert. Man schreibt es immer (und nur), wenn auf einen langen Vokal (oder Doppelvokal wie “ei”) ein scharf gesprochenes S folgt.

Habe gerade einige Stunden investiert, um Fehler aufzuräumen. Wer mag, kann gerne mal rüberschauen:

Vielleicht sind mir dabei ja Fehler unterlaufen. Falls nicht, würde ich mich freuen, wenn jemand den PR approven würde, damit er auch gemergt wird. War echt ein Haufen Arbeit.

Wenn mir keiner zuvor kommt, approve ich das morgen früh,
aber hier ein Paar fragen.
mM stimmt ohne Komma: 139, 154, 372, 876, 1920,2081,2445,3455, 4194, 4329
hier hätte ich auch ein Komma gesetzt: 489,1414, 1852
2022: hier sind beide Versionen möglich

1210 würde ich IT-Sicherheits… schreiben, warum lässt du das IT weg?

Sind die 6 Dateien aus dem commit alle relevanten Daten, die man prüfen muss?
Dann würde ich helfen die Daten zu reviewen, bis der collector diese Funktion bietet.

Weil IT eine Abkürzung ist, die der Sentence Collector nicht zulassen würde. In diesem Fall ist das übrigens auch verständlich. Manche würden es englisch aussprechen, andere deutsch. Einfach einen Bindestrich zwischen die Buchstaben zu setzen, sollte aber auch nicht die Lösung sein.

Aus allen txt-Dateien in diesem Verzeichnis werden deutschen Lesern Sätze angezeigt:


Über Unterstützung würde ich mich freuen.

Ich verstehe bzgl. der IT ich habe aber auch schon D-D-R gesehen, oder ist es in diesem Fall korrekt?

Ich schau mir mal die txt an.
Eine Frage, wie geht man mit Wörtern um, die zwar korrekt geschrieben sind im Kontext aber keinen Sinn machen bzw. beim Lesen sehr leicht “falsch” gelesen werden?

Ist es eigentlich auch möglich direkt ins Git seine Sätze zu pushen? Ich bin gerade an einer Liste mit Bundesländern, Gebirgen (erstmal deutsche), Flüssen, Seen etc.
Die zweite Liste die ich mir überlegt habe sind Befehle für einen Mycroft Mark x.
Z.B.
Setze XYZ auf die Einkaufsliste!
Wie wird heute das Wetter?
Spiele XYZ Lied/Playliste ab.

Machen solche speziellen Listen Sinn?

Wie geht man mit nicht ganz jugendfreien Wörtern und Themen um?

[quote=“Bullnados, post:15, topic:36310”]
Ich verstehe bzgl. der IT ich habe aber auch schon D-D-R gesehen, oder ist es in diesem Fall korrekt?[/quote]
Diese Bindestrichabkürzungen finde ich auch nicht gut. Eigentlich wollte ich die ebenfalls entfernen, habe ich dann aber vergessen. Zumal einige davon sogar Entsprechungen ohne Abkürzungen im Corpus haben.

Das Thema “Ideen für neue Sätze” würde ich gerne in einen eigenen Thread auslagern. Hier geht es um sprachliche Aspekte.

Wie behandlet man Sätze, bei denen Satzzeichen mitgelesen werden?
Der Hund bellt (Punkt)

Satzzeichen sollen nicht mitgelesen werden. Gehört eher hierhin:

Sehr gut, warum steht den sowas nicht auf der Hauptseite, direkt neben Sprechen und Anhören und das natürlich für möglichst viele Sprachen angepasst?
Das gleiche würde natürlich auch für die sentence contribution gelten.

1 Like

In case it may be useful, here are the latest suggestions for sentence contributions in English: Discussion of new guidelines for uploaded sentence validation.

(They’re still suggestions that haven’t yet been adopted by the team. And I don’t know what they are planning to do about various languages).