Rules for German sentence contribution / Deutsche Sprache

Hi,

Since this is going to be a conversation in German I’ve moved it to #communities:germany category. We don’t really have a better place here and posts in Common Voice are expected to be in English to avoid generating noise to the rest of the people there.

Thanks for your understanding.

Cheers.

@nukeador The problem with that is that people won’t find this thread if it’s not in the Common Voice category. I am trying to target everyone who is contributing German sentences to Common Voice. Can we place a direct link somewhere in the collector tool?

@Bruno.Fischer Genau so stelle ich mir die Korrekturfunktion im Sentence-Collector auch vor. Eine Korrekturfunktion ist afair auch geplant, aber wer weiß, wann die kommt. Ich finde das entsprechende Issue auch gerade nicht auf Github.

Ja, natürlich. Wenn ich dem Computer diktiere, dass ich viel Spaß hatte, dann soll er “Spaß” auch bitte mit ß schreiben, weil das die derzeit einzige korrekte Schreibweise ist.

@Bullnados Den Vorschlag mit Pontoon verstehe ich nicht. Das ist doch ein Tool, um die Interfaces von Software zu lokalisieren/übersetzen. Inwiefern würde uns das hier helfen?

@all: Was haltet ihr davon, wenn jemand “kucken” schreibt? Laut Duden ist das inzwischen ein normales Verb, allerdings norddeutsch. Ich komme aus Norddeutschland und mir wurde gelehrt, dass man nicht “kucken” schreibt, sondern “gucken”. Auch wenn jemand, der mir diktiert, es wie kucken ausspricht, würde ich es mit g schreiben. Andere Aussprachen dieses Wortes höre ich eigentlich nie.

Daher mein Vorschlag: Wir schreiben es immer mit g. Wenn wir sowohl Sätze mit “gucken” als auch welche mit “kucken” hätten, müssten wir von den Lesern verlangen, dass sie beides unterschiedlich aussprechen. Was sind eure Meinungen?

I’m not able to understand anything that is being discussed in this topic. I suggest you post a summary in English in the main #voice category if you think it’s useful.

Thanks!

Habe den Thread hier gerade zufällig entdeckt. Ich habe auch schon mehrere Sätze überprüft und werde zukünftig mal zu den häufigen Fehlern beisteuern. Reviewt bitte die Sätze im Screenshot nicht; sind nämlich gute Werbung hierfür :wink:

Bezüglich gucken und kucken: Ich komme auch aus Norddeutschland und kenne das Verb gesprochen nur mit k und geschrieben nur mit g. Wenn also jemand kucken sagt, würde ich gucken aufschreiben. Ich denke daher, dass wir beide Aussprachen akzeptieren sollten, uns aber an die standardsprachliche Schreibweise halten sollten (solange das die STT-Engine nicht verwirrt).

Und standardsprachlich heißt in deinen Augen was? Laut Duden sind beide Schreibweisen korrekt, jedoch ist die eine norddeutsch, die andere hingegen umgangssprachlich.

Das ß existiert in der Schweizer Rechtschreibung nicht, Spass wird also hier auch so geschrieben. Was ist die beste Methode damit umzugehen? Ich kenne die regeln für das ß nicht und würde dann keine Sätze beitragen können.

Pontoon war nur eine fixe Idee.

Im Endeffekt wäre es nur wichtig, dass
a) Mehrere Leute den Satz reviewen könnten, ähnlich zu Transifex. Hier wird zuerst übersetzt und die Phrase kann verwendet werden, der als zweiter Schritt wird die Phrase reviewed.
Sowas würde ich mir auch wünschen, dass man gerreviewdte Sätze erneut anschauen kann
b) Ähnlich zu Voice sollten auch sowas einstellbar sein wie Deutsch(Schweiz) etc.

Hm, das mit der Schweiz ist ein guter Einwand. Für Englisch werden ja auch verschiedene Schreibweisen akzeptiert (amerikanisch, britisch usw.). Chinesisch wird hingegen aufgetrennt in China, Taiwan und Hong Kong.

Ich glaube, es wäre sinnvoll, eine einheitliche Schreibweise zu haben. Sonst wird es am Ende vom Zufall abhängen, was die STT-Engine ausspuckt. In einem Satz könnte “Spaß” stehen und im nächsten plötzlich “Spass”. Wenn mein ein STT für Schweizerdeutsch haben wollte, könnte man aber prinzipiell eins nehmen, das auf Hochdeutsch trainiert wurde und eine Übersetzerschicht dahinter schalten, die aus ß wieder ss macht. Solche Schichten wird es wohl sowieso geben, alleine um Zahlen vernünftig aufzuschreiben (achtzehnhundertzweiundsechzig -> 1862)-

Die ß-Regel habe ich übrigens im ersten Post erläutert. Man schreibt es immer (und nur), wenn auf einen langen Vokal (oder Doppelvokal wie “ei”) ein scharf gesprochenes S folgt.

Habe gerade einige Stunden investiert, um Fehler aufzuräumen. Wer mag, kann gerne mal rüberschauen:

Vielleicht sind mir dabei ja Fehler unterlaufen. Falls nicht, würde ich mich freuen, wenn jemand den PR approven würde, damit er auch gemergt wird. War echt ein Haufen Arbeit.

Wenn mir keiner zuvor kommt, approve ich das morgen früh,
aber hier ein Paar fragen.
mM stimmt ohne Komma: 139, 154, 372, 876, 1920,2081,2445,3455, 4194, 4329
hier hätte ich auch ein Komma gesetzt: 489,1414, 1852
2022: hier sind beide Versionen möglich

1210 würde ich IT-Sicherheits… schreiben, warum lässt du das IT weg?

Sind die 6 Dateien aus dem commit alle relevanten Daten, die man prüfen muss?
Dann würde ich helfen die Daten zu reviewen, bis der collector diese Funktion bietet.

Weil IT eine Abkürzung ist, die der Sentence Collector nicht zulassen würde. In diesem Fall ist das übrigens auch verständlich. Manche würden es englisch aussprechen, andere deutsch. Einfach einen Bindestrich zwischen die Buchstaben zu setzen, sollte aber auch nicht die Lösung sein.

Aus allen txt-Dateien in diesem Verzeichnis werden deutschen Lesern Sätze angezeigt:


Über Unterstützung würde ich mich freuen.

Ich verstehe bzgl. der IT ich habe aber auch schon D-D-R gesehen, oder ist es in diesem Fall korrekt?

Ich schau mir mal die txt an.
Eine Frage, wie geht man mit Wörtern um, die zwar korrekt geschrieben sind im Kontext aber keinen Sinn machen bzw. beim Lesen sehr leicht “falsch” gelesen werden?

Ist es eigentlich auch möglich direkt ins Git seine Sätze zu pushen? Ich bin gerade an einer Liste mit Bundesländern, Gebirgen (erstmal deutsche), Flüssen, Seen etc.
Die zweite Liste die ich mir überlegt habe sind Befehle für einen Mycroft Mark x.
Z.B.
Setze XYZ auf die Einkaufsliste!
Wie wird heute das Wetter?
Spiele XYZ Lied/Playliste ab.

Machen solche speziellen Listen Sinn?

Wie geht man mit nicht ganz jugendfreien Wörtern und Themen um?

[quote=“Bullnados, post:15, topic:36310”]
Ich verstehe bzgl. der IT ich habe aber auch schon D-D-R gesehen, oder ist es in diesem Fall korrekt?[/quote]
Diese Bindestrichabkürzungen finde ich auch nicht gut. Eigentlich wollte ich die ebenfalls entfernen, habe ich dann aber vergessen. Zumal einige davon sogar Entsprechungen ohne Abkürzungen im Corpus haben.

Das Thema “Ideen für neue Sätze” würde ich gerne in einen eigenen Thread auslagern. Hier geht es um sprachliche Aspekte.

Wie behandlet man Sätze, bei denen Satzzeichen mitgelesen werden?
Der Hund bellt (Punkt)

Satzzeichen sollen nicht mitgelesen werden. Gehört eher hierhin:

Sehr gut, warum steht den sowas nicht auf der Hauptseite, direkt neben Sprechen und Anhören und das natürlich für möglichst viele Sprachen angepasst?
Das gleiche würde natürlich auch für die sentence contribution gelten.

1 Like

In case it may be useful, here are the latest suggestions for sentence contributions in English: Discussion of new guidelines for uploaded sentence validation.

(They’re still suggestions that haven’t yet been adopted by the team. And I don’t know what they are planning to do about various languages).

Bei diesem Satz wäre ein Komma zur Kennzeichnung des Relativsatzes ganz schön:

Wir unterschätzen das, was wir haben[,] und überschätzen das, was wir sind.

Siehe § 72:

E1: Ein Komma vor und usw. kann dadurch begründet sein, dass mit ihm entsprechend § 74 ein Nebensatz, entsprechend § 77 ein Zusatz oder Nachtrag bzw. entsprechend § 93 ein wörtlich wiedergegebener Satz abgeschlossen wird.

Sollte man sich auf jeden Fall mal merken. Ich hab den Satz in der jetzigen Form abgelehnt.

Was machen wir mit Infinitivsätzen, bei denen es im Ermessen des Schreibenden liegt, Kommas zu setzen oder nicht?

Ich habe neulich zwei Version der gleichen Sätze gesehen:

Noch einmal bin ich nicht bereit(,) dafür Geld auszugeben.
Die amerikanische Regierung versucht(,) die Verwendung von Hardware von Huawei zu verhindern.

Als Faustregel ist es ganz gut, immer Kommas zu setzen, da es niemals falsch ist. § 75 zeigt die Fälle, in denen ein Komma erforderlich ist. Bei den oben genannten Sätzen kann ich aber keinen der drei Fälle erkennen.

Ich denke die Optionen, die wir haben, sind folgende:

  • Immer Kommas setzen (Einheitlichkeit)
  • Beide Schreibweisen erlauben (so würde ich es machen)

Die Fassungen mit Komma könnten von mir kommen. Bisher bin ich einer simplen Logik gefolgt:
Nebensätze trennt man mit Kommas ab -> Infinitvsätze sind Nebensätze -> Komma.

Dass das Komma bei Infinitivgruppen nur dann obligatorisch ist, wenn eine dieser von dir verlinkten Regeln zutrifft, wusste ich nicht. Wieder was gelernt. :slight_smile:

Also ja, wir akzeptieren beides. Danke für den Hinweis.