Wie hier auf Deutsch und hier auf Englisch besprochen möchte ich gerne den Europarl-Datensatz für Common Voice verwenden. Das würde uns ungefähr 390 000 Sätze aus den EU-Parlament aus den Jahren 1996 - 2011 bringen und die Vielfalt der Sprache in den Sätzen deutlich verbessern.
Um die 390 000 Sätze importieren zu können müssen wir diese Datei mit 4000 zufälligen Sätzen aus dem Datensatz reviewen:
Für valide Sätze wählt man in der zweiten Spalte einfach “OK”, wenn es einen Fehler gibt wählt man jeweils aus dem Dropdown:
- A für Rechtschreibfehler
- B für Grammatikfehler
- C für Schwer auszusprechende Sätze (inklusive seltener Fremdworte)
- D für alle anderen Fehler
Ich werde die Datei langsam abarbeiten, ich würde mich aber sehr über Unterstützung freuen da ich kein besonders großes Talent habe Rechtschreibfehler zu erkennen
EDIT: bitte benutzt die Kommentarspalte um die gefundenen Fehler kurz zu erklären.