Mithilfe benötigt für Massenimport aus dem Datensatz des Europäischen Parlamentes

Wie hier auf Deutsch und hier auf Englisch besprochen möchte ich gerne den Europarl-Datensatz für Common Voice verwenden. Das würde uns ungefähr 390 000 Sätze aus den EU-Parlament aus den Jahren 1996 - 2011 bringen und die Vielfalt der Sprache in den Sätzen deutlich verbessern.

Um die 390 000 Sätze importieren zu können müssen wir diese Datei mit 4000 zufälligen Sätzen aus dem Datensatz reviewen:

Für valide Sätze wählt man in der zweiten Spalte einfach “OK”, wenn es einen Fehler gibt wählt man jeweils aus dem Dropdown:

  • A für Rechtschreibfehler
  • B für Grammatikfehler
  • C für Schwer auszusprechende Sätze (inklusive seltener Fremdworte)
  • D für alle anderen Fehler

Ich werde die Datei langsam abarbeiten, ich würde mich aber sehr über Unterstützung freuen da ich kein besonders großes Talent habe Rechtschreibfehler zu erkennen :slight_smile:

EDIT: bitte benutzt die Kommentarspalte um die gefundenen Fehler kurz zu erklären.

2 Likes

So, 2 000 Sätze sind reviewed, Halbzeit. Es zeichnet sich ab dass das Endergebnis höchstwahrscheinlich unter 5% Fehlerrate liegen wird.

Um uns ein wenig zu motivieren habe ich schon einmal den Pull-Request erstellt der gemerged werden wird sobald wir die 4 000 fertig haben: