Mithilfe benötigt für Massenimport aus dem Datensatz des Europäischen Parlamentes

Wie hier auf Deutsch und hier auf Englisch besprochen möchte ich gerne den Europarl-Datensatz für Common Voice verwenden. Das würde uns ungefähr 390 000 Sätze aus den EU-Parlament aus den Jahren 1996 - 2011 bringen und die Vielfalt der Sprache in den Sätzen deutlich verbessern.

Um die 390 000 Sätze importieren zu können müssen wir diese Datei mit 4000 zufälligen Sätzen aus dem Datensatz reviewen:

Für valide Sätze wählt man in der zweiten Spalte einfach “OK”, wenn es einen Fehler gibt wählt man jeweils aus dem Dropdown:

  • A für Rechtschreibfehler
  • B für Grammatikfehler
  • C für Schwer auszusprechende Sätze (inklusive seltener Fremdworte)
  • D für alle anderen Fehler

Ich werde die Datei langsam abarbeiten, ich würde mich aber sehr über Unterstützung freuen da ich kein besonders großes Talent habe Rechtschreibfehler zu erkennen :slight_smile:

EDIT: bitte benutzt die Kommentarspalte um die gefundenen Fehler kurz zu erklären.

3 Likes

So, 2 000 Sätze sind reviewed, Halbzeit. Es zeichnet sich ab dass das Endergebnis höchstwahrscheinlich unter 5% Fehlerrate liegen wird.

Um uns ein wenig zu motivieren habe ich schon einmal den Pull-Request erstellt der gemerged werden wird sobald wir die 4 000 fertig haben:

1 Like

Hab die verbleibenden 2000 Sätze eben reviewed. Fehlerquote liegt bei 6%. Kann aber sein, dass ich an einigen Stellen zu streng war, was Fremdwörter und schwierige Aussprache angeht. Hinzukommend sind manche Sätze in alter Rechtschreibung, diese hab ich alle mit A makiert.

2 Likes

Hey was für eine Überraschung, danke für die Arbeit! Ich werde später darüber schauen und im PR schreiben dass alles erledigt ist.

Kein Ding, wenn sonst noch Arbeit anfallen sollte, wo eine helfende Hand benötigt wird, ping mich gerne auch direkt an. Bin erst ein paar Monate dabei und hab noch wirklich keinen Überblick über die ganzen Kanäle um neue Aufgaben mitzubekommen…

1 Like

@stergro Wie sieht denn jetzt der Fahrplan bezüglich der Europarl-Daten aus? Einige hundert der 4000 Sätze habe ich Korrektur gelesen und dabei fiel mal wieder auf, dass bestimmte Fehler besonders häufig gemacht werden. Zum Beispiel waren “muß”, “mußte”, “-prozeß”, “Miß-” sehr häufige Fälle von alter (und damit fehlerhafter) Rechtschreibung. Auch in Erinnerung geblieben sind mir kaputte Bindestrich-Konstruktionen (“Staats- und Regierungschefs” wurde zu “Staatsund Regierungschefs”).

Wird jetzt versucht, die häufigsten Fehler aus der Stichprobe zu nehmen und sie automatisiert aus dem Gesamtdatensatz zu entfernen?

Hallo @jf99 da die Prozentzahl der Fehler nicht so hoch ist wird das wahrscheinlich erst mal so importiert. Das einzige was ich geändert habe ist daß->dass. Wir können aber theoretisch eine Liste von häufigen Fehlern machen und diese durch Suchen & Ersetzen nachträglich noch korrigieren.

Gibt es denn kein Tool um automatisiert von alter in neue Rechtschreibung zu konvertieren? Ich habe schon danach gesucht aber nichts gefunden.

Der Sätze ist jetzt importiert und sollte in den nächsten Tagen in den Sätzen auftauchen. Danke nochmal an alle Helfer und besonders an @benekuehn.