Wie hier auf Deutsch und hier auf Englisch besprochen möchte ich gerne den Europarl-Datensatz für Common Voice verwenden. Das würde uns ungefähr 390 000 Sätze aus den EU-Parlament aus den Jahren 1996 - 2011 bringen und die Vielfalt der Sprache in den Sätzen deutlich verbessern.
Um die 390 000 Sätze importieren zu können müssen wir diese Datei mit 4000 zufälligen Sätzen aus dem Datensatz reviewen:
Für valide Sätze wählt man in der zweiten Spalte einfach “OK”, wenn es einen Fehler gibt wählt man jeweils aus dem Dropdown:
A für Rechtschreibfehler
B für Grammatikfehler
C für Schwer auszusprechende Sätze (inklusive seltener Fremdworte)
D für alle anderen Fehler
Ich werde die Datei langsam abarbeiten, ich würde mich aber sehr über Unterstützung freuen da ich kein besonders großes Talent habe Rechtschreibfehler zu erkennen
EDIT: bitte benutzt die Kommentarspalte um die gefundenen Fehler kurz zu erklären.
Hab die verbleibenden 2000 Sätze eben reviewed. Fehlerquote liegt bei 6%. Kann aber sein, dass ich an einigen Stellen zu streng war, was Fremdwörter und schwierige Aussprache angeht. Hinzukommend sind manche Sätze in alter Rechtschreibung, diese hab ich alle mit A makiert.
Kein Ding, wenn sonst noch Arbeit anfallen sollte, wo eine helfende Hand benötigt wird, ping mich gerne auch direkt an. Bin erst ein paar Monate dabei und hab noch wirklich keinen Überblick über die ganzen Kanäle um neue Aufgaben mitzubekommen…
@stergro Wie sieht denn jetzt der Fahrplan bezüglich der Europarl-Daten aus? Einige hundert der 4000 Sätze habe ich Korrektur gelesen und dabei fiel mal wieder auf, dass bestimmte Fehler besonders häufig gemacht werden. Zum Beispiel waren “muß”, “mußte”, “-prozeß”, “Miß-” sehr häufige Fälle von alter (und damit fehlerhafter) Rechtschreibung. Auch in Erinnerung geblieben sind mir kaputte Bindestrich-Konstruktionen (“Staats- und Regierungschefs” wurde zu “Staatsund Regierungschefs”).
Wird jetzt versucht, die häufigsten Fehler aus der Stichprobe zu nehmen und sie automatisiert aus dem Gesamtdatensatz zu entfernen?
Hallo @jf99 da die Prozentzahl der Fehler nicht so hoch ist wird das wahrscheinlich erst mal so importiert. Das einzige was ich geändert habe ist daß->dass. Wir können aber theoretisch eine Liste von häufigen Fehlern machen und diese durch Suchen & Ersetzen nachträglich noch korrigieren.
Gibt es denn kein Tool um automatisiert von alter in neue Rechtschreibung zu konvertieren? Ich habe schon danach gesucht aber nichts gefunden.