Mithilfe benötigt für Massenimport aus dem Datensatz des Europäischen Parlamentes

stergro · January 8, 2020, 8:06am

Wie hier auf Deutsch und hier auf Englisch besprochen möchte ich gerne den Europarl-Datensatz für Common Voice verwenden. Das würde uns ungefähr 390 000 Sätze aus den EU-Parlament aus den Jahren 1996 - 2011 bringen und die Vielfalt der Sprache in den Sätzen deutlich verbessern.

Um die 390 000 Sätze importieren zu können müssen wir diese Datei mit 4000 zufälligen Sätzen aus dem Datensatz reviewen:

Für valide Sätze wählt man in der zweiten Spalte einfach “OK”, wenn es einen Fehler gibt wählt man jeweils aus dem Dropdown:

A für Rechtschreibfehler
B für Grammatikfehler
C für Schwer auszusprechende Sätze (inklusive seltener Fremdworte)
D für alle anderen Fehler

Ich werde die Datei langsam abarbeiten, ich würde mich aber sehr über Unterstützung freuen da ich kein besonders großes Talent habe Rechtschreibfehler zu erkennen

EDIT: bitte benutzt die Kommentarspalte um die gefundenen Fehler kurz zu erklären.

stergro · January 21, 2020, 9:31pm

So, 2 000 Sätze sind reviewed, Halbzeit. Es zeichnet sich ab dass das Endergebnis höchstwahrscheinlich unter 5% Fehlerrate liegen wird.

Um uns ein wenig zu motivieren habe ich schon einmal den Pull-Request erstellt der gemerged werden wird sobald wir die 4 000 fertig haben:

github.com/common-voice/common-voice

German Europarl corpus v7

common-voice:master ← stefangrotz:master

opened 09:29PM - 21 Jan 20 UTC

stefangrotz

+389615 -0

This pull request contains around 379 000 sentences from the Europarl Corpus fro…m debates in the european parliament: http://www.statmt.org/europarl/ The file contains sentences - with no more than 14 words - no double upercase letters (like UN or EU) - no single letters followed by a full stop - no lines that doesn't end with . ? or ! - no numbers, (sqare) brakes,... - I deleted all kind of foreign letters and alphabets As discussed in the last pull request #2487 the QA process is this time a sheet where we review 4000 random sentences from the corpus: https://docs.google.com/spreadsheets/d/1V7dqkmXBTGK07pW8qzdYAKnUKWN8iXLW7MKfru66sw0/edit#gid=0 2000 Sentences are already reviewed and it looks like the end result will be under 5% error rate. Based on the reviews I also removed sentences with slashes from the file in this commit. I created this pull request to be ready once the review is done and to motivate us reviewers a little.

benekuehn · January 22, 2020, 10:26pm

Hab die verbleibenden 2000 Sätze eben reviewed. Fehlerquote liegt bei 6%. Kann aber sein, dass ich an einigen Stellen zu streng war, was Fremdwörter und schwierige Aussprache angeht. Hinzukommend sind manche Sätze in alter Rechtschreibung, diese hab ich alle mit A makiert.

stergro · January 23, 2020, 6:30am

Hey was für eine Überraschung, danke für die Arbeit! Ich werde später darüber schauen und im PR schreiben dass alles erledigt ist.

benekuehn · January 23, 2020, 8:20am

Kein Ding, wenn sonst noch Arbeit anfallen sollte, wo eine helfende Hand benötigt wird, ping mich gerne auch direkt an. Bin erst ein paar Monate dabei und hab noch wirklich keinen Überblick über die ganzen Kanäle um neue Aufgaben mitzubekommen…

jf99 · January 23, 2020, 6:25pm

@stergro Wie sieht denn jetzt der Fahrplan bezüglich der Europarl-Daten aus? Einige hundert der 4000 Sätze habe ich Korrektur gelesen und dabei fiel mal wieder auf, dass bestimmte Fehler besonders häufig gemacht werden. Zum Beispiel waren “muß”, “mußte”, “-prozeß”, “Miß-” sehr häufige Fälle von alter (und damit fehlerhafter) Rechtschreibung. Auch in Erinnerung geblieben sind mir kaputte Bindestrich-Konstruktionen (“Staats- und Regierungschefs” wurde zu “Staatsund Regierungschefs”).

Wird jetzt versucht, die häufigsten Fehler aus der Stichprobe zu nehmen und sie automatisiert aus dem Gesamtdatensatz zu entfernen?

stergro · January 23, 2020, 7:05pm

Hallo @jf99 da die Prozentzahl der Fehler nicht so hoch ist wird das wahrscheinlich erst mal so importiert. Das einzige was ich geändert habe ist daß->dass. Wir können aber theoretisch eine Liste von häufigen Fehlern machen und diese durch Suchen & Ersetzen nachträglich noch korrigieren.

Gibt es denn kein Tool um automatisiert von alter in neue Rechtschreibung zu konvertieren? Ich habe schon danach gesucht aber nichts gefunden.

stergro · March 6, 2020, 8:50am

Der Sätze ist jetzt importiert und sollte in den nächsten Tagen in den Sätzen auftauchen. Danke nochmal an alle Helfer und besonders an @benekuehn.

Topic		Replies	Views
Europarl Datensatz mit hunderttausenden Sätzen aus EU-Debatten Deutsch (de)	8	1004	December 23, 2019
Using the Europarl Dataset with sentences from speeches from the European Parliament Common Voice sentence-collection	61	6051	March 28, 2023
Mozilla Voice: Europarl ist nicht "echt"? Deutsch (de)	19	1428	March 11, 2021
Polish dataset from Europarl - help needed Common Voice	14	1194	July 17, 2021
Mithilfe benötigt bei Verifikation - Export von Deutscher Wikipedia Deutsch (de)	11	1163	December 30, 2019

Mithilfe benötigt für Massenimport aus dem Datensatz des Europäischen Parlamentes

Related topics