Wo kommen die Sätze für den Korpus eigentlich her?

Was ist da der Prozess? Ich validiere und spreche fleißig ein und frage mich, wer da die Auswahl trifft, was in den Korpus hineinkommt und was nicht.

1 Like

Hallo. Dafür gibt es 3 verschiedene Wege:

  • Sätze können via Sentence Collector hinzugefügt werden. Analog zu den Aufzeichnungen in Common Voice findet hier auch eine Validierung statt. Ein Satz muss mindestens 2 von 3 Bewertungen als “akzeptiert” erhalten, damit dieser freigeschaltet wird.
  • Wir durften auch Sätze von der Wikipedia extrahieren (3 pro Artikel)
  • Alternativ kommen auch andere Datensätze zur Verwendung, wie z.B. der Europarlament Datensatz, sofern die Lizenz dies erlaubt.

Hoffe, dass dir das so weiterhilft.

5 Likes