Wo kommen die Sätze für den Korpus eigentlich her?

Hallo. Dafür gibt es 3 verschiedene Wege:

  • Sätze können via Sentence Collector hinzugefügt werden. Analog zu den Aufzeichnungen in Common Voice findet hier auch eine Validierung statt. Ein Satz muss mindestens 2 von 3 Bewertungen als “akzeptiert” erhalten, damit dieser freigeschaltet wird.
  • Wir durften auch Sätze von der Wikipedia extrahieren (3 pro Artikel)
  • Alternativ kommen auch andere Datensätze zur Verwendung, wie z.B. der Europarlament Datensatz, sofern die Lizenz dies erlaubt.

Hoffe, dass dir das so weiterhilft.

5 Likes