Was ist da der Prozess? Ich validiere und spreche fleißig ein und frage mich, wer da die Auswahl trifft, was in den Korpus hineinkommt und was nicht.
1 Like
Hallo. Dafür gibt es 3 verschiedene Wege:
- Sätze können via Sentence Collector hinzugefügt werden. Analog zu den Aufzeichnungen in Common Voice findet hier auch eine Validierung statt. Ein Satz muss mindestens 2 von 3 Bewertungen als “akzeptiert” erhalten, damit dieser freigeschaltet wird.
- Wir durften auch Sätze von der Wikipedia extrahieren (3 pro Artikel)
- Alternativ kommen auch andere Datensätze zur Verwendung, wie z.B. der Europarlament Datensatz, sofern die Lizenz dies erlaubt.
Hoffe, dass dir das so weiterhilft.
5 Likes