Wir haben 600 geprüfte Stunden erreicht, 50% des ersten Ziels

stergro · May 17, 2020, 5:48pm

Interessant da mal eine Gegenmeinung zu hören. Irgendjemand (ich glaube mit einem französischen Modell) hat hier auf Discord auch geschrieben, dass die WER besser wird, wenn er mit den Duplikaten trainiert. Ich könnte mir vorstellen, dass es einen Unterschied macht, ob ein Datensatz nur die initialen 5000 Sätze tausendmal aufnimmt, oder ob hunderttausende Sätze doppelt oder dreifach aufgenommen werden.

Im Anouncement steht aber das sie für einige Sprachen doppelte Aufnahmen ganz unmöglich machen möchten:

Es liegt irgendwo eine CSV Datei und die gemeldeten Sätze werden dann manuell aus dem Datensatz entfernt. Es soll ja jetzt im Juni oder Juli einen neuen Datensatz geben. @mkohler weißt Du, ob jemand für dieses Release den deutschen Datensatz von den gemeldeten Sätzen bereinigt? Wurde das überhaupt schon mal gemacht?

Topic		Replies	Views
✅ Die Juni-Validierungskampagne - alles was vor dem 22. Juni validiert wird, landet in der neuen Version des Datensatzes Deutsch (de)	14	1819	June 22, 2020
Sentence collection tool development topic Common Voice sentence-collection , announcements	32	4015	January 26, 2019
We want your feedback: Improving the sentence collection Common Voice sentence-collection , feedback	39	8865	January 9, 2019
About the new English Sentences Common Voice feedback , issue	37	3314	May 31, 2019
Start einer speziellen Kampagne u. a. für Deutsch und massenhaft neue Sätze Deutsch (de) announcements	11	1522	December 7, 2019

Wir haben 600 geprüfte Stunden erreicht, 50% des ersten Ziels

Related topics