Interessant da mal eine Gegenmeinung zu hören. Irgendjemand (ich glaube mit einem französischen Modell) hat hier auf Discord auch geschrieben, dass die WER besser wird, wenn er mit den Duplikaten trainiert. Ich könnte mir vorstellen, dass es einen Unterschied macht, ob ein Datensatz nur die initialen 5000 Sätze tausendmal aufnimmt, oder ob hunderttausende Sätze doppelt oder dreifach aufgenommen werden.
Im Anouncement steht aber das sie für einige Sprachen doppelte Aufnahmen ganz unmöglich machen möchten:
Es liegt irgendwo eine CSV Datei und die gemeldeten Sätze werden dann manuell aus dem Datensatz entfernt. Es soll ja jetzt im Juni oder Juli einen neuen Datensatz geben. @mkohler weißt Du, ob jemand für dieses Release den deutschen Datensatz von den gemeldeten Sätzen bereinigt? Wurde das überhaupt schon mal gemacht?