Wer kontrolliert die Sätze, die zum 'Sprechen' drankommen?

stergro · March 17, 2020, 7:55pm

Zu dieser Frage vielleicht noch ein paar mehr Details. Für gute Ergebnisse im machine learning sollte vermieden werden, dass ein Satz doppelt aufgenommen wird. Deswegen müssen extrem viele Sätze gesammelt werden um mindestens 1200 Stunden ohne Wiederholungen zu erreichen.

Die Sätze stammen aus mehreren Quellen. Der Großteil wurde mit Hilfe eines Scripts aus der Wikipedia extrahiert. Wenn Dich die Details interessieren dann findest du die Datei, die die Regeln definierst hier. Das sind alleine über eine Million Sätze.

Dann wurden erst neulich über 300k Sätze aus einem Datensatz des EU-Parlaments importiert, siehe dazu diesen Thread.

Und zu guter letzt gibt es den Sentence Collector wo verschiedene Sätze aus gemeinfreien Quellen importiert und validiert werden. Nur hier wird wirklich jeder Satz von zwei Personen reviewed, deswegen sind die Sätze von dort qualitativ viel hochwertiger. Das ist allerdings ein langwieriger händischer Prozess, der nicht ausreicht, um genügend Sätze zu sammeln.

Alles zusammen landet am Ende hier im Repo von Common Voice: common-voice/server/data/de at master · common-voice/common-voice · GitHub

Dort kannst Du auch Pull-Requests stellen in denen falsche Sätze gelöscht werden

Topic		Replies	Views
An alle 'Specher': Kontrolle? Deutsch (de)	4	911	April 12, 2020
Wir haben 600 geprüfte Stunden erreicht, 50% des ersten Ziels Deutsch (de)	56	2358	May 26, 2020
Rules for German sentence contribution / Deutsche Sprache Deutsch (de) sentence-collection	22	3201	June 29, 2019
:white_check_mark: Vorläufige Richtlinien für das Validieren von Sätzen Deutsch (de)	7	2026	October 3, 2021
✅ Die Juni-Validierungskampagne - alles was vor dem 22. Juni validiert wird, landet in der neuen Version des Datensatzes Deutsch (de)	14	1819	June 22, 2020

Wer kontrolliert die Sätze, die zum 'Sprechen' drankommen?

Related topics