Im Moment gibt es beim “Anhören” viele Sätze mit störendem Radiosound im Hintergrund. Ich habe diese alle abgelehnt, da ich nicht annehme, dass dies für die Spracherkennung geeignetes Trainingsmaterial ergibt. Sehe ich das richtig?
Morgen Marc,
Danke, dass Du mithilfst, wir nutzen die Chunks später, um damit Sprache zu erkennen.
Ich weiss leider nicht, was die offizielle Richtlinie ist, hier aber mal was das technisch bedeutet.
Später werden auch Nutzer im Hintergrund Geräusche laufen haben, also ist das an sich fürs Training gar nicht schlecht, aber natürlich gibt es auch welche ohne und dann ist es nicht so gut. Außerdem nehmen wir ohnehin hinterher die sauberen Abschnitte und unterlegen sie mit Hintergrundgeräuschen. Also aus 1 mache 2, das geht andersrum leider nicht Daher finde ich das Ablehnen in Ordnung.
Solange der Satz immer noch verständlich ist, sind Hintergrundgeräusche absolut in Ordnung.
Aus der FAQ:
Wir möchten, dass der Common-Voice-Datensatz die Audioqualität widerspiegelt, die eine Sprach-zu-Text-Engine in der freien Natur hört. Wir suchen also nach Abwechslung. Zusätzlich zu einer vielfältigen Gemeinschaft von Sprechern wird ein Datensatz mit unterschiedlicher Audioqualität die Sprach-zu-Text-Engine in die Lage versetzen, mit verschiedenen Situationen der realen Welt umzugehen, vom Hintergrundgespräch bis zum Autolärm. Solange Ihr Sprachclip verständlich ist, sollte er für den Datensatz gut genug sein.
Danke fürs Klären, wir sind dankbar für jeden gesprochenen Satz
OK, danke für den Hinweis!
Und wie ist das mit undeutlich gesprochenen Wörtern/Dialekt oder wenn es zwischendurch im Mikrophon knackt? (Ich denke das klicken am Ende sind kein Problem, oder?)
Wichtig ist, dass alles und nur das zu hören ist, was auch geschrieben ist. Wenn also im Hintergrund Nachrichten gesprochen werden und man die Worte versteht, geht das nicht, aber ein Knacken, Tür knarren oder andere Störgeräusche sind nicht gerade ideal, aber können zum Training genutzt werden.
Auch Dir Danke fürs Checken und bleibt alle gesund