Wir haben 600 geprüfte Stunden erreicht, 50% des ersten Ziels

repodiac · May 17, 2020, 7:18pm

Da hast du einen Punkt - das Acoustic Model zum einen und das Language Model zum anderen. Ob es vorteilhaft wäre, diese unabhängig zu trainieren, kann ich dir nicht sagen – vermutlich aber nicht bzw. hätte den gegenteiligen Effekt. Deep Learning kann von end-2-end oft profitieren (d.h. wenige Zwischenschritte oder “Encodings”) und zum anderen sind diese ja auch korreliert, was es schwierig machen dürfte.

Ich kann allen Interessierten (technisch) aber diesen Talk eines der Autoren des “Ur-DeepSpeech” empfehlen, da wird einiges erklärt: https://www.youtube.com/watch?v=g-sndkf7mCs

stergro · May 17, 2020, 7:23pm

Die 600 Stunden Marke und das Release im Juni/Juli ist vielleicht ein guter Zeitpunkt das mal zu machen. Ich erinnere mich entfernt, dass Jenny Zhang das schon mal für eine Sprache bereitgestellt hat, ich frage sie einfach mal, ob man das machen kann.

Das ist eine ganz eigene, große Diskussion. Es ist sehr schwer gute Sätze zu bekommen. Auch die 370 000 Sätze aus dem Europaparlament, die wir zuletzt importiert haben, sind nicht ideal. Aber auf Deutsch kann man aufgrund der Rechtschreibreform 96 nur sehr schwer gemeinfreie Texte finden, die man ohne viel Handarbeit einfach importieren kann. Zurzeit experimentiert @benekuehn mit einem WhatsApp Scrapper mit dem man seine privaten Chats spenden kann. Wenn da viele mitmachen, könnte das eine Chance sein.

mkohler · May 17, 2020, 7:25pm

Das kann ich nicht beantworten, ich habe keine Ahnung wie der Datensatz aufgebaut ist und welche Information darin verfügbar sind.

repodiac · May 17, 2020, 7:25pm

Verstehe. Ich hab schon eigene Sätze per Web Interface eingepflegt, aber das waren natürlich hunderte, nicht hunderttausende. Finde es wichtig, dass das auch weiterhin möglich bleibt!

Das mit Chats und WhatsApp klingt nach ner klassen Idee!! Vielleicht kann man auch mal mit Forenbetreibern reden?

stergro · May 17, 2020, 7:28pm

Ja das geht definitiv, die Anzahl der Jas und Neins sind pro Aufnahme in den Daten. Aber die Jas und Neins laufen unabhängig vom Sätze melden, ein Satz kann z.B. mit zwei Jas in der Datenbank sein, aber wegen Urheberrechtsprobleme oder beleidigender Sprache oder eines Rechtschreibfehlers gemeldet sein.

repodiac · May 17, 2020, 7:29pm

Ich hatte mir das vorletzte Release mal angeguckt - da wird klar der “dismissed” vom “validated” getrennt, auf deutsch weiß ich das aber nicht genau… wäre aber ja blöd, wenn es nicht so wäre (also melden aber dann wird’s nicht notiert). Nur die Regel, wann ein Recording als “ungültig” gilt, steht glaube ich nirgends - war ja glaube ich “2 aus 3 reviewern mindestens bestätigen -> valide”

repodiac · May 17, 2020, 7:30pm

ach das meint ihr? das wusste ich gar nicht, dass es das gibt

stergro · May 17, 2020, 7:45pm

Foren gehen natürlich auch. Wichtig ist, dass man nur die eigenen Beiträge/Chatnachrichten nimmt, nur an denen hat man die Rechte. Auch ein Forenbetreiber kann nicht einfach die Nachrichten seiner Nutzer verscherbeln, es sei denn er hat eine sehr fiese AGB geschrieben.

repodiac · May 17, 2020, 7:45pm

Hm, da bin ich gar nicht mal sicher (Nutzungsrechte kann man leider komplett abtreten…) - aber wieso nicht einen fragen? Kenne jetzt keinen spontan, der sowas vielleicht machen würde (“Datenspende”)

stergro · May 17, 2020, 7:49pm

Habe die Nachricht oben noch angepasst, normalerweise machen Foren so etwas nicht.

Ich glaube, Spender würde es genügend geben, wenn es nicht viel Arbeit macht. Man braucht also erst mal eine gute technische Lösung um die Texte, die von einem Nutzer über ein Forum verstreut liegen zu sammeln. Niemand wird das freiwillig für uns zusammen kopieren.

repodiac · May 17, 2020, 7:53pm

Der Betreiber hat das doch i.A. in einer SQL oder MongoDB Datenbank… da ist so ein Export nicht so schwer. Der Betreiber muss halt die Nutzungs-Rechte oder Weiterverwertungsrechte haben (was er vermutlich in vielen Fällen hat).

EDIT: Z.B. ICQ hat so ne AGB

benekuehn · May 17, 2020, 8:22pm

Das Script ist bei mir auf GitHub. Funktioniert mit WhatsApp Web und spuckt ne txt aus. Derzeit ist allerdings kein automatisches cleaning implementiert. Nutze die Sätze eher als Anregung eigene zu schreiben, da die Sprachqualität, Rechtschreibung etc in meinen Chats doch stark verbesserungsfähig ist. Hat mir aber geholfen relativ schnell auf 700 Sätze zu kommen, die ich dann letzten Mal in den Sentence collector gecopy/pasted hab

stergro · May 17, 2020, 8:49pm

Für die faulen, hier der Link zu dem Repo:

Vielleicht mache ich mal in den kommenden Tagen einen eigenen Thread für den Sentence-Collector auf in dem man Bescheid geben kann, wenn es mal wieder neue Sätze gibt. (die Sätze müssen ja immer von zwei Personen validiert werden) Dort kann man dann Tipps zum Sätze finden und verarbeiten sammeln.

benekuehn · May 18, 2020, 9:44am

Ja finde ich ne gute Idee! Und danke für den Repo link. War nur am handy und hatte keine Lust den link zu suchen

othiele · May 18, 2020, 11:06am

@repodiac @stergro Noch kurz zu den Duplikaten: Grundsätzlich wäre es natürlich besser, wenn Sätze nur einmal vorkämen. Aber entgegen den Jungs von Deepspeech drüben, habe ich mit Duplikaten im deutschen Datensatz gute Erfahrungen gemacht. Daher würde ich sagen, alles OK bisher, für die Zukunft gerne ohne Duplikate, aber das ist nicht superdringend. Wir brauchen einfach mehr Stunden

stergro · May 20, 2020, 6:34am

Ich habe nachgedacht und ich glaube die beste Lösung wäre es die Reports einfach als eine Art Label oder eine eigene Spalte mit in den Datensatz aufzunehmen. Ich habe dazu mal ein Issue auf GitHub aufgemacht:

jf99 · May 21, 2020, 10:01am

Zum Thema Foren/Messenger: Das wird nicht ohne viel manuelle Arbeit möglich sein, denn die Rechtschreibung in solchen Quellen ist in der Regel unterirdisch schlecht. Man müsste vorher alles korrigieren.

stergro · May 22, 2020, 7:45am

Ich habe mal für Esperanto ein (sehr rudimentäres) Script geschrieben, mit dem man Sätze mi Hilfe der API von https://languagetool.org/de/ testen kann:

github.com

stefangrotz/common-voice-work-files/blob/master/scripts/languagetool-check.sh

#!/bin/bash
# jq https://stedolan.github.io/jq/

# insert username and API key from https://languagetoolplus.com/api-access
username='exampl@mail.me'
apiKey='XXXX'

while IFS= read -r line; do
  
  matchesJSON=$(
  curl -s -X POST --header 'Content-Type: application/x-www-form-urlencoded' --header 'Accept: application/json' -d 'text='"$line"'&language=eo&username='"$username"'&apiKey='"$apiKey"'&enabledOnly=false' 'https://api.languagetoolplus.com/v2/check' |\
  jq '.matches')
  
  matchesJSONLength=$(echo -n $matchesJSON | wc -c)
  #  echo $matchesJSONLength
  
  if [ "$matchesJSONLength" -eq "6" ]; then
        echo "$line"
  fi

This file has been truncated. show original

Die Leute von Languagetools haben mir sogar kostenlos einen Premiumzugang zur API gegeben, als sie gehört haben, dass ich das für Common Voice mache. Das Script könnte man für Deutsch ein wenig verfeinern. Im Moment werden Sätze enfach gelöscht, wenn irgendeine Anmerkung für einen Satz vorhanden ist. Einen Teil der Anmerkungen sollte man aber ignorieren. (Stil, bessere Formulierungen,…)

Außerdem werden alle Sätze auf jeden Fall noch von zwei Personen im Sentence Collector überprüft bevor sie auf de Webseite gelangen. Ich denke also, das mit den vielen Fehlern in den Quellen ist ein lösbares Problem.

repodiac · May 25, 2020, 6:08pm

Wow, das klingt nach ner klassen Idee. Kannte languagetools nicht, aber wenn die das kostenlos anbieten UND es einigermaßen funktioniert, sollte man eine ziemlich hochautomatisierte Lösung hinkriegen.

Ich kann da gerne helfen, ein paar API-Skripte und nen Server und das könnte “in der Ecke” laufen und ne Menge Arbeit abnehmen. Irgendeine Pipeline müssen die bei CV ja irgendwann mal bauen…

jf99 · May 25, 2020, 6:24pm

Sehr geil, das mit dem LanguageTool-Skript! Ich könnte mir allerdings vorstellen, dass es 95 % aller Chatnachrichten nicht durch die Kontrolle schaffen werden. Bei ausreichend großer Quelle wäre das egal. Ansonsten bräuchte man etwas, das einige Korrekturen (Groß-/Kleinschreibung, Zeichensetzung) automatisch vornimmt.