Wir haben 600 geprüfte Stunden erreicht, 50% des ersten Ziels

Hm, da bin ich gar nicht mal sicher (Nutzungsrechte kann man leider komplett abtreten…) - aber wieso nicht einen fragen? Kenne jetzt keinen spontan, der sowas vielleicht machen würde (“Datenspende”)

Habe die Nachricht oben noch angepasst, normalerweise machen Foren so etwas nicht.

Ich glaube, Spender würde es genügend geben, wenn es nicht viel Arbeit macht. Man braucht also erst mal eine gute technische Lösung um die Texte, die von einem Nutzer über ein Forum verstreut liegen zu sammeln. Niemand wird das freiwillig für uns zusammen kopieren.

Der Betreiber hat das doch i.A. in einer SQL oder MongoDB Datenbank… da ist so ein Export nicht so schwer. Der Betreiber muss halt die Nutzungs-Rechte oder Weiterverwertungsrechte haben (was er vermutlich in vielen Fällen hat).

EDIT: Z.B. ICQ hat so ne AGB :japanese_ogre:

Das Script ist bei mir auf GitHub. Funktioniert mit WhatsApp Web und spuckt ne txt aus. Derzeit ist allerdings kein automatisches cleaning implementiert. Nutze die Sätze eher als Anregung eigene zu schreiben, da die Sprachqualität, Rechtschreibung etc in meinen Chats doch stark verbesserungsfähig ist. Hat mir aber geholfen relativ schnell auf 700 Sätze zu kommen, die ich dann letzten Mal in den Sentence collector gecopy/pasted hab

2 Likes

Für die faulen, hier der Link zu dem Repo:

Vielleicht mache ich mal in den kommenden Tagen einen eigenen Thread für den Sentence-Collector auf in dem man Bescheid geben kann, wenn es mal wieder neue Sätze gibt. (die Sätze müssen ja immer von zwei Personen validiert werden) Dort kann man dann Tipps zum Sätze finden und verarbeiten sammeln.

1 Like

Ja finde ich ne gute Idee! Und danke für den Repo link. War nur am handy und hatte keine Lust den link zu suchen :smiley:

@repodiac @stergro Noch kurz zu den Duplikaten: Grundsätzlich wäre es natürlich besser, wenn Sätze nur einmal vorkämen. Aber entgegen den Jungs von Deepspeech drüben, habe ich mit Duplikaten im deutschen Datensatz gute Erfahrungen gemacht. Daher würde ich sagen, alles OK bisher, für die Zukunft gerne ohne Duplikate, aber das ist nicht superdringend. Wir brauchen einfach mehr Stunden :slight_smile:

1 Like

Ich habe nachgedacht und ich glaube die beste Lösung wäre es die Reports einfach als eine Art Label oder eine eigene Spalte mit in den Datensatz aufzunehmen. Ich habe dazu mal ein Issue auf GitHub aufgemacht:

Zum Thema Foren/Messenger: Das wird nicht ohne viel manuelle Arbeit möglich sein, denn die Rechtschreibung in solchen Quellen ist in der Regel unterirdisch schlecht. Man müsste vorher alles korrigieren.

Ich habe mal für Esperanto ein (sehr rudimentäres) Script geschrieben, mit dem man Sätze mi Hilfe der API von https://languagetool.org/de/ testen kann:

Die Leute von Languagetools haben mir sogar kostenlos einen Premiumzugang zur API gegeben, als sie gehört haben, dass ich das für Common Voice mache. Das Script könnte man für Deutsch ein wenig verfeinern. Im Moment werden Sätze enfach gelöscht, wenn irgendeine Anmerkung für einen Satz vorhanden ist. Einen Teil der Anmerkungen sollte man aber ignorieren. (Stil, bessere Formulierungen,…)

Außerdem werden alle Sätze auf jeden Fall noch von zwei Personen im Sentence Collector überprüft bevor sie auf de Webseite gelangen. Ich denke also, das mit den vielen Fehlern in den Quellen ist ein lösbares Problem.

1 Like

Wow, das klingt nach ner klassen Idee. Kannte languagetools nicht, aber wenn die das kostenlos anbieten UND es einigermaßen funktioniert, sollte man eine ziemlich hochautomatisierte Lösung hinkriegen.

Ich kann da gerne helfen, ein paar API-Skripte und nen Server und das könnte “in der Ecke” laufen und ne Menge Arbeit abnehmen. Irgendeine Pipeline müssen die bei CV ja irgendwann mal bauen…

Sehr geil, das mit dem LanguageTool-Skript! Ich könnte mir allerdings vorstellen, dass es 95 % aller Chatnachrichten nicht durch die Kontrolle schaffen werden. Bei ausreichend großer Quelle wäre das egal. Ansonsten bräuchte man etwas, das einige Korrekturen (Groß-/Kleinschreibung, Zeichensetzung) automatisch vornimmt.

“automatisch” ist hier das schwierige Adjektiv… je nach Fall kann das (tiefes) semantisches Wissen (Textverständnis) erfordern, was selbst ein Mensch nicht immer leisten kann… aber wieso nicht ausprobieren, wenn es schon so ne API gibt?

PS: …äh… https://github.com/languagetool-org/ :smiley:

Irgendwann vor meiner Zeit hier gab es diese Diskussion wohl schon einmal und man hat sich dagegen entschieden Texte automatisiert auf ihre Qualität zu prüfen. Alles muss entweder durch den manuellen sentence-collecotor Reviewprozess durch oder bei großen Sammlungen wie den Europarl-Corpus muss ein relativ großes, zufälliges Sample reviewt werden.

Ja man kann die Languagetools auch lokal laufen lassen, ich glaube dann gibt es ein paar weniger Funktionen als in der kommerziellen Variante.

Ich finde man kann dieses Tool gut benutzen, um große Sammlungen für den Sentence-Collector vorzubereiten. Dann hat man dort eine kleine, sauberere Satzsammlung, die man viel schneller manuell kontrollieren kann. Ich denke nicht, dass 90% der Chat Nachrichten rausgefiltert werden, aber Rechtschreibfehler und falsche Satzzeichen erkennt das Tool ziemlich zuverlässig. Damit nimmt man sich schon mal eine gute Portion Arbeit ab.

1 Like

… das muss jetzt halt jemand bei Mozilla / CV auch eintüten bzw. anleiern. Offensichtlich können wir das nicht :-/

Wieso? Wir können Sätze sammeln, sie mit einem Script prüfen und in den Sentence Collector einpflegen. Oder was meinst Du?

so gesehen ja, dachte aber, dass Mozilla das integriert (soll ja keine Eintagsfliege sein). Die ungeprüften Sätze willst du dann einfach dem SC “hinkippen”? Dafür gibt’s aber ne API (Sätze zum SC Corpus hinzufügen), oder?