Mozilla Voice: Europarl ist nicht "echt"?

Clemens_Ratte-Polle · April 2, 2020, 12:51pm

Hi.
Ist PolitikerInnen-Sprech “echt”, normal und damit hilfreich die Masse besser zu verstehen?
Ich glaube nicht.
Dabei ist es doch Ziel die Mehrheit zu verstehen:
“Common-Voice ist ein Teil von Mozillas Initiative, die dabei helfen soll, Geräten beizubringen, wie echte Menschen sprechen.”

Gibt es noch andere Datensätze?
Ich bin erst kurz dabei und finde es “unnatürlich” Polit-Flosskeln nachzusprechen.
lg

othiele · April 2, 2020, 1:59pm

Das Problem ist, dass man eine Menge an Texten braucht, die man lizenzfrei nutzen kann. Das ist häufig Wikipedia und eben Europarl. Hinzu kommt, dass es für Europarl die Übersetzungen für andere Sprachen gibt. Wenn Du also diese - zugegeben, nicht ganz typsichen - Sätze einsprichst, kann man damit aber sowohl ein gutes Deutsches Sprachmodell als auch diverse Übersetzungsmodelle erstellen. Daher ist das für spätere Modelle gut nutzbar, auch wenn die einzelnen Sätze nicht so der “Brüller” sind.

Clemens_Ratte-Polle · April 2, 2020, 2:31pm

ok
Es ist aber lustig sich vorzustellen welche Partei oder sogar welcher Politiker was zu welchem Thema gesagt haben könnte
Die politische Arbeit wird einem so aber nicht unbedingt zuträglicher

othiele · April 2, 2020, 3:06pm

Zum Glück nimmt man ja später nicht 1-zu-1 diese Sätze, sondern nur die Buchstabenkombis bzw. Laute. Ich habe für ein kommerzielles Projekt etliche Stunden Soapoperas abgehört. Ich weiss gerade nicht, was schlimmer ist

stergro · April 6, 2020, 2:56pm

Hi,

Das Hauptproblem bei der Sache ist, dass wir für das neuronale Netzwerk keine Sätze doppelt aufnehmen dürfen/sollten weil das schlechtere Sprachmodelle erzeugt. Das hat zur Folge, dass man extrem viele Sätze benötigt. Das Ziel des Projektes sind erst mal 1200 Stunden zu sammeln, um ein halbwegs brauchbares System zu erschaffen, das endgültige Ziel sind aber 10 000 Stunden für ein wirklich gutes System. Wir haben etwas über eine Million Sätze aus der Wikipedia und etwa 370 000 Sätze aus dem Europarl Datensatz. Parallel sammeln wir über den Sentence Collector manuell Sätze, die in der Regel ziemlich natürlich klingen. Allerdings ist das händische Sammeln mühsam und es wurden dort erst 21 000 Sätze gesammelt. Außerdem gibt es noch ein paar andere Quellen, man findet alle verwendeten Sätze hier: https://github.com/mozilla/voice-web/tree/master/server/data/de
Ich wundere mich deswegen ein wenig warum wir plötzlich nur noch Sätze aus dem Europarl Datensatz kommen, ich dachte eigentlich die verschiedenen Quellen werden gemischt und es müsste noch genügend ungenutzte Wikipedia-Sätze geben.

Worauf ich aber hinaus will: Die 370 000 Sätze aus dem Europarl Datensatz werden am Ende nur einen Bruchteil der Datenbank ausmachen. Es ist gut sie zu haben, denn man will ja auch solche Sprache verstehen. Aber spätestens, wenn wir die 1000 Stunden genackt haben, sollten wir darüber nachdenken wie wir mehr natürliche Sprache in die Datenbank bekommen.

Eine Idee ist z.B. ein Chat, in dem Leute sich unterhalten und nebenher Sätze spenden. Aber eine wirklich gute Quelle für natürliche Sprache unter CC0-Lizenz haben wir noch nicht gefunden. Meiner Meinung nach klingt der Europarl-Datansatz sehr viel natürlicher als die Sätze aus der Wikipedia.

Clemens_Ratte-Polle · April 6, 2020, 4:32pm

Chat vorzulesen ist vllt seltsam und so spricht nie jemand laut.
Jugendsprache wäre auch mal toll vorzulesen

s.feile · April 6, 2020, 7:42pm

In Deutschland sind nach § 5 Abs. 1 des Urheberrechtsgesetzes leider nur “Gesetze, Verordnungen, amtliche Erlasse und Bekanntmachungen sowie Entscheidungen und amtlich verfasste Leitsätze zu Entscheidungen” gemeinfrei. Mit Entscheidungen sind übrigens Gerichtsentscheidungen (Urteile, Beschlüsse) gemeint. Man hätte also schon ein relativ großes Reservoir an Texten aus denen man schöpfen könnte, aber wirklich natürliche Sprache ist das natürlich nicht …

othiele · April 6, 2020, 7:59pm

Zum Training braucht man möglichst viele Variationen von Sprache, gerade juristische Texte sind aber häufig sehr einseitig, da Begriffe nicht getauscht werden können und auch sonst sehr hölzern klingen. Es sei denn, man möchte eine Urteilserkennung implementieren

s.feile · April 6, 2020, 8:07pm

Zumindest die Anwälte würde das sicher freuen, die setzen bei der Spracherkennung bisher (gezwungener Maßen) auf proprietäre Produkte … Wahrscheinlich würden die meisten Sätze aus Urteilen ohnehin an der 14-Wortregel scheitern. Kurze Sätze sind eher selten …

stergro · April 7, 2020, 7:58am

Das war übrigens auch ein großes Problem beim Europarl-Datensatz, eigentlich sind das Millionen von Sätzen, aber der Großteil ist einfach sehr lang. Zum Beispiel:

Nach der Tagesordnung folgt der Bericht (A5-0105/1999) von Herrn Koch im Namen des Ausschusses für Regionalpolitik, Verkehr und Fremdenverkehr über den Gemeinsamen Standpunkt des Rates im Hinblick auf den Erlaß der Richtlinie des Europäischen Parlaments und des Rates über die Mindestanforderungen für die Prüfung der Sicherheitsberater für die Beförderung gefährlicher Güter auf Straße, Schiene oder Binnenwasserstraßen (C5-0208/1999 - 1998/0106(COD)).

Eigentlich bin ich froh, dass diese Sätze raus gefallen sind

s.feile · April 10, 2020, 6:03am

Ist das Script/der Workflow mit dem die Sätze nach der 14-Wortregel extrahiert wurden, irgendwo dokumentiert? Ich würde das interessehalber gern mal an einigen Urteilen ausprobieren, um zu sehen, wie viele und was für Sätze dabei übrig bleiben

Grüße

stergro · April 10, 2020, 10:35am

Es gibt sogar zwei Dokus:

Der seit einigen Monaten bevorzugte Weg ist mit dem ehemaligen Wiki-Extractor-Script, dass jetzt für alle Arten von Quellen funktioniert mit festen Regeln alle Quellen auf die gleiche Art und Weise zu extrahieren: GitHub - common-voice/cv-sentence-extractor: Scraping Wikipedia for fair use sentences
Hier sind die Regeln für Deutsch definiert: cv-sentence-extractor/src/rules/de.toml at main · common-voice/cv-sentence-extractor · GitHub
Für den Europarl Corpus haben wir aber noch manuell gearbeitet. Verschiedene Leute haben dafür verschiedene Regeln angewendet, hier im Readme.md findest Du z.B. meine Bash-Einzeiler, die ich verwendet habe. Die Details findest Du in den Pull-Requests.

Wenn Du einfach nur mal schnell testen möchtest, inwieweit das überhaupt sinnvoll ist, empfehle ich mit einem Editor wie Visual Studio Code hinter jedem Punkt, jedem Fragezeichen, jedem Ausrufezeichen und jedem Doppelpunkt einen Zeilenumbruch einzufügen. (per Suchen und Ersetzen)

Leerzeilen und zu kurze Zeilen löschst Du dann mit:

awk ‘length>3’ basis.txt > nur_sätze.txt

Und Zeilen mit mehr als 14 Wörtern mit:

awk ‘NF<=14’ nur_sätze.txt > fertig.txt

Gurkenpeter · March 8, 2021, 5:32am

In Deutschland sind nach § 5 Abs. 1 des Urheberrechtsgesetzes leider nur “Gesetze, Verordnungen, amtliche Erlasse und Bekanntmachungen sowie Entscheidungen und amtlich verfasste Leitsätze zu Entscheidungen” gemeinfrei.

Das ist richtig, allerdings gibt es ein Schlupfloch: in anderen Ländern gibt es durchaus mehr public domain Texte und die teilweise auch auf Deutsch. Projekt Gutenberg, in Deutschland geblockt, lässt sich von Amerika aus problemlos nutzen. Ihr braucht einfach nur einen Amerikaner, der die Texte für euch hochschießt.

stergro · March 8, 2021, 7:15am

Projekt Gutenberg ist nicht Public Domain, zumindest die Bücher, die nach 1924 (?) veröffentlicht wurden sind es auch in den USA nicht. Sie sind dort nur nach den Fair Use Regeln veröffentlicht. Es gibt auch genügend andere deutsche Plattformen für gemeinfreie Werke, man braucht nicht unbedingt Project Gutenberg.

Aber das Hauptproblem für Deutsch ist die Rechtschreibreform von 1997. Alles, was davor geschrieben wurde, kann praktisch nicht benutzt werden.

Gurkenpeter · March 10, 2021, 3:34pm

Es gibt auch genügend andere deutsche Plattformen für gemeinfreie Werke

Außer den Gesetzes- und Politik-Texten scheint es ja nichts zu geben, was in Deutschland gemeinfrei ist. Wenn die alte Rechtschreibung nicht funktioniert, dann sehe ich allerdings auch keine Chance, dass sich daran viel ändern wird. Die freien Texte in Amerika sind natürlich entweder älter oder aus ähnlichen Bereichen. Wie ist denn die Lage in Österreich und der Schweiz?

stergro · March 10, 2021, 9:23pm

Naja spontan fallen mir noch ein:

das deutsche Projekt Gutenberg, also die legale Variante (https://www.projekt-gutenberg.org/)
wikisources https://de.wikisource.org

Aber du hast natürlich recht. Für Esperanto hatte ich ähnliche Probleme (dort konnte man auch nur 100 000 Sätze aus der Wikipedia extrahieren und es gibt kein Europarl). Deswegen habe ich dort Blogbetreiber und Internetzeitungen gefragt, ob sie bereit wären ihre Texte zu spenden. Wenn man betont, dass es nur um einzelne Sätze mit weniger als 14 Worten geht, die unsortiert unter CC0 veröffentlicht werden, dann stimmen einige Leute zu. Das könnte man mal für Deutsch versuchen, da gäbe es fast unendlich Material.

Allerdings muss man diese Quellen dann umständlich Satz für Satz in dem Sentence Collector validieren .

Wenn man wirklich große Satzsammlungen hat, dann kann man sie aber wie Europarl auf einmal importieren und muss nur c.a. 2000 zufällig ausgewählte Sätze aus der Sammlung kontrollieren.

Außerdem gibt es schon länger die Idee, dass Leute ja ihre Chatverläufe spenden können.

Gurkenpeter · March 11, 2021, 5:56am

Jetzt passt für mich gar nichts mehr zusammen. Man hört ja über alles völlig gegensätzliche Aussagen. Gut, ich halte mich besser ganz raus und überlasse das den Experten.

stergro · March 11, 2021, 8:29am

Was meinst Du mit gegensätzlichen Aussagen?

EDIT: Sobald der Autor/Rechteinhaber seine Zustimmung gibt, kann man fast alles machen. Nur ist es natürlich schwierig diese Erlaubnis zu erfragen , deswegen haben wir bis jetzt fast nur mit Sätzen gearbeitet, die schon von sich aus Gemeinfrei sind.

Gute Frage! In diese Richtung habe ich noch gar nicht gesucht.

Gurkenpeter · March 11, 2021, 6:34pm

Ich meine damit, dass man verschiedene Auslegungen und Eindrücke über die Regeln erhält, sogar innerhalb dieses Threads.

Zum Beispiel hört man mehrfach, dass es in Deutschland per Definition nur politische und Gesetzestexte als gemeinfrei gibt.

Dann hört man, dass Wikipedia-Inhalte nicht erlaubt sind, allerdings für Esperanto schon. Wieso gibt es unterschiedliche Regeln bei unterschiedlichen Sprachen?

Oder die Sache mit der deutschen Gutenbergseite. Dort heißt es doch:

Die Rechtschreibung des Originals wird grundsätzlich beibehalten, kein Buch wird in »neue« Rechtschreibung umgesetzt oder gar inhaltlich verändert.

War die Rechtschreibung nicht gerade noch ein Problem?

Und außerdem schreibt man dort:

Für eine kommerzielle Nutzung des Text- und Bildbestandes, auch in Teilen, als E-Book, auf Internetseiten, für den Nachdruck u.A. bitten wir uns eine Lizenzgebühr aus, denn Literatur zu digitalisieren kostet viel Geld, für antiquarische Bücher, Büromiete, Geräte, Software, Personal usw. Auch wenn viele Freiwillige mithelfen: die Hauptarbeit und die gesamten Kosten für Gutenberg-DE trägt das Gutenberg-Team. Es ist sehr unfair und zudem illegal, mit unseren Texten Einnahmen zu erzielen, uns aber die Kosten zu überlassen. Um illegale Kopien nachweisen und verfolgen zu können, sind die Texte digital markiert.

Das klingt für mich mit meiner Laieneinschätzung doch stark nach creative-commons-share-alike und nicht public domain? Ich meine da landen doch Sätze in der Sammlung, die eigentlich nicht kommerziell genutzt werden dürfen ohne Nennung - und vermutlich lassen sich die Einzelquellen in der Sammlung nicht gut erkennen.

Solche Dinge halt. Es ist alles sehr verwirrend für mich. Ich bin ganz froh, dass ich mich damit nicht herumschlagen muss.

stergro · March 11, 2021, 8:45pm

Ja, es ist wirklich, verwirrend. Einen Teil deiner Fragen kann ich aber beantworten:

Für Deutsch wurden auch Sätze aus der Wikipedia importiert. Das Legal Team von Mozilla hat herausgefunden, dass drei nicht aufeinanderfolgende Sätze pro Artikel extrahiert werden können und als Public Domain genutzt werden dürfen. Wikimedia (der Verein hinter der Wikipedia) hat der Sache auch zugestimmt. Deswegen gibt es jetzt ein kompliziertes Wikipedia-Extraktions-Script das für jede Sprache genau einmal Sätze legal aus der Wikpedia extrahiert. Für Deutsch sind das mehrere Millionen Sätze.

Ich habe auch lange gebraucht um mich an diese Geschichte zu gewöhnen, im Prinzip wird hier ein rechtliches Schlupfloch ausgenutzt. Hier stehen die Details:

Was das Deutsche Gutenberg angeht, könntest Du recht haben, ich glaube an diese Quelle hat sich auch noch niemand heran getraut.

Ja Du hast Recht, es ist wirklich verwirrend und zäh, vielleicht wäre eine andere Lizenz, z.B. CC BY sinnvoller gewesen, da hätten riesige Textsätze für das Projekt offen gestanden.

Topic		Replies	Views
Europarl Datensatz mit hunderttausenden Sätzen aus EU-Debatten Deutsch (de)	8	988	December 23, 2019
Es gibt jetzt einen deutschprachigen Raum über Common Voice auf chat.mozilla.org Deutsch (de)	0	526	February 16, 2020
[Zuerst lesen] Über die Kategorie "Deutsch (de)" Deutsch (de)	2	1690	October 25, 2021
Normalisierung des Pegels der Sprachausgabe Deutsch (de)	4	1106	December 29, 2019
Mithilfe benötigt für Massenimport aus dem Datensatz des Europäischen Parlamentes Deutsch (de)	7	1157	March 6, 2020

Mozilla Voice: Europarl ist nicht "echt"?

Related topics