Mozilla Voice: Europarl ist nicht "echt"?

Hi.
Ist PolitikerInnen-Sprech “echt”, normal und damit hilfreich die Masse besser zu verstehen?
Ich glaube nicht.
Dabei ist es doch Ziel die Mehrheit zu verstehen:
“Common-Voice ist ein Teil von Mozillas Initiative, die dabei helfen soll, Geräten beizubringen, wie echte Menschen sprechen.”

Gibt es noch andere Datensätze?
Ich bin erst kurz dabei und finde es “unnatürlich” Polit-Flosskeln nachzusprechen.
lg

Das Problem ist, dass man eine Menge an Texten braucht, die man lizenzfrei nutzen kann. Das ist häufig Wikipedia und eben Europarl. Hinzu kommt, dass es für Europarl die Übersetzungen für andere Sprachen gibt. Wenn Du also diese - zugegeben, nicht ganz typsichen - Sätze einsprichst, kann man damit aber sowohl ein gutes Deutsches Sprachmodell als auch diverse Übersetzungsmodelle erstellen. Daher ist das für spätere Modelle gut nutzbar, auch wenn die einzelnen Sätze nicht so der “Brüller” sind.

1 Like

ok :slight_smile:
Es ist aber lustig sich vorzustellen welche Partei oder sogar welcher Politiker was zu welchem Thema gesagt haben könnte :smiley:
Die politische Arbeit wird einem so aber nicht unbedingt zuträglicher :wink:

1 Like

Zum Glück nimmt man ja später nicht 1-zu-1 diese Sätze, sondern nur die Buchstabenkombis bzw. Laute. Ich habe für ein kommerzielles Projekt etliche Stunden Soapoperas abgehört. Ich weiss gerade nicht, was schlimmer ist :slight_smile:

2 Likes

Hi,

Das Hauptproblem bei der Sache ist, dass wir für das neuronale Netzwerk keine Sätze doppelt aufnehmen dürfen/sollten weil das schlechtere Sprachmodelle erzeugt. Das hat zur Folge, dass man extrem viele Sätze benötigt. Das Ziel des Projektes sind erst mal 1200 Stunden zu sammeln, um ein halbwegs brauchbares System zu erschaffen, das endgültige Ziel sind aber 10 000 Stunden für ein wirklich gutes System. Wir haben etwas über eine Million Sätze aus der Wikipedia und etwa 370 000 Sätze aus dem Europarl Datensatz. Parallel sammeln wir über den Sentence Collector manuell Sätze, die in der Regel ziemlich natürlich klingen. Allerdings ist das händische Sammeln mühsam und es wurden dort erst 21 000 Sätze gesammelt. Außerdem gibt es noch ein paar andere Quellen, man findet alle verwendeten Sätze hier: https://github.com/mozilla/voice-web/tree/master/server/data/de
Ich wundere mich deswegen ein wenig warum wir plötzlich nur noch Sätze aus dem Europarl Datensatz kommen, ich dachte eigentlich die verschiedenen Quellen werden gemischt und es müsste noch genügend ungenutzte Wikipedia-Sätze geben.

Worauf ich aber hinaus will: Die 370 000 Sätze aus dem Europarl Datensatz werden am Ende nur einen Bruchteil der Datenbank ausmachen. Es ist gut sie zu haben, denn man will ja auch solche Sprache verstehen. Aber spätestens, wenn wir die 1000 Stunden genackt haben, sollten wir darüber nachdenken wie wir mehr natürliche Sprache in die Datenbank bekommen.

Eine Idee ist z.B. ein Chat, in dem Leute sich unterhalten und nebenher Sätze spenden. Aber eine wirklich gute Quelle für natürliche Sprache unter CC0-Lizenz haben wir noch nicht gefunden. Meiner Meinung nach klingt der Europarl-Datansatz sehr viel natürlicher als die Sätze aus der Wikipedia.

1 Like

:slight_smile:
Chat vorzulesen ist vllt seltsam und so spricht nie jemand laut.
Jugendsprache wäre auch mal toll vorzulesen :wink:

In Deutschland sind nach § 5 Abs. 1 des Urheberrechtsgesetzes leider nur “Gesetze, Verordnungen, amtliche Erlasse und Bekanntmachungen sowie Entscheidungen und amtlich verfasste Leitsätze zu Entscheidungen” gemeinfrei. Mit Entscheidungen sind übrigens Gerichtsentscheidungen (Urteile, Beschlüsse) gemeint. Man hätte also schon ein relativ großes Reservoir an Texten aus denen man schöpfen könnte, aber wirklich natürliche Sprache ist das natürlich nicht …

1 Like

Zum Training braucht man möglichst viele Variationen von Sprache, gerade juristische Texte sind aber häufig sehr einseitig, da Begriffe nicht getauscht werden können und auch sonst sehr hölzern klingen. Es sei denn, man möchte eine Urteilserkennung implementieren :slight_smile:

Zumindest die Anwälte würde das sicher freuen, die setzen bei der Spracherkennung bisher (gezwungener Maßen) auf proprietäre Produkte … Wahrscheinlich würden die meisten Sätze aus Urteilen ohnehin an der 14-Wortregel scheitern. Kurze Sätze sind eher selten … :slight_smile:

Das war übrigens auch ein großes Problem beim Europarl-Datensatz, eigentlich sind das Millionen von Sätzen, aber der Großteil ist einfach sehr lang. Zum Beispiel:

Nach der Tagesordnung folgt der Bericht (A5-0105/1999) von Herrn Koch im Namen des Ausschusses für Regionalpolitik, Verkehr und Fremdenverkehr über den Gemeinsamen Standpunkt des Rates im Hinblick auf den Erlaß der Richtlinie des Europäischen Parlaments und des Rates über die Mindestanforderungen für die Prüfung der Sicherheitsberater für die Beförderung gefährlicher Güter auf Straße, Schiene oder Binnenwasserstraßen (C5-0208/1999 - 1998/0106(COD)).

Eigentlich bin ich froh, dass diese Sätze raus gefallen sind :smiley:

1 Like

Ist das Script/der Workflow mit dem die Sätze nach der 14-Wortregel extrahiert wurden, irgendwo dokumentiert? Ich würde das interessehalber gern mal an einigen Urteilen ausprobieren, um zu sehen, wie viele und was für Sätze dabei übrig bleiben :slight_smile:

Grüße

Es gibt sogar zwei Dokus:

Wenn Du einfach nur mal schnell testen möchtest, inwieweit das überhaupt sinnvoll ist, empfehle ich mit einem Editor wie Visual Studio Code hinter jedem Punkt, jedem Fragezeichen, jedem Ausrufezeichen und jedem Doppelpunkt einen Zeilenumbruch einzufügen. (per Suchen und Ersetzen)

Leerzeilen und zu kurze Zeilen löschst Du dann mit:

awk ‘length>3’ basis.txt > nur_sätze.txt

Und Zeilen mit mehr als 14 Wörtern mit:

awk ‘NF<=14’ nur_sätze.txt > fertig.txt

In Deutschland sind nach § 5 Abs. 1 des Urheberrechtsgesetzes leider nur “Gesetze, Verordnungen, amtliche Erlasse und Bekanntmachungen sowie Entscheidungen und amtlich verfasste Leitsätze zu Entscheidungen” gemeinfrei.

Das ist richtig, allerdings gibt es ein Schlupfloch: in anderen Ländern gibt es durchaus mehr public domain Texte und die teilweise auch auf Deutsch. Projekt Gutenberg, in Deutschland geblockt, lässt sich von Amerika aus problemlos nutzen. Ihr braucht einfach nur einen Amerikaner, der die Texte für euch hochschießt.

Projekt Gutenberg ist nicht Public Domain, zumindest die Bücher, die nach 1924 (?) veröffentlicht wurden sind es auch in den USA nicht. Sie sind dort nur nach den Fair Use Regeln veröffentlicht. Es gibt auch genügend andere deutsche Plattformen für gemeinfreie Werke, man braucht nicht unbedingt Project Gutenberg.

Aber das Hauptproblem für Deutsch ist die Rechtschreibreform von 1997. Alles, was davor geschrieben wurde, kann praktisch nicht benutzt werden.

Es gibt auch genügend andere deutsche Plattformen für gemeinfreie Werke

Außer den Gesetzes- und Politik-Texten scheint es ja nichts zu geben, was in Deutschland gemeinfrei ist. Wenn die alte Rechtschreibung nicht funktioniert, dann sehe ich allerdings auch keine Chance, dass sich daran viel ändern wird. Die freien Texte in Amerika sind natürlich entweder älter oder aus ähnlichen Bereichen. Wie ist denn die Lage in Österreich und der Schweiz?

Naja spontan fallen mir noch ein:

Aber du hast natürlich recht. Für Esperanto hatte ich ähnliche Probleme (dort konnte man auch nur 100 000 Sätze aus der Wikipedia extrahieren und es gibt kein Europarl). Deswegen habe ich dort Blogbetreiber und Internetzeitungen gefragt, ob sie bereit wären ihre Texte zu spenden. Wenn man betont, dass es nur um einzelne Sätze mit weniger als 14 Worten geht, die unsortiert unter CC0 veröffentlicht werden, dann stimmen einige Leute zu. Das könnte man mal für Deutsch versuchen, da gäbe es fast unendlich Material.

Allerdings muss man diese Quellen dann umständlich Satz für Satz in dem Sentence Collector validieren .

Wenn man wirklich große Satzsammlungen hat, dann kann man sie aber wie Europarl auf einmal importieren und muss nur c.a. 2000 zufällig ausgewählte Sätze aus der Sammlung kontrollieren.

Außerdem gibt es schon länger die Idee, dass Leute ja ihre Chatverläufe spenden können.

Jetzt passt für mich gar nichts mehr zusammen. Man hört ja über alles völlig gegensätzliche Aussagen. Gut, ich halte mich besser ganz raus und überlasse das den Experten.

Was meinst Du mit gegensätzlichen Aussagen?

EDIT: Sobald der Autor/Rechteinhaber seine Zustimmung gibt, kann man fast alles machen. Nur ist es natürlich schwierig diese Erlaubnis zu erfragen , deswegen haben wir bis jetzt fast nur mit Sätzen gearbeitet, die schon von sich aus Gemeinfrei sind.

Gute Frage! In diese Richtung habe ich noch gar nicht gesucht.

Ich meine damit, dass man verschiedene Auslegungen und Eindrücke über die Regeln erhält, sogar innerhalb dieses Threads.

Zum Beispiel hört man mehrfach, dass es in Deutschland per Definition nur politische und Gesetzestexte als gemeinfrei gibt.

Dann hört man, dass Wikipedia-Inhalte nicht erlaubt sind, allerdings für Esperanto schon. Wieso gibt es unterschiedliche Regeln bei unterschiedlichen Sprachen?

Oder die Sache mit der deutschen Gutenbergseite. Dort heißt es doch:

Die Rechtschreibung des Originals wird grundsätzlich beibehalten, kein Buch wird in »neue« Rechtschreibung umgesetzt oder gar inhaltlich verändert.

War die Rechtschreibung nicht gerade noch ein Problem?

Und außerdem schreibt man dort:

Für eine kommerzielle Nutzung des Text- und Bildbestandes, auch in Teilen, als E-Book, auf Internetseiten, für den Nachdruck u.A. bitten wir uns eine Lizenzgebühr aus, denn Literatur zu digitalisieren kostet viel Geld, für antiquarische Bücher, Büromiete, Geräte, Software, Personal usw. Auch wenn viele Freiwillige mithelfen: die Hauptarbeit und die gesamten Kosten für Gutenberg-DE trägt das Gutenberg-Team. Es ist sehr unfair und zudem illegal, mit unseren Texten Einnahmen zu erzielen, uns aber die Kosten zu überlassen. Um illegale Kopien nachweisen und verfolgen zu können, sind die Texte digital markiert.

Das klingt für mich mit meiner Laieneinschätzung doch stark nach creative-commons-share-alike und nicht public domain? Ich meine da landen doch Sätze in der Sammlung, die eigentlich nicht kommerziell genutzt werden dürfen ohne Nennung - und vermutlich lassen sich die Einzelquellen in der Sammlung nicht gut erkennen.

Solche Dinge halt. Es ist alles sehr verwirrend für mich. Ich bin ganz froh, dass ich mich damit nicht herumschlagen muss.

Ja, es ist wirklich, verwirrend. Einen Teil deiner Fragen kann ich aber beantworten:

Für Deutsch wurden auch Sätze aus der Wikipedia importiert. Das Legal Team von Mozilla hat herausgefunden, dass drei nicht aufeinanderfolgende Sätze pro Artikel extrahiert werden können und als Public Domain genutzt werden dürfen. Wikimedia (der Verein hinter der Wikipedia) hat der Sache auch zugestimmt. Deswegen gibt es jetzt ein kompliziertes Wikipedia-Extraktions-Script das für jede Sprache genau einmal Sätze legal aus der Wikpedia extrahiert. Für Deutsch sind das mehrere Millionen Sätze.

Ich habe auch lange gebraucht um mich an diese Geschichte zu gewöhnen, im Prinzip wird hier ein rechtliches Schlupfloch ausgenutzt. Hier stehen die Details:

Was das Deutsche Gutenberg angeht, könntest Du recht haben, ich glaube an diese Quelle hat sich auch noch niemand heran getraut.

Ja Du hast Recht, es ist wirklich verwirrend und zäh, vielleicht wäre eine andere Lizenz, z.B. CC BY sinnvoller gewesen, da hätten riesige Textsätze für das Projekt offen gestanden.