Mozilla Voice: Europarl ist nicht "echt"?

Hi.
Ist PolitikerInnen-Sprech “echt”, normal und damit hilfreich die Masse besser zu verstehen?
Ich glaube nicht.
Dabei ist es doch Ziel die Mehrheit zu verstehen:
“Common-Voice ist ein Teil von Mozillas Initiative, die dabei helfen soll, Geräten beizubringen, wie echte Menschen sprechen.”

Gibt es noch andere Datensätze?
Ich bin erst kurz dabei und finde es “unnatürlich” Polit-Flosskeln nachzusprechen.
lg

Das Problem ist, dass man eine Menge an Texten braucht, die man lizenzfrei nutzen kann. Das ist häufig Wikipedia und eben Europarl. Hinzu kommt, dass es für Europarl die Übersetzungen für andere Sprachen gibt. Wenn Du also diese - zugegeben, nicht ganz typsichen - Sätze einsprichst, kann man damit aber sowohl ein gutes Deutsches Sprachmodell als auch diverse Übersetzungsmodelle erstellen. Daher ist das für spätere Modelle gut nutzbar, auch wenn die einzelnen Sätze nicht so der “Brüller” sind.

1 Like

ok :slight_smile:
Es ist aber lustig sich vorzustellen welche Partei oder sogar welcher Politiker was zu welchem Thema gesagt haben könnte :smiley:
Die politische Arbeit wird einem so aber nicht unbedingt zuträglicher :wink:

1 Like

Zum Glück nimmt man ja später nicht 1-zu-1 diese Sätze, sondern nur die Buchstabenkombis bzw. Laute. Ich habe für ein kommerzielles Projekt etliche Stunden Soapoperas abgehört. Ich weiss gerade nicht, was schlimmer ist :slight_smile:

2 Likes

Hi,

Das Hauptproblem bei der Sache ist, dass wir für das neuronale Netzwerk keine Sätze doppelt aufnehmen dürfen/sollten weil das schlechtere Sprachmodelle erzeugt. Das hat zur Folge, dass man extrem viele Sätze benötigt. Das Ziel des Projektes sind erst mal 1200 Stunden zu sammeln, um ein halbwegs brauchbares System zu erschaffen, das endgültige Ziel sind aber 10 000 Stunden für ein wirklich gutes System. Wir haben etwas über eine Million Sätze aus der Wikipedia und etwa 370 000 Sätze aus dem Europarl Datensatz. Parallel sammeln wir über den Sentence Collector manuell Sätze, die in der Regel ziemlich natürlich klingen. Allerdings ist das händische Sammeln mühsam und es wurden dort erst 21 000 Sätze gesammelt. Außerdem gibt es noch ein paar andere Quellen, man findet alle verwendeten Sätze hier: https://github.com/mozilla/voice-web/tree/master/server/data/de
Ich wundere mich deswegen ein wenig warum wir plötzlich nur noch Sätze aus dem Europarl Datensatz kommen, ich dachte eigentlich die verschiedenen Quellen werden gemischt und es müsste noch genügend ungenutzte Wikipedia-Sätze geben.

Worauf ich aber hinaus will: Die 370 000 Sätze aus dem Europarl Datensatz werden am Ende nur einen Bruchteil der Datenbank ausmachen. Es ist gut sie zu haben, denn man will ja auch solche Sprache verstehen. Aber spätestens, wenn wir die 1000 Stunden genackt haben, sollten wir darüber nachdenken wie wir mehr natürliche Sprache in die Datenbank bekommen.

Eine Idee ist z.B. ein Chat, in dem Leute sich unterhalten und nebenher Sätze spenden. Aber eine wirklich gute Quelle für natürliche Sprache unter CC0-Lizenz haben wir noch nicht gefunden. Meiner Meinung nach klingt der Europarl-Datansatz sehr viel natürlicher als die Sätze aus der Wikipedia.

1 Like

:slight_smile:
Chat vorzulesen ist vllt seltsam und so spricht nie jemand laut.
Jugendsprache wäre auch mal toll vorzulesen :wink:

In Deutschland sind nach § 5 Abs. 1 des Urheberrechtsgesetzes leider nur “Gesetze, Verordnungen, amtliche Erlasse und Bekanntmachungen sowie Entscheidungen und amtlich verfasste Leitsätze zu Entscheidungen” gemeinfrei. Mit Entscheidungen sind übrigens Gerichtsentscheidungen (Urteile, Beschlüsse) gemeint. Man hätte also schon ein relativ großes Reservoir an Texten aus denen man schöpfen könnte, aber wirklich natürliche Sprache ist das natürlich nicht …

1 Like

Zum Training braucht man möglichst viele Variationen von Sprache, gerade juristische Texte sind aber häufig sehr einseitig, da Begriffe nicht getauscht werden können und auch sonst sehr hölzern klingen. Es sei denn, man möchte eine Urteilserkennung implementieren :slight_smile:

Zumindest die Anwälte würde das sicher freuen, die setzen bei der Spracherkennung bisher (gezwungener Maßen) auf proprietäre Produkte … Wahrscheinlich würden die meisten Sätze aus Urteilen ohnehin an der 14-Wortregel scheitern. Kurze Sätze sind eher selten … :slight_smile:

Das war übrigens auch ein großes Problem beim Europarl-Datensatz, eigentlich sind das Millionen von Sätzen, aber der Großteil ist einfach sehr lang. Zum Beispiel:

Nach der Tagesordnung folgt der Bericht (A5-0105/1999) von Herrn Koch im Namen des Ausschusses für Regionalpolitik, Verkehr und Fremdenverkehr über den Gemeinsamen Standpunkt des Rates im Hinblick auf den Erlaß der Richtlinie des Europäischen Parlaments und des Rates über die Mindestanforderungen für die Prüfung der Sicherheitsberater für die Beförderung gefährlicher Güter auf Straße, Schiene oder Binnenwasserstraßen (C5-0208/1999 - 1998/0106(COD)).

Eigentlich bin ich froh, dass diese Sätze raus gefallen sind :smiley:

1 Like

Ist das Script/der Workflow mit dem die Sätze nach der 14-Wortregel extrahiert wurden, irgendwo dokumentiert? Ich würde das interessehalber gern mal an einigen Urteilen ausprobieren, um zu sehen, wie viele und was für Sätze dabei übrig bleiben :slight_smile:

Grüße

Es gibt sogar zwei Dokus:

Wenn Du einfach nur mal schnell testen möchtest, inwieweit das überhaupt sinnvoll ist, empfehle ich mit einem Editor wie Visual Studio Code hinter jedem Punkt, jedem Fragezeichen, jedem Ausrufezeichen und jedem Doppelpunkt einen Zeilenumbruch einzufügen. (per Suchen und Ersetzen)

Leerzeilen und zu kurze Zeilen löschst Du dann mit:

awk ‘length>3’ basis.txt > nur_sätze.txt

Und Zeilen mit mehr als 14 Wörtern mit:

awk ‘NF<=14’ nur_sätze.txt > fertig.txt