Mozilla Voice: Europarl ist nicht "echt"?

Ja, es ist wirklich, verwirrend. Einen Teil deiner Fragen kann ich aber beantworten:

Für Deutsch wurden auch Sätze aus der Wikipedia importiert. Das Legal Team von Mozilla hat herausgefunden, dass drei nicht aufeinanderfolgende Sätze pro Artikel extrahiert werden können und als Public Domain genutzt werden dürfen. Wikimedia (der Verein hinter der Wikipedia) hat der Sache auch zugestimmt. Deswegen gibt es jetzt ein kompliziertes Wikipedia-Extraktions-Script das für jede Sprache genau einmal Sätze legal aus der Wikpedia extrahiert. Für Deutsch sind das mehrere Millionen Sätze.

Ich habe auch lange gebraucht um mich an diese Geschichte zu gewöhnen, im Prinzip wird hier ein rechtliches Schlupfloch ausgenutzt. Hier stehen die Details:

Was das Deutsche Gutenberg angeht, könntest Du recht haben, ich glaube an diese Quelle hat sich auch noch niemand heran getraut.

Ja Du hast Recht, es ist wirklich verwirrend und zäh, vielleicht wäre eine andere Lizenz, z.B. CC BY sinnvoller gewesen, da hätten riesige Textsätze für das Projekt offen gestanden.