Wie findet man gute neue Sätze für Common Voice?

@Bullnados hat das Thema in einem anderen Thread begonnen. Ich würde das gerne in diesen Thread auslagern.

Nicht jugendfreie Wörter sind derzeit nicht erwünscht. Einkaufslisten, Befehle und Länder / Städte haben wir schon. Das heißt aber nicht, dass wir nicht noch mehr davon gebrauchen können. Bloß bitte nicht ganz viele Sätze nach dem gleichen Schema. Ich glaube, inzwischen ist jeder genervt von: “X ist die Hauptstadt von Y.” Sowas kann außerdem zu Overfitting beim Deep Learning führen. Also eher versuchen, Ortsbezeichnungen oder was auch immer in alltägliche Sätze einzubauen.

Ich persönlich mache das so: Ich habe verschiedene Listen, die ich immer ergänze, wenn mir neue Dinge einfallen. Das sind z.B. Listen für Vornamen, (häufige) Nachnamen, Städte, Redensarten oder auch unsortierte Nomen, Verben und Adjektive. Von Zeit zu Zeit gehe ich die Listen durch und Forme Sätze aus ihnen.

Allgemein hilft es, im Alltag die Ohren offenzuhalten. Ob im Gespräch mit Freunden, in der Kantine, beim Sport, beim Schauen von Nachrichten oder bei mitgehörten Gesprächen an der Ampel. Wenn jemand irgendeine Bemerkung macht, bei der man denkt: “Solche Sprüche/Themen/Redewendungen/Whatever gehören für viele Leute zur Alltagssprache”, dann schreibt man sich das bei der nächsten Gelegenheit auf.

Eine andere Sache, die ich gelegentlich mache, ist Themen zu Sätzen verarbeiten, mit denen man beruflich, im Studium oder in der Freizeit gerade zu tun hat. Es sollte allerdings tendenziell nichts total akademisches sein, womit niemand im Alltag zu tun hat. Aber wenn einem z. B. eine Glühbirne kaputtgeht, warum nicht einfach mal ein paar Sätze dazu schreiben? Wieso geht die schon wieder kaputt? Woran liegt es, dass das immer beim Einschalten passiert? Wären Energiesparlampen oder LEDs nicht viel besser? Obwohl, die haben andere Nachteile. Und so weiter, und so fort. Aus so einer simplen Alltagssituation kann man richtig viel Text rausholen.

1 Like

Weitere Ideen:

  • Lass dich mal so richtig über deine Nachbarn, Mitbewohner, Kollegen oder andere Verkehrsteilnehmer aus (ohne die wahren Namen zu nennen!).
  • Schlüpfe in die Rolle eines Opas, der sich über die Jugend von heute aufregt.
  • Führe ein Gespräch als Verkäufer, Arzt, Psychologe, Handwerker, Fußballspieler oder Lehrer.
  • Beobachte bei deiner täglichen Fahrt zur Arbeit die Leute in der S-Bahn. Schreibe dir auf, wie sie aussehen, gekleidet sind, sich verhalten, mutmaße welchen Beruf sie ausüben etc.
  • Baue Anspielungen auf Filme, Internetphänomene oder Videospiele ein. Das Verstehen zwar vielleicht nur 5 % der Leser, die bringst du damit aber vielleicht zum Schmunzeln. Die restlichen 95 % fragen dann halt unschuldig wie ein Kind, warum hier Stroh rumliegt.
  • Erkläre die Regeln irgendeines Spiels (z. B. Völkerball, Skat, Counter-Strike, Topfschlagen).
  • Schreib ein Kochrezept auf.
  • Reagiere auf bereits existierende Sätze. Beantworte Fragen, korrigiere (inhaltlich) Aussagen, denen du nicht zustimmen würdest, ergänze sie usw.

Mangel an Ideen sollte eigentlich kein Problem sein. Der limitierende Faktor ist für mich eigentlich immer die Zeit.

2 Likes

Deine Stoffsammlung liegt wohl gerade “voll im Trend” und hätte sicher Chancen, in Meinungsartikeln in Bento, Ze.tt oder im SZ-Magazin zu erscheinen. Ich wundere mich jeden Tag, wie ausgiebig da über für mich eher irrelevante Themen geschrieben wird. Glühbirnen werden sofort ausgewechselt. Basta. Kochrezepte weiß ich auswendig. Es gibt Wichtigeres - ja, vor allem Akademisches. Aber schön, dass andere gern über Games und Sport schreiben, das muss es ja auch geben. :slight_smile: Leider muss ich oft seitenlange Passagen über die Kleidung von Protagonisten übersetzen, was ich quälend langweilig finde. Das überlasse ich gern Dir. Und warum sollte ich mich in einen schimpfenden Opa versetzen? Oder Fußballer? Dazu habe ich keine Lust. Wie Mitpassagiere sich kleiden oder benehmen, interessiert mich auch nicht, ich sperre nur die Ohren weit auf, weil ich das Gehörte später noch gut verwenden kann. Wenn ich mich nur nicht so über die häufigen Sprachschnitzer ärgen müsste … Besser wie [sic], drinne [sic] … Selbst aus gebildetem Mund. Schade. :laughing:

hallo @monscampus,

ich kann verstehen das dir nicht alle Sätze gefallen, aber dafür gibt es ja den “Überspringen”-Button :slight_smile:

Wir haben eher das umgekehrte Problem. Da Millionen von Sätzen aus der Wikipedia importiert wurden haben wir fast nur noch “akademische” oder zumindest lexikale Sprache und die normale gesprochene Sprache aus dem Alltag ist unterrepräsentiert. Das ist natürlich schlecht für Systeme die im Alltag eingesetzt werden sollen. Deswegen steht oben der Aufruf wieder mehr Sätze zu sammeln die der gesprochenen Sprache entsprechen und von alltäglichen Dingen handeln.

Hallo, Stefan. Da ich die Wikipedia normalerweise nur als Informationsquelle nutze, kenne ich dieses Problem bisher nicht. Mir ist schon klar, dass nicht alle im Alltag verschiedenen Textsorten ausgesetzt sind, da bin ich dann wohl im Vorteil. Schauen wir mal. :slightly_smiling_face:

Natürlich darf jeder (im Rahmen der Regeln) beitragen, was er will. Und Geschmäcker sind bekanntlich unterschiedlich. Anhand deiner bisherigen Posts hier würde ich dich, @monscampus, als eher sachorientierten Menschen einschätzen. Das ist okay, aber auf die Mehrheit der Menschen trifft das wohl eher nicht zu.

Seit wir Wikipedia-Sätze haben, verfügen wir über einen großen Schatz sehr sachlicher Sätze, meist in der dritten Person oder sogar im Passiv geschrieben und mit vielen Fremdwörtern und Fachbegriffen gespickt. In der Alltagskommunikation hingegen werden von den meisten Leuten eher erste und zweite Person und Umgangssprache verwendet. Auch das wollen wir abbilden, weshalb ich potenzielle Autoren insbesondere zu diesem Stil ermutigen möchte.

“Eher sachorientiert” trifft es nur zu 50 Prozent. Die andere Hälfte ist Schöne Literatur, teilweise aber auch die eher dem Massengeschmack entsprechende, weil sich die nun mal besser verkauft. So wird mir nie langweilig, ich kann mich überall austoben. Alltagsprosa ist mir auch vertraut, nur verabscheue ich Smalltalk, was angeblich eine typisch deutsche Eigenschaft ist. Männern wird überwiegend Interesse an Sachthemen nachgesagt, Frauen an Klatsch und Tratsch. Warum ist das so? Das muss ich nicht unbedingt wissen. Die Publikumsverlage haben aber großes Interesse daran, die Leserschaft nicht durch zu viele Fremdwörter und komplizierte Satzkonstruktionen zu verschrecken. Passivkonstruktionen gelten als ganz schlechter Stil und sind möglichst zu meiden. Auch Wikipedia-Beiträge mit wissenschaftlichem Inhalt lassen sich mit wenigen Mitteln lesbarer (leserfreundlicher) gestalten - nicht immer locker-flockig wie in der Boulevardpresse, aber doch eingängiger. Ich tue, was
ich kann. Mit großem Interesse verfolge ich Leserkommentare zu Trashsendeformaten (die ich nicht selbst sehe - langweilig!). Das sind in erster Linie Kommentare zu Artikeln über das Dschungelcamp. Die Verfasserin wird von den Leserinnen wie eine Heilige verehrt, weil sie sich in völlig überfrachteten Wortspielen austobt, was gar nicht zu Trash passt. Warum kriegen die Zuschauer nie genug von solchem Zeug? Na, egal. Jedenfalls ist es nicht unter meiner Würde, mir umgangssprachliche Sätze für Common Voice auszudenken.

In anderen Sprachen haben auch Leute ihren Chatverlauf gespendet und somit mit einem Mal eine ziemlich hohe Zahl von Sätzen in natürlicher Sprache gehabt. Man muss natürlich aufpassen dass man nur belanglose Gespräche spendet und das Korrekturlesen ist in diesem Fall besonders wichtig.

Wo du den Chatverlauf ansprichst @stergro hatte dass in einem englischen Topic hier auch schon gelesen. Wenn wir sowas weiterhin gebrauchen könnten, würde ich die Tage mal anfangen einen Scraper für Whatsapp Web zubasteln, inkl. Filter für nicht jugendfreie Inhalte / sensible persöhnliche Informationen. Besteht Bedarf?

Sehr gerne, ich könnte mir aber vorstellen das ein Telegram-scraper einfacher zu bauen ist als ein Whatsapp-scraper, denn da muss man wahrscheinlich nicht übers Webfrontend gehen. Soweit ich weiß verbietet facebook (und damit auch whatsapp?) Inhalte für machine learning zu scrapen.

EDIT: sowohl für whatsapp als auch für telegram findet man auf github schon einige scraper projekte an denen Du dich orientieren kannst.

1 Like

Ja wäre meine erste Anlaufstelle gewesen.

WhatsApp schreibt folgendes:

Harm To WhatsApp Or Our Users.
You must not (or assist others to) directly, indirectly, through automated or other means access, use, copy, (…) distribute, license, sublicense, transfer, display, perform, or otherwise exploit our Services in impermissible or unauthorized manners, or in ways that burden, impair, or harm us, our Services, systems, our users, or others, including that you must not directly or through automated means:
(…)
(f) collect the information of or about our users in any impermissible or unauthorized manner;
(…)

Desweiteren

Your Rights.
(…)
WhatsApp does not claim ownership of the information that you submit for your WhatsApp account or through our Services.

Hab zwar kein Jura studiert, aber da ich mir selbst die Erlaubnis gebe meine eigenen Texte nutzen, nicht die meiner Gesprächspartner, und dadurch den Service von WhatsApp nicht gefährde sehe ich kein großes Problem. Werde dennoch WhatsApp mal kontaktieren, vielleicht melden die sich ja sogar mit der eindeutigen Erlaubnis.

1 Like

Du bist Urheber deiner eigenen Texte, folglich hältst du auch das Urheberrecht daran. WhatsApp kann dir nicht verbieten, sie auch anderweitig zu nutzen.

Doch, natürlich könnten sie das tun, es ist ihre Plattform mit ihren Regeln. (machen sie aber zum Glück nicht)

Unabhängig vom rechtlichen denke ich dass Telegram technischer einfacher anzubinden ist weil sie eine offene API haben die man direkt und gut dokumentiert ansprechen kann. Whatsapp erlaubt nicht einmal Drittanbieter-Apps. Aber wenn Du einen guten Weg für Whatsapp findest habe ich da auch nichts dagegen.