Satzzeichen in den Texten

Moin,

eine Frage zu den Texten: Sollen bei der Aufnahme die Satzzeichen mitgesprochen werden? Insbesondere die Kommas und Punkt, Ausrufezeichen und Fragezeichen am Satzende?

Bei der Nutzung/ dem Diktat mit Spracherkennungssoftware müssen die Satzzeichen (selbstverständlich) gesprochen werden, sonst erscheinen sie ja nicht im Text. Die Frage ist, ob es auch für Common Voice sinnvoll/gewünscht ist. Müssen also die Daten zum anlernen der KI auch mit den Satzzeichen gefüttert werden, damit die KI später damit umgehen kann oder soll der Text ohne Punkt und Komma gesprochen werden?

Grüße,

Verstehe das Problem, aber es geht hier um natürlich gesprochene Sprache. Wieviele Sätze hast Du dir hier schon als Kontroller angehört? Also ich habe zumindest noch nie jemanden “Komma”, oder “Punkt” sagen hören.

Gute Frage, aber bitte keine Satzzeichen mitsprechen, das würde ein gutes Training sehr erschweren.

In der Praxis macht man es so, dass zunächst DeepSpeech das Gesprochene in Text umwandelt und dann eine weitere Rechtschreibkontrolle die Satzzeichen hinzufügt. Sind zwei getrennte KI-Bereiche.

1 Like

Wie sieht es bei Abkürzungen aus? Werden Abkürzungen voll ausgesprochen, nur die Buchstaben sagen oder den Text melden? Bzw. beim Anhören wenn Personen die Abkürzungen voll aussprechen mit “Nein” ablehnen?

Guter Punkt, an sich sollten Sachen wie “z.B.” oder “usw.” nicht mehr drin sein, was mal vorkommt ist “VW” doer so. Hier sollte dann auch VW gesagt werden und nicht Volkswagen. Aber wie so oft hier geht es um die Masse. Wenn 1% der Abkürzungen falsch sind, kein Problem, wenn es 10% sind, schon eher.

Ich weiss aber nicht, ob es da eine offizielle Richtlinie zu gibt. Hast Du denn schon Abkürzungen drin gehabt?

Ich hatte bisher einmal ein “bzw.” Die Anzahl der Abkürzungen ist sehr gering. Häufiger sind Fehler wie “Gesundheitsund Agrarpolitik”.

Viele Grüße

Also ich habe in den letzten Tagen sehr viele Texte nur als Kontroller mir angehört. Dabei kommen sowohl solche Sätze wie oben erwähnt “Gesundheitund Agrar…” vor, und auch noch viel mehr Sätze mit Abkürzungen, die ich übrigens konsequent ‘melde’

Abkürzungen sind laut Mozilla nicht im Datensatz erwünscht. Daher immer melden, egal ob sie nun als Abkürzung gesprochen wird oder so als wäre sie ausgeschrieben. Wenn Satzzeichen mitgesprochen werden, Nein drücken.

Hallo, aktuell höre ich mir viele Sätze an. Ein Sprecher sagt konsequent alle Satzzeichen mit auf. Im Schnitt ist ein Satz von von fünf betroffen. Ich klicke bei diesen Sätzen auf nein.

Yep, den habe ich seit einigen Tagen auch! Immer schön auf ‘Nein’.

Es gibt in diesem System hier leider keine Möglichkeit, einen Speaker eine Message zukommen zu lassen, geschweige denn anscheinend für Admins, dies herauszufinden und dem Speaker einen Hinweis zukommen zu lassen (oder wenns ein Troll ist, diesen zu sperren).

Immer schön auf Nein klicken, ist halt viel Arbeit

2 Likes

Ich habe in den letzten Tagen ca. 500 Sätze gesprochen und mir kommen gefühlt oft Abkürzungen unter, die ich selbstverständlich melde. Ich habe hier einige notiert:

bzw., bspw., Dr., geb., Fürstl., mind., Gen., Hll., evtl., sen., Ebf., u., kath., hl., Frhr., St., Lu (vermutlich Lutetium), Geh., Vol.

Besteht die Möglichkeit die Datensätze nach diesen zu filtern und ggf. auszusortieren?

Die gemeldeten Sätze werden in einer Liste gesammelt und warten darauf, von jemandem aussortiert zu werden. Soweit ich weiß, hat sich nur noch keiner gefunden.

Sinnvoller wäre natürlich ein Skript nach typischen Abkürzungen, wie den von dir genannten, suchen zu lassen. Ich würde noch Mr., Mrs. und Jr. ergänzen. Wenn du dich drum kümmern willst, schau bei Github vorbei.

Es ist möglich alle Sätze mit diesen Abkürzungen direkt auf GitHub zu löschen. Wenn ich in der kommenden Woche Zeit dafür finde, kann ich das übernehmen.

Es wurden schon einige Abkürzungen wie u.s.w. von Anfang an herausgefiltert, aber leider nicht alle.

Das wäre super! In der Zwischenzeit sind mir noch folgende Abkürzungen untergekommen: subsp., bzgl., franz., ahd., Ch. und max.

Ich habe mal alle Abkürzungen von hier und ein paar weitere, die mir noch aufgefallen sind aus dem Wikipedia-Import gelöscht. Der zugehörige Pullrequest auf github ist hier zu finden: https://github.com/common-voice/common-voice/pull/3165

Es betrifft etwas mehr als 5000 Sätze von den über 1,3 Millionen Wiki-Sätzen.

3 Likes