Satzzeichen in den Texten

s.feile · April 1, 2020, 8:39am

Moin,

eine Frage zu den Texten: Sollen bei der Aufnahme die Satzzeichen mitgesprochen werden? Insbesondere die Kommas und Punkt, Ausrufezeichen und Fragezeichen am Satzende?

Bei der Nutzung/ dem Diktat mit Spracherkennungssoftware müssen die Satzzeichen (selbstverständlich) gesprochen werden, sonst erscheinen sie ja nicht im Text. Die Frage ist, ob es auch für Common Voice sinnvoll/gewünscht ist. Müssen also die Daten zum anlernen der KI auch mit den Satzzeichen gefüttert werden, damit die KI später damit umgehen kann oder soll der Text ohne Punkt und Komma gesprochen werden?

Grüße,

mozilla_fire · April 1, 2020, 10:37am

Verstehe das Problem, aber es geht hier um natürlich gesprochene Sprache. Wieviele Sätze hast Du dir hier schon als Kontroller angehört? Also ich habe zumindest noch nie jemanden “Komma”, oder “Punkt” sagen hören.

othiele · April 1, 2020, 12:04pm

Gute Frage, aber bitte keine Satzzeichen mitsprechen, das würde ein gutes Training sehr erschweren.

In der Praxis macht man es so, dass zunächst DeepSpeech das Gesprochene in Text umwandelt und dann eine weitere Rechtschreibkontrolle die Satzzeichen hinzufügt. Sind zwei getrennte KI-Bereiche.

bjoern · April 2, 2020, 3:42pm

Wie sieht es bei Abkürzungen aus? Werden Abkürzungen voll ausgesprochen, nur die Buchstaben sagen oder den Text melden? Bzw. beim Anhören wenn Personen die Abkürzungen voll aussprechen mit “Nein” ablehnen?

othiele · April 2, 2020, 8:01pm

Guter Punkt, an sich sollten Sachen wie “z.B.” oder “usw.” nicht mehr drin sein, was mal vorkommt ist “VW” doer so. Hier sollte dann auch VW gesagt werden und nicht Volkswagen. Aber wie so oft hier geht es um die Masse. Wenn 1% der Abkürzungen falsch sind, kein Problem, wenn es 10% sind, schon eher.

Ich weiss aber nicht, ob es da eine offizielle Richtlinie zu gibt. Hast Du denn schon Abkürzungen drin gehabt?

s.feile · April 3, 2020, 6:38am

Ich hatte bisher einmal ein “bzw.” Die Anzahl der Abkürzungen ist sehr gering. Häufiger sind Fehler wie “Gesundheitsund Agrarpolitik”.

Viele Grüße

mozilla_fire · April 3, 2020, 7:00am

Also ich habe in den letzten Tagen sehr viele Texte nur als Kontroller mir angehört. Dabei kommen sowohl solche Sätze wie oben erwähnt “Gesundheitund Agrar…” vor, und auch noch viel mehr Sätze mit Abkürzungen, die ich übrigens konsequent ‘melde’

jf99 · April 19, 2020, 10:58am

Abkürzungen sind laut Mozilla nicht im Datensatz erwünscht. Daher immer melden, egal ob sie nun als Abkürzung gesprochen wird oder so als wäre sie ausgeschrieben. Wenn Satzzeichen mitgesprochen werden, Nein drücken.

xyz0815 · April 23, 2020, 8:58am

Hallo, aktuell höre ich mir viele Sätze an. Ein Sprecher sagt konsequent alle Satzzeichen mit auf. Im Schnitt ist ein Satz von von fünf betroffen. Ich klicke bei diesen Sätzen auf nein.

mozilla_fire · April 23, 2020, 9:21am

Yep, den habe ich seit einigen Tagen auch! Immer schön auf ‘Nein’.

Es gibt in diesem System hier leider keine Möglichkeit, einen Speaker eine Message zukommen zu lassen, geschweige denn anscheinend für Admins, dies herauszufinden und dem Speaker einen Hinweis zukommen zu lassen (oder wenns ein Troll ist, diesen zu sperren).

Immer schön auf Nein klicken, ist halt viel Arbeit

xyz0815 · August 13, 2020, 5:53pm

Ich habe in den letzten Tagen ca. 500 Sätze gesprochen und mir kommen gefühlt oft Abkürzungen unter, die ich selbstverständlich melde. Ich habe hier einige notiert:

bzw., bspw., Dr., geb., Fürstl., mind., Gen., Hll., evtl., sen., Ebf., u., kath., hl., Frhr., St., Lu (vermutlich Lutetium), Geh., Vol.

Besteht die Möglichkeit die Datensätze nach diesen zu filtern und ggf. auszusortieren?

jf99 · August 15, 2020, 8:24am

Die gemeldeten Sätze werden in einer Liste gesammelt und warten darauf, von jemandem aussortiert zu werden. Soweit ich weiß, hat sich nur noch keiner gefunden.

Sinnvoller wäre natürlich ein Skript nach typischen Abkürzungen, wie den von dir genannten, suchen zu lassen. Ich würde noch Mr., Mrs. und Jr. ergänzen. Wenn du dich drum kümmern willst, schau bei Github vorbei.

stergro · August 15, 2020, 10:08pm

Es ist möglich alle Sätze mit diesen Abkürzungen direkt auf GitHub zu löschen. Wenn ich in der kommenden Woche Zeit dafür finde, kann ich das übernehmen.

Es wurden schon einige Abkürzungen wie u.s.w. von Anfang an herausgefiltert, aber leider nicht alle.

xyz0815 · August 16, 2020, 9:47am

Das wäre super! In der Zwischenzeit sind mir noch folgende Abkürzungen untergekommen: subsp., bzgl., franz., ahd., Ch. und max.

ubahnverleih · July 4, 2021, 1:59pm

Ich habe mal alle Abkürzungen von hier und ein paar weitere, die mir noch aufgefallen sind aus dem Wikipedia-Import gelöscht. Der zugehörige Pullrequest auf github ist hier zu finden: https://github.com/common-voice/common-voice/pull/3165

Es betrifft etwas mehr als 5000 Sätze von den über 1,3 Millionen Wiki-Sätzen.

Topic		Replies	Views
Rules for German sentence contribution / Deutsche Sprache Deutsch (de) sentence-collection	22	3226	June 29, 2019
Mithilfe benötigt bei Verifikation - Export von Deutscher Wikipedia Deutsch (de)	11	1163	December 30, 2019
:white_check_mark: Vorläufige Richtlinien für das Validieren von Sätzen Deutsch (de)	7	2048	October 3, 2021
Sätze überprüfen - Abkürzungen filtern Deutsch (de)	4	1109	October 20, 2022
Sätze hören mitten im Wort auf Deutsch (de)	3	525	September 25, 2023

Satzzeichen in den Texten

Related topics