Sätze überprüfen - Abkürzungen filtern

bruno-fischer · May 7, 2022, 4:00am

Guten Morgen

Seit geraumer Zeit stören mich Sätze in denen noch Abkürzungen enthalten sind. Meines Erachtens sollte man diese entfernen. Denn Benutzer sprechen diese Abkürzungen meist mit aus.

Sätze mit

nr.
Nr.
hl.
Hl.
Rd.
rd.
Dgl.
dgl.
No.
no.

Diese Abkürzungen habe ich mehrfach gemeldet und kommen immer wieder.

Vielleicht kann das angepasst werden?

Wer prüft eigentlich meine Meldungen von Sätzen oder Aufnahmen?

Viele Grüße

stergro · May 16, 2022, 10:59am

Hallo bruno.fischer,

die Sätze in CV kommen aus unterschiedlichen Quellen:

Manuell gesammelt in einem Tool namens Sentenence Colector
Automatisch aus der Wikipedia importierte Sätze
Ganz alte Sätze, die noch als Datei über GitHub importiert wurden.

Die meisten Sätze stammen aus der Wikipedia und werden von dort automatisch mit dem Sentence Extractor alle paar Jahre importiert. Es gibt dieses Rulefile in dem schon einige Abkürzungen eingetragen sind, die automatisch herausgefiltert bzw. ersetzt werden. Jeder kann die Liste gerne erweitern, das hilft beim nächstem Import. Es ist auch theoretisch möglich das Import-Script über die schon vorhandenen Sätze laufen zu lassen und so einige Fehler heraus zu filtern.

Die vorhandenen Sätze findest Du hier auf GitHub. Pull Requests mit gelöschten Sätzen sind immer willkommen, allerdings darf man nichts aus der sentence-collector.txt löschen, die wird komplett über den sentence collector gemanaged.

Niemand, die Meldungen werden gesammelt und in einer eigenen Datei als Teil des Datensatzes veröffentlicht und können von jedem, der den Datensatz benutzt, zum Filtern benutzt werden. Wenn sich jemand berufen fühlt, die Meldungen selbst durchzuarbeiten und Sätze zu löschen, sind PRs auch hier immer willkommen. Ich kann bei Fragen gerne unterstützen.

bruno-fischer · June 8, 2022, 8:07pm

danke für deine antwort. im link https://github.com/common-voice/cv-sentence-extractor/blob/main/src/rules/de.toml habe ich nun die Abkürzungen hinzugefügt.

danke

stergro · June 10, 2022, 12:14pm

Das klingt toll, danke. Die letzte Änderung ist aber vom 9. Januar. Hast Du schon einen Pull-Request für die Änderung gestellt? Wenn Du Hilfe bei der Benutzung von GitHub brauchst, kannst Du mir gerne auch eine Nachricht schicken.

Vermutlich hast Du unter Deinem Profil eine Kopie (“Fork”) des Repository, auf dem sich die Änderung befindet. Über einen Pull-Request kannst Du die Änderung in den offiziellen Code zurück ziehen lassen.

bruno-fischer · October 20, 2022, 4:31pm

@stergro
Ich habe mal deinen pull request erzeugt

Topic		Replies	Views
Mithilfe benötigt bei Verifikation - Export von Deutscher Wikipedia Deutsch (de)	11	1164	December 30, 2019
Bulk sentences submission from Wikipedia Common Voice sentence-collection	4	622	August 12, 2024
Question about CV Sentence Extractor quality and your experience Common Voice	18	1577	August 30, 2023
Tokenizer trennt häufig Sätze auf Deutsch (de)	16	1221	October 26, 2021
Remove all sentences in sentence collector for Ukrainian Common Voice sentence-collection	19	1124	December 27, 2019

Sätze überprüfen - Abkürzungen filtern

Related topics