Sätze überprüfen - Abkürzungen filtern

Guten Morgen

Seit geraumer Zeit stören mich Sätze in denen noch Abkürzungen enthalten sind. Meines Erachtens sollte man diese entfernen. Denn Benutzer sprechen diese Abkürzungen meist mit aus.

Sätze mit

nr.
Nr.
hl.
Hl.
Rd.
rd.
Dgl.
dgl.
No.
no.

Diese Abkürzungen habe ich mehrfach gemeldet und kommen immer wieder.

Vielleicht kann das angepasst werden?

Wer prüft eigentlich meine Meldungen von Sätzen oder Aufnahmen?

Viele Grüße


2 Likes

Hallo bruno.fischer,

die Sätze in CV kommen aus unterschiedlichen Quellen:

  1. Manuell gesammelt in einem Tool namens Sentenence Colector
  2. Automatisch aus der Wikipedia importierte Sätze
  3. Ganz alte Sätze, die noch als Datei über GitHub importiert wurden.

Die meisten Sätze stammen aus der Wikipedia und werden von dort automatisch mit dem Sentence Extractor alle paar Jahre importiert. Es gibt dieses Rulefile in dem schon einige Abkürzungen eingetragen sind, die automatisch herausgefiltert bzw. ersetzt werden. Jeder kann die Liste gerne erweitern, das hilft beim nächstem Import. Es ist auch theoretisch möglich das Import-Script über die schon vorhandenen Sätze laufen zu lassen und so einige Fehler heraus zu filtern.

Die vorhandenen Sätze findest Du hier auf GitHub. Pull Requests mit gelöschten Sätzen sind immer willkommen, allerdings darf man nichts aus der sentence-collector.txt löschen, die wird komplett über den sentence collector gemanaged.

Niemand, die Meldungen werden gesammelt und in einer eigenen Datei als Teil des Datensatzes veröffentlicht und können von jedem, der den Datensatz benutzt, zum Filtern benutzt werden. Wenn sich jemand berufen fühlt, die Meldungen selbst durchzuarbeiten und Sätze zu löschen, sind PRs auch hier immer willkommen. Ich kann bei Fragen gerne unterstützen.

danke für deine antwort. im link https://github.com/common-voice/cv-sentence-extractor/blob/main/src/rules/de.toml habe ich nun die Abkürzungen hinzugefügt.

danke :wink:

1 Like

Das klingt toll, danke. Die letzte Änderung ist aber vom 9. Januar. Hast Du schon einen Pull-Request für die Änderung gestellt? Wenn Du Hilfe bei der Benutzung von GitHub brauchst, kannst Du mir gerne auch eine Nachricht schicken.

Vermutlich hast Du unter Deinem Profil eine Kopie (“Fork”) des Repository, auf dem sich die Änderung befindet. Über einen Pull-Request kannst Du die Änderung in den offiziellen Code zurück ziehen lassen.

1 Like

@stergro
Ich habe mal deinen pull request erzeugt :slight_smile: