Hallo bruno.fischer,
die Sätze in CV kommen aus unterschiedlichen Quellen:
- Manuell gesammelt in einem Tool namens Sentenence Colector
- Automatisch aus der Wikipedia importierte Sätze
- Ganz alte Sätze, die noch als Datei über GitHub importiert wurden.
Die meisten Sätze stammen aus der Wikipedia und werden von dort automatisch mit dem Sentence Extractor alle paar Jahre importiert. Es gibt dieses Rulefile in dem schon einige Abkürzungen eingetragen sind, die automatisch herausgefiltert bzw. ersetzt werden. Jeder kann die Liste gerne erweitern, das hilft beim nächstem Import. Es ist auch theoretisch möglich das Import-Script über die schon vorhandenen Sätze laufen zu lassen und so einige Fehler heraus zu filtern.
Die vorhandenen Sätze findest Du hier auf GitHub. Pull Requests mit gelöschten Sätzen sind immer willkommen, allerdings darf man nichts aus der sentence-collector.txt löschen, die wird komplett über den sentence collector gemanaged.
Niemand, die Meldungen werden gesammelt und in einer eigenen Datei als Teil des Datensatzes veröffentlicht und können von jedem, der den Datensatz benutzt, zum Filtern benutzt werden. Wenn sich jemand berufen fühlt, die Meldungen selbst durchzuarbeiten und Sätze zu löschen, sind PRs auch hier immer willkommen. Ich kann bei Fragen gerne unterstützen.