Tokenizer trennt häufig Sätze auf

mkohler (Michael Kohler) October 14, 2021, 8:00pm 6

Der Satz wird nicht verwendet, wenn eine der abbreviation_patterns Regeln zutrifft.

@stergro Der Satz wird trotzdem zerschnitten. Das passiert bevor die Regeln angewendet werden. Aber damit können wir wenigstens einige rausfiltern.

1 Like

Topic		Replies	Views
Mithilfe benötigt bei Verifikation - Export von Deutscher Wikipedia Deutsch (de)	11	1153	December 30, 2019
Rules for German sentence contribution / Deutsche Sprache Deutsch (de) sentence-collection	22	3206	June 29, 2019
[Technical feedback needed] Wikipedia extractor script beta Common Voice sentence-collection , feedback	76	8419	July 1, 2020
Sätze überprüfen - Abkürzungen filtern Deutsch (de)	4	1099	October 20, 2022
Future of the Sentence Extractor - Your input is required Common Voice sentence-collection	11	1823	May 28, 2021