Eine Idee, die ich schon eine Weile habe, ist die bereits angenommenen Sätze in der Datenbank mit 1x Nein und 2x Ja noch mal prüfen zu lassen. (und vielleicht auch die abgelehnten Sätze mit 2x Nein und 1x Ja). Damit könnte man viele von den Wackelkandidaten besser einschätzen. Das würde natürlich den Validierungsprozess deutlich verlangsamen, aber die Qualität sicher erhöhen.
EDIT: Die Anzahl der Jas und Neins sind ja auch im Datensatz, d.h. man kann, wenn man will auch ohne die Sätze trainieren, zu denen irgendwann mal jemand Nein gesagt hat.
Das wird viele kleinere Sprachen freuen. Wenn man nur eine Wikipedia mit einigen zehntausend oder hunderttausend Artikeln hat, ist es sehr schwer genug Sätze mit dem extractor Script zu bekommen. Einige hunderttausend Sätze kann man manuell aus gemeinfreien Quellen sammeln, Millionen sind dagegen extrem schwer.