Експорт речень з української Вікіпедії

Шановні колеги,
хочу повідомити, що я підготував експорт з української Вікіпедії для додання в Common Voice:


Це дозволить додати ~600 тисяч нових речень для озвучення. Щоб pull request був прийнятий, треба перевірити достатньо велику випадкову вибірку нових речень і переконатися, що в них не більше як 5…7% помилок (докладніше написано тут). Випадкові 4000 речень з української Вікіпедії доступні в таблиці:

Буду вдячний, якщо у вас буде можливість перевірити цю вибірку, відзначити і прокоментувати помилки. Я сам, не будучи грамотним носієм української мови, на жаль, не можу взяти участь в перевірці.

Після перевірки декількох сотень речень носіями мови (див. також оновлену вибірку після удосконалення правил експорту речень) з’ясувалося, що відсоток помилок вище за допустимий максимум. Робота над pull request’ом зараз припинена, тому що більшість недоліків, які залишилися, складно відфільтрувати автоматично.