From my point of view, as a native speaker of the Russian language, sentences have a variety of problems:
-
Russian sentences have a very strong political bias, and strong clericalism. In life, not so many people speak in that way, and I’m afraid that the neural network will have issues with sentences recognition based on such a dataset.
-
Many sentences in the dataset are duplicated: they differ in several words, or even letters. I will give an example:
Выступление президента Республики Кипр.
Выступление президента Республики Палау.
Выступление президента Республики Перу.
Выступление президента Республики Польша.
Выступление президента Республики Суринам.
Выступление президента Республики Хорватия.
Выступление президента Республики Чад.
Выступление президента Республики Чили.
Выступление президента Республики.
or
Благодарю посла Германии за его заявление, за его объявление и за его добрые слова.
Благодарю посла Демиралпа за его заявление.
Благодарю посла Египта за ее заявление.
Благодарю посла Звекича за его заявление.
Благодарю посла Илиопулоса за его выступление от имени Европейского союза.
Благодарю посла Индии за его выступление и предоставляю слово послу Венесуэлы.
Благодарю посла Индии за ее заявление.
Благодарю посла Ирана за его выступление.
Благодарю посла Испании за его заявление и за его добрые слова.
Благодарю посла Италии за его замечания и за его теплые слова.
Благодарю посла Италии за его заявление.
Благодарю посла Казахстана за его заявление и за его добрые слова.
Благодарю посла Канады за ее заявление.
Благодарю посла Кеннеди за ее заявление и теперь предоставляю слово послу Марокко.
Благодарю посла Кеннеди за ее заявление.
Благодарю посла Китая за его заявление и за его поддержку.
Благодарю посла Китая за его заявление.
Благодарю посла Китая.
or
Бангладеш имеет честь руководить этим процессом.
Бангладеш имела честь руководить этим процессом.
There is a suspicion that this dataset was artificially generated. There is no sense from this amount of such similar political sentences.
-
The texts have a one-sided political bias, they lack, for example, culinary category, or computer subjects. The texts do not have modern slang or modern language turns, such as “туса”, “инстаграм”, “видос”, “звякнуть”, “чекнуть”, “кек” and the like.
-
The texts simply do not have a huge number of words used in everyday life.
-
For now, Russian section at common-voice.github.io has a huge queue of texts, but, apparently, there are no more people who check them.
So, I have a few questions/suggestions:
- Can we remove a huge number of unnecessary similar political sentences?
- Found a repo with russian sentences dataset: https://github.com/Koziev/NLP_Datasets The author automatically collected texts from fiction. However, I’m not sure that he will be able to provide a source for each sentence, although he will probably be able to publish his dataset under CC0.
- I have the scientific work of my own author, can I provide my work as senteces source, or should I first publish it somewhere under the CC0?
- So far, your auto-collection tool from Wikipedia is being tested, maybe it makes sense to use an automatic text generator built on a neural network? For example, for the Russian text there is such project: https://text.skynet.center (https://github.com/mgrankin/ru_transformers). The result is meaningful, and the authors completely abandon the copyright to all generated texts.
- Well, is it possible to somehow add sentences without waiting for someone who once checks them? We should wait for an eternal check? For a while, @lipkij actively participated in moderation here, but now he seems to have left the project.
Issue for this topic on Github: https://github.com/mozilla/voice-web/issues/2497