High ratio of Tamil sentences with English words (latin script); possibly spam

Since last week, Tamil contributors have noticed a high ratio of Tamil sentences with English words in Latin script. If you click five sentences, almost three sentences or more contain Latin script words.

According to Common Voice guidance (https://commonvoice.mozilla.org/sentence-collector/#/how-to) for accepting sentences, Foreign letters, in this context Latin script words should not have been accepted. Many of these sentences appear to be spam or sentences without meaning or grammatical sense as well. I am attaching examples below.

Tamil community is in the middle of a campaign to engage contributors, and this is very damaging to active contributors and that effort. Please troubleshoot this issue and help prevent these sentences. We need to remove these sentences from the current queue as well. Thank you.

Latin Letters
அல்லது, மூன்று Bends Sable.

Boston College Athletic Hall of Fame இன் Eisenhauer பயின்று வருகிறார்.

இது குடியேறியவர் “Dagandagan”-ஐ அழைப்பதற்கு வழிவகுக்கிறது.

பின்னர் Marr அநியாயமாகத் தனது வேலையை இழந்துவிட்டதாக கூறினார்.

Dipterocarps, Sundaland ன் தாழ்வான காடுகளில் உள்ள பிரதான மரங்களாகும்.

ஆனால் Jack Rushin ஆர்டர் செய்திருந்த நியான் அடையாளம் எழுத்துப்பிழையுடன் இருந்தது.

ஒலாத்தே நகரம் மேலும் இருமுறை Confederates அமைப்பின் அச்சறுத்தலுக்கு உள்ளாகியது.

Edinburgh University-இல் படித்த அவர் Edinburgh, New College-இல் ‘தெய்வீக விஷயங்கள்’ பற்றிப் படித்தார்.

hog badger பகல் பொழுதில் சுறுசுறுப்பாக இருக்கும் ஆனால் மனிதர்கள பற்றி எச்சரிக்கை இல்லை

மாண்ட்ரேக் சாஃப்ட்டின் Gconfpref போன்ற பிற gconf கருவிகளும் தோன்றியுள்ளன.

என்னைப் பொருத்தவரை ‘ஐ லவ் மை ரூஸ்டர்’ டாப் டென்.

Russian Characters
“கிராண்ட் பிரின்ஸ்” என்ற தலைப்பு ரஷ்ய “Великий князь” இன் ஆங்கில மொழிபெயர்ப்பாகும்.

Chinese Characters
கோயொடொ வின் எழுத்துருக்கள் 京都 மற்றும் ஒசாகவினுடையது 大阪.

1 Like

This seems to be the source of these sentences: https://raw.githubusercontent.com/common-voice/common-voice/main/server/data/ta/covost2-en_ta.txt

Seems like some sort of automated translation extraction of poor quality.

From this PR: https://github.com/common-voice/common-voice/pull/3015

Please remove these sentences from the queue.

1 Like

Thank you for the pointers. Same is happening in Turkish… Too many proper names in the set… Like:

Özel “Home Farm Day Nursery” Winslow Road’da bulunmaktadır.
Özel tema şuydu: ‘’Quebec-New York: The Green Corridor".
““Free Enterprise: The Wrath of Shatner”” adlı devam filmi, yapım aşamasında.

I just mentioned this in this topic:

1 Like