Hello.
Who manages CommonVoice in Hebrew?
There is a lot of material from the Bible in the data set. This material is with cantillation notes (“Taamey hamikra”), which are non-standard characters, and should not be in the data set.
Also there are a lot of punctuation characters (dots and lines). Do those match the rules?
שלום.
מי מנהל את CommonVoice בעברית?
יש במערך הנתונים הרבה חומר מהתנ"ך. החומר הזה הוא עם טעמי המקרא, שאלו תווים לא סטנדרטיים, ולא אמורים להיות במערך הנתונים.
כמו כן יש הרבה חומר מנוקד. האם ניקוד תואם את הכללים?