I figured it out. " "has to be the first character in the alphabet.txt
src: “हा प्राणी सरीसृपांच्या सरपटणाऱ्या प्राण्यांच्या र्हिंकोसीफॅलिया गणातला आहे”
- res: “हा पान सू स पान या स पना या प ा या या हे तो स तॅ या गा त ा हे”
output is bad but it’s not trained enough. I got the space.
you are right. exactly why i tried putiing space first.
testing without the LM for now.
i’ll experiment and try to understand how better to standardize the alphabet formatting.
<This was a discussion we had to have in private because i had to wait 3 hrs because i am a new user. putting this here so people have some context.>
After this converstion and after a lot of fine tuning, i have some results i am satisfied with. will keep posting if i find anything interesting. also, after i test the model out, if everything is as it should be, i’ll post my protocol too. Thanks for helping me. @lissyx @carlfm01!!
results
--------------------------------------------------------------------------------
WER: 0.222222, CER: 0.033898, loss: 0.000426
- src: "मध्यजीवमहाकल्पच्या अखेरपासून हे कुल लुप्त झाले असा समज होता"
- res: "मध्यजीव महाकल्पाच्या अखेरपासून हे कुल लुप्त झाले असा समज होता"
--------------------------------------------------------------------------------
WER: 0.000000, CER: 0.000000, loss: 0.000007
- src: "याला आपले अबोध हेतू कारण असतात"
- res: "याला आपले अबोध हेतू कारण असतात"
--------------------------------------------------------------------------------
WER: 0.000000, CER: 0.000000, loss: 0.000015
- src: "अवधानाची ही चंचलता जीवनोपयोगी असते"
- res: "अवधानाची ही चंचलता जीवनोपयोगी असते"
--------------------------------------------------------------------------------
WER: 0.000000, CER: 0.000000, loss: 0.000016
- src: "यांना समुद्री अवशिष्ट म्हणणे योग्य होईल"
- res: "यांना समुद्री अवशिष्ट म्हणणे योग्य होईल"
--------------------------------------------------------------------------------
WER: 0.000000, CER: 0.000000, loss: 0.000021
- src: "तसेच काही ठिकाणी थंड पाण्याची खोल सरोवरेही होती"
- res: "तसेच काही ठिकाणी थंड पाण्याची खोल सरोवरेही होती"
--------------------------------------------------------------------------------
WER: 0.000000, CER: 0.000000, loss: 0.000021
- src: "व रेखावृत्त ते पू"
- res: "व रेखावृत्त ते पू"
--------------------------------------------------------------------------------
WER: 0.000000, CER: 0.000000, loss: 0.000037
- src: "किमी लोकसंख्या आकारमानाने पोर्तुगालच्या सु"
- res: "किमी लोकसंख्या आकारमानाने पोर्तुगालच्या सु"
--------------------------------------------------------------------------------
WER: 0.000000, CER: 0.000000, loss: 0.000072
- src: "यायोगे प्राण्याला परिसरातील सगळ्या गोष्टींशी संपर्क ठेवता येतो"
- res: "यायोगे प्राण्याला परिसरातील सगळ्या गोष्टींशी संपर्क ठेवता येतो"
--------------------------------------------------------------------------------
WER: 0.000000, CER: 0.000000, loss: 0.000085
- src: "असा बौद्ध साहित्यात उल्लेख आहे"
- res: "असा बौद्ध साहित्यात उल्लेख आहे"
--------------------------------------------------------------------------------
WER: 0.000000, CER: 0.000000, loss: 0.000089
- src: "विमान चालविणाऱ्या वैमानिकाला अनेक गोष्टींकडे सतत अवधान द्यावे लागते"
- res: "विमान चालविणाऱ्या वैमानिकाला अनेक गोष्टींकडे सतत अवधान द्यावे लागते"
--------------------------------------------------------------------------------
I had some wonky issues with alphabet.txt, will also clarify after i get some concrete understanding of what was wrong.