Da hast du einen Punkt - das Acoustic Model zum einen und das Language Model zum anderen. Ob es vorteilhaft wäre, diese unabhängig zu trainieren, kann ich dir nicht sagen – vermutlich aber nicht bzw. hätte den gegenteiligen Effekt. Deep Learning kann von end-2-end oft profitieren (d.h. wenige Zwischenschritte oder “Encodings”) und zum anderen sind diese ja auch korreliert, was es schwierig machen dürfte.
Ich kann allen Interessierten (technisch) aber diesen Talk eines der Autoren des “Ur-DeepSpeech” empfehlen, da wird einiges erklärt: https://www.youtube.com/watch?v=g-sndkf7mCs