DCA Dynamic Convolution Attention

Hello everyone!

Have anyone tried the attention mechanism proposed in paper Dynamic Convolution Attention DCA (https://arxiv.org/pdf/1910.10288.pdf) ?
Are there any plans to implement it in the TTS repository?
Seems like it gotta be really good for a long sentence synthesis

It is already implemented?

1 Like

Yes.
@sanjaesc kindly trained a model with DCA based on my “Thorsten” dataset which works really nice (even on long utterances) like the following very long german sentence:

Es ist kaum zu leugnen, dass lange Sätze schon aus sich heraus eine gewisse Schönheit erlangen können, indem sie eine Satzmelodie ermöglichen, die bei kürzeren Sätzen kaum zu erreichen wäre, und dennoch, da bin ich sicher, besteht die Gefahr, dass, wenn sich ein langer Satz an den nächsten reiht, irgendwann kein Mensch, und sei er noch so interessiert, mehr wirkliches Vergnügen verspürt, dieses Wortgebilde, das Zeile für Zeile miteinander verhäkelt wurde, zu Ende zu lesen, da doch mit jedem Nebensatz, der angehängt oder eingeflochten wird, die Befürchtung wachsen muss, dass der hier nachgezeichnete Gedanke, so wahr und schön er auch sein mag, keinen Abschluss findet und sich darum auf ewig um sich selber dreht, ohne einen weiteren Sinn, als den, sich selber in seinem sein darstellen zu wollen, enthüllen wird oder aber, fast noch erschreckender, der Lesende überhaupt nicht mehr zu erinnern vermag, wie er, von dem hier die Rede ist, begann.

I am trying to use this attention implementation together with the Nvidia/Tacotron2, but so far the alignments look like this:
image
Do you have any ideas what could be the cause of this? Does the model take longer to train with DCA? A model with the default attention would have converged to an intelligible speech by now.