Tacotron 2: Eco in the synthesis voice

Abrar_Sanaullah · March 28, 2023, 10:29am

Hi Guys and @erogol
Basically I trained a model on the Urdu Dataset with LJ speech format.
First I trained the model on the 3 hours of data.
I have conducted training on two separate datasets (3 hours) featuring recordings of two different individuals within the same environment and at identical sampling rates. However, the resulting outcomes are not identical, as the male voice dataset is encountering an issue of echo. Female voice is perfectly fine.
Previously I trained data of 10 hours. These were also from two different persons and were recorded in same manner as well. Issue was same at that time as well. one voice was perfectly fine but the other had the issue of echo.
what can be the root cause of this echo?

Number of Epochs: 2500
sampling rate :16000, 22050
batch size: 32

Amine_Senou · January 6, 2024, 1:11pm

Si vous rencontrez un problème d’écho spécifique avec les enregistrements de voix masculine dans vos données, il peut y avoir plusieurs causes possibles. Voici quelques éléments à considérer :

Variabilité de l’environnement acoustique : Même si les enregistrements ont été réalisés dans le même environnement, il peut y avoir des différences subtiles dans les caractéristiques acoustiques de cet environnement. Ces variations peuvent affecter la façon dont le son se propage et se reflète, ce qui peut conduire à des différences d’écho entre les enregistrements de voix masculine et féminine.
Caractéristiques de la voix : Les caractéristiques acoustiques intrinsèques des voix masculines et féminines peuvent également jouer un rôle. Les voix masculines tendent souvent à avoir des fréquences plus basses et des harmoniques plus élevées, ce qui peut interagir différemment avec l’environnement acoustique et entraîner une perception plus prononcée de l’écho.
Positionnement du microphone : Assurez-vous que le microphone est placé de la même manière pour les enregistrements de voix masculine et féminine. Des différences de positionnement peuvent entraîner des variations dans la capture du son et donc dans la présence d’écho.
Différences de volume : Vérifiez si les enregistrements de voix masculine et féminine présentent des différences de volume significatives. Un volume plus élevé peut augmenter les réflexions sonores dans l’environnement et contribuer à l’apparition d’échos.

Il est important de noter que sans avoir accès aux enregistrements spécifiques et aux détails techniques de votre configuration, il est difficile de déterminer la cause exacte du problème. Je vous recommande de vérifier attentivement tous ces aspects et, si le problème persiste, il peut être utile de consulter des experts en traitement audio ou en ingénierie du son qui pourront analyser vos enregistrements et votre configuration pour identifier et résoudre le problème.

Topic		Replies	Views
Training 2 New Custom Datasets with TTS-recipes, need suggestions for inference/synthesis TTS (Text-to-Speech) learning	2	1670	January 28, 2022
Training suddenly dropping in quality TTS (Text-to-Speech)	20	2428	August 18, 2020
Help needed training with small dataset TTS (Text-to-Speech)	7	1313	February 11, 2021
Restore checkpoint from pretrained model TTS (Text-to-Speech)	2	1380	September 15, 2020
Results of a model for my native language TTS (Text-to-Speech)	1	498	July 15, 2020

Tacotron 2: Eco in the synthesis voice

Related topics