Ich könnte mir vorstellen, dass es hier auch auf die Architektur des Netzes ankommt. Ich stecke nicht tief in der Materie, aber bei DeepSpeech z. B. gibt es ja einen Teil, der die Fourier-Transformierte des Audios in “Laute” übersetzt und einen Teil, der diese Laute nimmt und daraus Worte/Zeichenketten formt. Der erste Teil braucht zum Training vor allem viele verschiedene Stimmen, Dialekte und Stimmungslagen. Der zweite braucht viele einzigartige Sätze. Wenn man beide unabhängig voneinander trainieren könnte, müsste man Satzwiederholungen nur für den zweiten Teil skippen, was unseren bisherigen Datensatz aufwerten würde.
benekuehn/WhatsApp-Scraper
Scrape sent WhatsApp texts. Contribute to benekuehn/WhatsApp-Scraper development by creating an account on GitHub.