He hecho pruebas con un script que me han pasado y tenemos unas 212388 frases que tienen palabras únicas
Al parece la mayoría de ellas son términos super raros o extranjeros que se pueden eliminar sin problema, un ejemplo de 100 de estas palabras únicas.
Curiosamente hay muchos menos que se repiten 2 veces (55068) y también tienen términos raros (muestra de 100) e incluso los que se repiten 3 veces (26208) o 4 veces (15560) también siguen la misma linea de complejidad. En los que se repiten 5 hay un poco de todo.
| Numero de repeticiones | Número de palabras | Frases afectadas |
|---|---|---|
| 1 | 212388 | 212388 |
| 2 | 55068 | 110136 |
| 3 | 26208 | 78624 |
| 4 | 15560 | 62240 |
| 5 | 10523 | 52615 |
| Total | 319747 | 516003 |
Si quitáramos todas estas nos quedaríamos con sólo 970574 de las 1486577 frases totales extraídas. Si tenemos en cuenta que de media son unos 5s de grabación para cada una, esto nos daría unas 1348 horas de margen (frente a las 2064 horas de usar todas).