Calidad de las frases de wikipedia

He hecho pruebas con un script que me han pasado y tenemos unas 212388 frases que tienen palabras únicas

Al parece la mayoría de ellas son términos super raros o extranjeros que se pueden eliminar sin problema, un ejemplo de 100 de estas palabras únicas.

Curiosamente hay muchos menos que se repiten 2 veces (55068) y también tienen términos raros (muestra de 100) e incluso los que se repiten 3 veces (26208) o 4 veces (15560) también siguen la misma linea de complejidad. En los que se repiten 5 hay un poco de todo.

Numero de repeticiones Número de palabras Frases afectadas
1 212388 212388
2 55068 110136
3 26208 78624
4 15560 62240
5 10523 52615
Total 319747 516003

Si quitáramos todas estas nos quedaríamos con sólo 970574 de las 1486577 frases totales extraídas. Si tenemos en cuenta que de media son unos 5s de grabación para cada una, esto nos daría unas 1348 horas de margen (frente a las 2064 horas de usar todas).