Aquí está aplicando el filtro con 5/20/500 y eliminando también las que no están en el vocabulario de spacy
En los archivos está el filtro donde el campo bool indica si la palabra está fuera del vocabulario de spacy.
Con el filtro de 5 está eliminando 226k, ahora ¿Qué le parecen las sentencias que se están manteniendo?