Hola,
Estoy haciendo pruebas con la extración de frases de wikipedia en español. En general salen bien pero veo mucho término técnico o científico que es dificil leer.
Os dejo dos muestras de 100 frases aleatorias:
Mis preguntas:
- ¿Cómo de problemáticas veis estas palabras?
- ¿Observáis otros problemas con las frases que se repitan de forma generalizada?
- ¿De una muestra de 100 cuantas estimáis son incorrectas? ¿Y cuántas difíciles de leer?
Adicionalmente, ¿podemos encontrar un listado con las palabras más comunes en español? Quizá podríamos filtrar con esa lista.
Un saludo.