Calidad de las frases de wikipedia

Hola,

Estoy haciendo pruebas con la extración de frases de wikipedia en español. En general salen bien pero veo mucho término técnico o científico que es dificil leer.

Os dejo dos muestras de 100 frases aleatorias:

Mis preguntas:

  • ¿Cómo de problemáticas veis estas palabras?
  • ¿Observáis otros problemas con las frases que se repitan de forma generalizada?
  • ¿De una muestra de 100 cuantas estimáis son incorrectas? ¿Y cuántas difíciles de leer?

Adicionalmente, ¿podemos encontrar un listado con las palabras más comunes en español? Quizá podríamos filtrar con esa lista.

Un saludo.

2 Likes

En general las veo bien, creo el mayor problema son nombres y apellidos, o abreviaciones.

Si objetivo de las frases de wikipedia era crear variedad, en mi opinión se cumplió.

Por el problema de los nombres diría que está 50%.

Creo el problema de lo nombres es un poco complicado de resolver, para los que algunos un nombre les sea común puede ser que para otros no.

Yo tengo un corpus de wikipedia y de open subtitles, podría sacar las palabras más comunes de ahí. El problema es que no sé si se infringe en algún copy right, podría alguien indicarme si puedo crear la lista para ese propósito?

Sacar un listado de palabras sin contexto no debería suponer problemas de copyright, ya que solo lo usaríamos para filtrar, no para mostrar en la herramienta. Si necesitas un archivo más grande, ahora mismo estoy haciendo la exportación completa y ya lleva más de 300 frases, puedo subirlo a algún lado.

Aunque posiblemente si lo sacamos de wikipedia u opensibtitles, no se si estaría sesgado con estas fuentes y no represente realmente toda la diversidad de palabras comunes.

1 Like

Por cierto, encontré esto

https://es.wiktionary.org/wiki/Apéndice:Palabras_más_frecuentes_del_español

1 Like

Creo estaría bien, con wikipedia representa los técnico y open subtitles se puede decir que son palabras de uso cotidiano.

Descargué el csv y lo veo muy completo, lo hago también con el que tengo o ya no es necesario?

Yo creo que podemos hacer pruebas con las distintas listas que tenemos y ver qué resultados dan. Una vez tenga el export completo de wikipedia podemos aplicarlo sobre este y ver cuándo y cómo se reduce.

@carlfm01 aquí dejo la exportación completa por si quieres jugar a aplicar los filtros de palabras más comunes, son casi 1,5M de frases:

1 Like

Otra muestra de 500 frases aleatorias para que podáis dar un vistazo sin bajar todas

https://paste.mozilla.org/X5ZHCjo8

Una recomendación del equipo de Deep Speech para “limpiar” las frases.

  • Listar todas las palabras únicas.
  • Ordernar las palabras de más usadas a menos usadas.
  • Selecionar las X palabras más usadas.
  • Crear un corpus rechazando las frases que tengan palabras que no estén en la lista deee frecuentes.
1 Like

He estado haciendo algunas pruebas con la última muestra de 500 palabras y parece que las complejas, técnicas, raras o en otros idiomas no suelen aparecer más de una vez, por lo que a lo mejor un filtrado más rápido y sencillo sería quitar todas las frases con palabras únicas.

@carlfm01 ¿cómo lo ves?

Tiene sentido, aunque hay que probar hasta qué punto se mantienen las que son correctas.

Voy a probar con ese set de 1,5M

Genial, es que yo no tengo ahora mismo herramienta para hacer el filtrado y tengo curiosidad en saber en cuánto se reduce si aplicamos diferentes filtrados.

Creo que lo ideal sería la menor reducción posible que capture el mayor número de frases con palabras muy complejas de leer o en otros idiomas.

He hecho pruebas con un script que me han pasado y tenemos unas 212388 frases que tienen palabras únicas

Al parece la mayoría de ellas son términos super raros o extranjeros que se pueden eliminar sin problema, un ejemplo de 100 de estas palabras únicas.

Curiosamente hay muchos menos que se repiten 2 veces (55068) y también tienen términos raros (muestra de 100) e incluso los que se repiten 3 veces (26208) o 4 veces (15560) también siguen la misma linea de complejidad. En los que se repiten 5 hay un poco de todo.

Numero de repeticiones Número de palabras Frases afectadas
1 212388 212388
2 55068 110136
3 26208 78624
4 15560 62240
5 10523 52615
Total 319747 516003

Si quitáramos todas estas nos quedaríamos con sólo 970574 de las 1486577 frases totales extraídas. Si tenemos en cuenta que de media son unos 5s de grabación para cada una, esto nos daría unas 1348 horas de margen (frente a las 2064 horas de usar todas).

Aquí están mis resultados:

https://deepspeechstorage.blob.core.windows.net/diskimages/filter-test.zip

Cada directorio contiene las válidas usando las primeras con más coincidencia 500k/1m/2m/3m

Aquí unas 100 limpiando con las primeras 500k que más tienen repetidas
https://paste.mozilla.org/ymOgECc4

Me está tardando bastante en descargar, pero ¿podemos decir entonces que en ambas pruebas que hemos hecho, hay unas 500K frases que deberíamos eliminar por tener palabras complejas?

Creo no me expliqué bien, de todo el corpus estoy sacando las primeras 500k con más repetidas, esas primeras 500k las uso como filtro para mantener las que más comunes son.

Usando las primeras 500k que son más comunes está eliminando 160k del set de 1.5m

Lo subí a Firefox send https://send.firefox.com/download/e88d872a194cf16a/#-7NGdJcoPw8VAGDlu4v-bA

¿Qué consideras como más comunes? ¿Cuántas repeticiones? En las muestras que estoy viendo, hay muchísima palabra rara con entre 1 y 5 repeticiones.

Las que más repeticiones tienen de todo mi corpus de 85m de sentencias.

De las primeras 500k están llegando a 400 repetidas.

Voy a usar las primeras 100k y ver qué pasa

Creí que estabas el corpus que subí de wikipedia, ya que es el único que vamos a poder usar para Common Voice por motivos de licencia. Sería interesante si pudieras hacer las pruebas con ese para ver si tienes resultados similares a los mios.