nukeador
(Rubén Martín [❌ taking a break from Mozilla])
1
Hola,
Estoy haciendo pruebas con la extración de frases de wikipedia en español. En general salen bien pero veo mucho término técnico o científico que es dificil leer.
En general las veo bien, creo el mayor problema son nombres y apellidos, o abreviaciones.
Si objetivo de las frases de wikipedia era crear variedad, en mi opinión se cumplió.
Por el problema de los nombres diría que está 50%.
Creo el problema de lo nombres es un poco complicado de resolver, para los que algunos un nombre les sea común puede ser que para otros no.
Yo tengo un corpus de wikipedia y de open subtitles, podría sacar las palabras más comunes de ahí. El problema es que no sé si se infringe en algún copy right, podría alguien indicarme si puedo crear la lista para ese propósito?
nukeador
(Rubén Martín [❌ taking a break from Mozilla])
3
Sacar un listado de palabras sin contexto no debería suponer problemas de copyright, ya que solo lo usaríamos para filtrar, no para mostrar en la herramienta. Si necesitas un archivo más grande, ahora mismo estoy haciendo la exportación completa y ya lleva más de 300 frases, puedo subirlo a algún lado.
Aunque posiblemente si lo sacamos de wikipedia u opensibtitles, no se si estaría sesgado con estas fuentes y no represente realmente toda la diversidad de palabras comunes.
1 Like
nukeador
(Rubén Martín [❌ taking a break from Mozilla])
4
Creo estaría bien, con wikipedia representa los técnico y open subtitles se puede decir que son palabras de uso cotidiano.
Descargué el csv y lo veo muy completo, lo hago también con el que tengo o ya no es necesario?
nukeador
(Rubén Martín [❌ taking a break from Mozilla])
6
Yo creo que podemos hacer pruebas con las distintas listas que tenemos y ver qué resultados dan. Una vez tenga el export completo de wikipedia podemos aplicarlo sobre este y ver cuándo y cómo se reduce.
nukeador
(Rubén Martín [❌ taking a break from Mozilla])
7
@carlfm01 aquí dejo la exportación completa por si quieres jugar a aplicar los filtros de palabras más comunes, son casi 1,5M de frases:
nukeador
(Rubén Martín [❌ taking a break from Mozilla])
9
Una recomendación del equipo de Deep Speech para “limpiar” las frases.
Listar todas las palabras únicas.
Ordernar las palabras de más usadas a menos usadas.
Selecionar las X palabras más usadas.
Crear un corpus rechazando las frases que tengan palabras que no estén en la lista deee frecuentes.
1 Like
nukeador
(Rubén Martín [❌ taking a break from Mozilla])
10
He estado haciendo algunas pruebas con la última muestra de 500 palabras y parece que las complejas, técnicas, raras o en otros idiomas no suelen aparecer más de una vez, por lo que a lo mejor un filtrado más rápido y sencillo sería quitar todas las frases con palabras únicas.
Tiene sentido, aunque hay que probar hasta qué punto se mantienen las que son correctas.
Voy a probar con ese set de 1,5M
nukeador
(Rubén Martín [❌ taking a break from Mozilla])
12
Genial, es que yo no tengo ahora mismo herramienta para hacer el filtrado y tengo curiosidad en saber en cuánto se reduce si aplicamos diferentes filtrados.
Creo que lo ideal sería la menor reducción posible que capture el mayor número de frases con palabras muy complejas de leer o en otros idiomas.
nukeador
(Rubén Martín [❌ taking a break from Mozilla])
13
He hecho pruebas con un script que me han pasado y tenemos unas 212388 frases que tienen palabras únicas
Curiosamente hay muchos menos que se repiten 2 veces (55068) y también tienen términos raros (muestra de 100) e incluso los que se repiten 3 veces (26208) o 4 veces (15560) también siguen la misma linea de complejidad. En los que se repiten 5 hay un poco de todo.
Numero de repeticiones
Número de palabras
Frases afectadas
1
212388
212388
2
55068
110136
3
26208
78624
4
15560
62240
5
10523
52615
Total
319747
516003
Si quitáramos todas estas nos quedaríamos con sólo 970574 de las 1486577 frases totales extraídas. Si tenemos en cuenta que de media son unos 5s de grabación para cada una, esto nos daría unas 1348 horas de margen (frente a las 2064 horas de usar todas).
nukeador
(Rubén Martín [❌ taking a break from Mozilla])
15
Me está tardando bastante en descargar, pero ¿podemos decir entonces que en ambas pruebas que hemos hecho, hay unas 500K frases que deberíamos eliminar por tener palabras complejas?
Creo no me expliqué bien, de todo el corpus estoy sacando las primeras 500k con más repetidas, esas primeras 500k las uso como filtro para mantener las que más comunes son.
Usando las primeras 500k que son más comunes está eliminando 160k del set de 1.5m
Las que más repeticiones tienen de todo mi corpus de 85m de sentencias.
De las primeras 500k están llegando a 400 repetidas.
Voy a usar las primeras 100k y ver qué pasa
nukeador
(Rubén Martín [❌ taking a break from Mozilla])
20
Creí que estabas el corpus que subí de wikipedia, ya que es el único que vamos a poder usar para Common Voice por motivos de licencia. Sería interesante si pudieras hacer las pruebas con ese para ver si tienes resultados similares a los mios.