Mejoras en la experiencia de la app

Tanto en grabación como en validación tienes atajos de teclado disponibles (el botón accesos directos da detalles). El cartel se puede quitar desde la opciones de tu perfil, y para la autoreproducción, se está evaluando, aunque ya hay colaboradores que han hecho userscripts

1 Like

Perfecto, ni había caído en la cuenta de lo de Accesos Directos. Imagino que un script de momento vale, entiendo que estos procesos a veces son lentos.

¿Lo del volumen se va a discutir en este mismo hilo? Porque ese tema si me parece fundamental, ¿qué criterios se usan a la hora de rechazar un audio porque es muy bajo?

Muchas veces es subjetivo, pero en general la recomendación es escuchar el audio sin mirar la pantalla, ¿qué has entendido? Si no es lo mismo que luego está en pantalla, rechazar.

El tema del volumen se que se estaba mirando para que se normalizara.

Muevo esto a un tema nuevo sobre mejoras de la app.

El tema de normalizar los audios en post-producción (automatizado con un script) es algo fundamental para tener una librería de alta calidad, más de cara al futuro. El problema en este caso son los audios con volumen muy bajo, ya que la normalización los puede saturar.

Una opción puede ser tomar los datos en tiempo real para advertir al usuario que la grabación tiene el volumen bajo, o mostrar un VU metro. A lo mejor corresponde plantearlo en el GitHub del proyecto. Brevemente, sería utilizar un objeto Analyzer (que pertenece a AudioContext) para analizar el input en tiempo real con getByteFrequencyData(). Ya después se le puede sacar un promedio y usar ese dato para mostrar un cartel de “Advertencia Audio de Entrada demasiado Bajo”, o un VU Metro directamente bien integrado a la interfaz. Acá hay un ejemplo interactivo con código:

https://codepen.io/travisholliday/pen/gyaJk

Habría que hacer testeos igualmente, no tengo muy en claro si representa valores bajos cuando el audio tiene buen volumen, pero se puede probar rápido (de última aviso mediante un pull request en GitHub).
Esto ayudaría más que nada porque la opción que tenemos actualmente de re-escuchar los audios para volver a grabarlos en caso de errores está muy buena, pero es evidente que no todo el mundo la usa.

Hasta donde yo se, creo que cuando luego se entrenan los modelos de Deep Speech, la máquina es capaz de entender diferentes niveles, pero obviamente normalizar sería bueno para antes poderlos validar bien por humanos :slight_smile:

Sugiero colocar contador de clips por dia y o mes y que salga un cartel que indique revasado limite diario o mensual por usuario , con alguna cokie no se si esto tecnicamente es posible