Fue desarrollado por investigadores del CONICET y de la Universidad Nacional del Litoral (UNL). El programa procesa la señal de la voz del hablante para identificar automáticamente la emoción que transmite esa alocución.
Científicos del CONICET y de la Universidad Nacional del Litoral (UNL) diseñaron un software que "reconoce emociones automáticamente" y que, según sus creadores, "puede mejorar la interacción entre las personas y las máquinas".
El software procesa la señal de la voz del hablante para identificar automáticamente la emoción que transmite esa alocución.
"Cuando uno habla dice mucho más que palabras porque hay características de la forma de hablar que delatan nuestro enojo, miedo o alegría", explican los investigadores.
A diferencia de los modelos de reconocimiento del habla, como los que permiten el marcado por voz en los celulares, este sistema no trata de identificar qué se dice sino cómo se lo dice.
Es decir, intenta descifrar la información implícita en la señal que refiere al estado emocional de la persona que habla.
Luego de experimentar con dos modelos estadísticos de procesamiento diferentes, los investigadores obtuvieron resultados satisfactorios logrando hasta un 76 por ciento de reconocimientos correctos al utilizar siete emociones y un 97 por ciento cuando usaron sólo tres.
"Es un área de investigación que ha cobrado fuerte interés en los últimos años y aún no hay ningún desarrollo comercial disponible. Particularmente, el reconocimiento de las emociones es de gran interés para mejorar la interacción hombre-máquina", explicó la estudiante Belén Crolla, del Grupo de Investigación de Señales e Inteligencia Computacional de la Facultad de Ingeniería y Ciencias Hídricas (FICH) de la UNL y el CONICET.
El trabajo fue presentado en la 34§ Conferencia Latinoamericana de Informática organizada por la UNL, la Universidad Tecnológica Nacional (UTN) y el CONICET, entre otras instituciones.
El proyecto consistió en estudiar la información implícita en las señales de voz.
Para ello generaron un modelo de reconocimiento automático de las emociones clasificadas como primarias: alegría, ira, miedo, aburrimiento, tristeza y disgusto; además del estado neutral.
El modelo consiste en una primera etapa de procesamiento de la señal del habla y una segunda de clasificación que constituye el sistema inteligente propiamente dicho.
Del total de datos que presenta la señal, el clasificador diseñado toma en cuenta 12 características para ser evaluadas.
"El mayor desafío para este proyecto fue lograr que el sistema funcione con diferentes hablantes manteniendo un alto porcentaje de acierto", contó Crolla.
Para testear el funcionamiento, los investigadores realizaron experimentos con un importante conjunto de frases registradas por la Universidad de Berlín. En total disponían de 535 alocuciones que incluían frases expresadas en las seis emociones primarias y la emoción natural.
"Trabajamos con este corpus de emociones porque son muy costosos y difíciles de conseguir, este en particular es muy completo, está grabado con gran calidad y, fundamentalmente, porque cuenta con diez voces de locutores diferentes, cinco femeninos y cinco masculinos", detalló la Crolla.
A fin de mejorar las características del reconocedor, los investigadores plantean modificaciones y nuevas experiencias para optimizar su eficiencia.
"Vamos a incorporar características prosódicas para mejorar el reconocedor y poder obtener una mayor tasa de precisión. También se va a evaluar este mismo sistema en otros idiomas", adelantó la investigadora.
Dado que no se encuentra disponible un corpus de emociones en español, el equipo encontró una solución ingeniosa: trabajar con fragmentos de películas.
"Vamos a armar un corpus con películas argentinas. Sacaremos fragmentos de distintas emociones para ver si logramos la misma tasa de reconocimiento. Si varía de acuerdo al idioma, vamos a adaptar el reconocedor para que pueda aplicarse al español", explicó.
El verano también se disfruta en la UNCUYO
Dic 27, 2024