Por Leonardo Moledo
Hay voces que hablan y se mezclan inocentemente, sonidos varios que danzan entre sí y se confunden, toses que arruinan conciertos exquisitos, ruidos de fondo que barajan una gama de frecuencias total, música, habla, voz, insoportable crujir de pochoclos en el cine, ruido de copas al chocarse. Pero hay también en la Universidad del Litoral un conjunto de personas silenciosas y reacias al ruido, que trabajan en algoritmos capaces de separar la voz principal de las entrometidas y obstaculizantes voces secundarias: el Grupo de Investigación en Señales e Inteligencia Computacional de la Facultad de Ingeniería y Ciencias Hídricas, integrado, entre otros, por los bioingenieros Leandro Di Persia y Diego Milone.
–Bueno, ¿por qué no me cuentan qué es lo que hicieron, o están haciendo?
–Lo que hicimos fue investigar un algoritmo para la separación de señales, en particular las señales de habla. Lo que hace básicamente es separar la señal de habla que nos interesa de todo el ruido de fondo de otros hablantes, de un colectivo que pasa o de lo que sea que esté perturbando esa señal. Pero me gustaría que pusiera que esta investigación se hace con apoyo de la Agencia Nacional Promoción de la Ciencia y la Tecnología.
–Bueno, ya está, ya lo puse. Volviendo al tema. Por ejemplo, ahora que estoy haciendo esta nota, me sería más fácil desgrabarla con lo que usted hizo porque se oiría sólo lo que hablamos.
–Claro, sólo la voz principal. Pero hay muchísimas aplicaciones más, aparte de desgrabar esta nota: trabajamos con un grupo de gente de Japón que está interesada en el comando de televisores a través de la voz.
–O sea, que nuestra voz funcione como un control remoto.
–Algo así. También tenemos procesos de reconocimiento del habla y de audífonos digitales. En realidad, las aplicaciones finales son muy diversas: prácticamente en cualquier cosa cuyo medio principal de comunicación sea el habla.
–¿Y es un software?
–Sí, todos los experimentos los hacemos con un software en una PC. Básicamente funciona así: se registra la señal con los micrófonos (nosotros ya tenemos una gran base de datos de muchas señales registradas) y entra la señal. Se ejecuta el algoritmo y salen dos señales separadas: por un lado sale la principal (la voz) y por otro lado todo el ruido de fondo.
–Pero, ¿cómo hace el software para separarlas?
–El algoritmo se basa principalmente en análisis de componentes independientes, es decir, en la independencia estadística que existe entre la señal de interés y todas las otras señales que están en el fondo. Yo hablo, y mientras tanto pasan colectivos, hay gente hablando en otras mesas.
–Aclaremos que estamos en un café...
–Se oye el ruido de las cucharitas...
–Caen bombas atómicas...
–Bueno, no tanto. Existen filtros capaces de separar lo que yo hablo del ruido de fondo.
–El sonido y la furia.
–Eso es más o menos fácil. Pero atrás puede haber otra persona hablando, que emite información en la misma banda de frecuencias que yo, o en una banda parecida.
–Y ahí es la cosa.
–Ahí es la cosa. No voy a explicarle cómo funciona exactamente el algoritmo, pero digamos que si están hablando A y B, y las voces salen mezcladas, detecta que las dos señales son independientes estadísticamente, y las separa. Por ejemplo, no podríamos separar las voces de un coro, porque son dependientes estadísticamente, ya que o bien cantan todos los mismo, en un coral, o cosas muy conectadas estadísticamente.
–Pero sí pueden separar a un solista del coro.
–Sí.
–Y a dos solistas.
–También.
–Y a tres solistas.
–¡Basta! Utilizamos una función de costo que lo que hace es medir qué tan independientes son las dos fuentes. Entonces cuando logramos suficiente independencia estadística, se asume que están separadas las dos señales. Lo interesante del algoritmo es separar habla de habla. Por ejemplo, mezclamos la voz de una mujer de la de un hombre y tenemos que separarlas.
–¿Se aplicó ya alguna vez?
–A nivel de laboratorio sí, pero no en aparatos. Sí hemos separado señales y medido la calidad de la separación.
–¿Y cómo es el tema con Japón?
–Hace varios años que mantenemos un trabajo conjunto. Ellos tienen una relación muy fuerte con la industria, que nosotros no. Y en particular están interesados en el comando de televisores con la voz. La idea es lograr decirle: “Dame el listado de noticias después de las nueve de la noche”, “Quiero ver el programa tal”, y que lo reconozca. En eso hay una etapa que es el reconocedor del habla (que ya está básicamente cerrada), pero el problema actual que tienen los reconocedores del habla es lo que pasa cuando la señal está contaminada.
–¿Y ustedes ya patentaron algo?
–Lo que hicimos fue presentar la solicitud de patente. Eso va a ser evaluado por un conjunto de expertos internacionales que medirán el grado de innovación, la aplicabilidad industrial. Esa solicitud de patente está asociada a ese aparato con el que están principalmente interesados los japoneses.
–¿Y no piensan patentarlo para audífonos?
–Sí, lo que pasa es que no se puede patentar el algoritmo o el software como tal; tiene que estar asociado a un producto tangible y físico con aplicabilidad industrial.
–¿Y no hay nadie dispuesto a hacerlo acá?
–Por ahora no.
–No lo puedo creer.
Informe: Nicolás Olszevicki.
La UNCUYO invita al foro de urbanismo para repensar una ciudad integral y sostenible
27 de noviembre de 2024