Por Leonardo Moledo
Entre el inquieto y cambiante lenguaje natural, utilizado a diario por los seres humanos, y las máquinas parece haber una brecha insalvable. Sin embargo, no es tan así. En diferentes lugares del mundo se trabaja activamente para inducir a las computadoras a descifrar los secretos de la sintaxis y la semántica y desentrañar los significados de las complejas oraciones humanas.
Uno de esos lugares es la Universidad Nacional de Córdoba, más precisamente la Facultad de Astronomía, Matemática y Física (Famaf), y aún más precisamente el Grupo de Procesamiento de Lenguaje Natural donde Gabriel Infante López –doctor en Informática, profesor de la Universidad Nacional de Córdoba y uno de los directores del grupo– busca la forma en que las computadoras realicen un análisis sintáctico riguroso y se aproximen a la comprensión del lenguaje humano.
–¿Sabe que no podía encontrar su foto y que casi no puedo hacer este reportaje?
–Bueno, lo podía hacer sin foto.
–No, sin foto, no. Pero al final apareció. Así que cuénteme sobre su tema de investigación.
–Yo trabajo en análisis sintáctico de texto, que significa tratar de que las computadoras entiendan el lenguaje que utilizan las personas. Se intenta disminuir la brecha entre el humano y la computadora, para que por ejemplo las máquinas puedan leer diarios automáticamente y hacer resúmenes.
–¿Pero cómo hace para traducir el lenguaje natural que tiene problemas semánticos...?
–Yo trabajo particularmente en la parte de sintaxis, tratando de descubrir el árbol sintáctico que describe una oración dada. Las técnicas que yo intento desarrollar son las llamadas de “Machine Learning”...
–O sea, de máquinas que van aprendiendo...
–Sí, aprendizaje para tratar de determinar, dada una oración, cuál es la estructura que esa oración tiene, cuál es el sujeto, cuál el predicado, cómo se relacionan...
–En oraciones muy simples, hay máquinas que ya más o menos lo hacen.
–Sí, aunque tampoco es un tema cerrado. Para el inglés, que es el idioma en el que la tecnología ha evolucionado más, ya se alcanzó un porcentaje de correctitud del 92 por ciento más o menos. Pero para España no hay nada.
–¿Qué es el “porcentaje de correctitud del 92 por ciento”?
–Funciona así: viene un lingüista y hace una anotación sintáctica de una oración. Después uno agarra esa misma oración y se la da a una computadora para que haga el análisis sintáctico. Y la máquina se equivoca sólo el 6 por ciento de las veces (siempre en inglés, la tecnología más evolucionada).
–Bueno, es en la que más se trabaja.
–Sí, porque hay más plata. Para este tipo de investigaciones hace falta mucha plata, porque en general son técnicas supervisadas: hay material anotado por humanos de oraciones sintácticamente correctas, hay lingüistas que deben sentarse y describir la estructura sintáctica de conjuntos de oraciones.
–¿Y hasta dónde se ha llegado en esto? Porque usted proponía que lean el diario y hagan un resumen...
–Y hay muchas herramientas que utilizan este tipo de metodología. Por ejemplo, una nueva metodología es la pregunta-respuesta, que es la idea que está detrás de los buscadores de Internet. Que uno no escriba palabras clave sino una oración, una pregunta y que la computadora devuelva la respuesta y no una página que potencialmente tenga la respuesta.
–Pero para eso tiene que entender la oración...
–Exactamente. Y por eso allí aparece el análisis sintáctico, que es algo así como el primer paso para tratar de entender la semántica y el significado de la oración.
–Ahora, de todas maneras, ¿no hay en el lenguaje natural algo que es intraducible a código computacional?
–Capaz que sí. Pero yo creo que eventualmente se va a poder llegar a traducir.
–Mmmm... una respuesta elíptica. ¿Se puede llegar a que una computadora entienda el lenguaje, que una computadora hable?
–Hasta un nivel aceptable.
–Hasta un nivel aceptable. Por ejemplo no que lea una poesía...
–No que lea una poesía. O que si una máquina está entrenada en economía no entienda un texto de computación.
–Bueno, eso se parece mucho a lo que le pasa a cualquiera...
–Sí, exactamente. El lenguaje natural tiene de bueno que es un fenómeno supercomplejo y donde entran un montón de áreas del conocimiento humano a trabajar e interaccionar: lingüística, Machine Learning, informática, programación.
–La máquina sería entonces una máquina hablante.
–Son dos problemas distintos. Un problema es entender y otro es producir. Entender texto es más fácil que producir texto.
–Pero ya hay máquinas que traducen... y a veces uno tiene una traducción bastante aceptable.
–Depende de dónde haya sido entrenado el traductor. A veces es bastante aceptable, otras un desastre.
–Está bien, la sintaxis la entiendo, pero la semántica es lo que me parece... ¿Cómo anda la semántica?
–Y en la semántica... es difícil, es un problema en el que todavía nadie sabe bien por dónde disparar. Fíjese en los buscadores, por ejemplo. La semántica está dada por el conjunto de palabras que aparecen en el documento. Todavía no hay ninguna estructura ni siquiera temporal del documento y así es como funcionan los buscadores y uno ve que los buscadores funcionan aceptablemente bien.
–Ahora, apenas algo se les sale de caja se confunden completamente.
–Sí.
–¿Cómo funciona un buscador? Busca todos los documentos que tienen registrados y si hay alguna palabra de las que aparecen en la lista...
–Y aparte Google piensa a la red como un grafo, como una red de nodos –los sitios– interconectados, y el peso y la importancia de cada nodo, de cada sitio depende de cuántos otros sitios lo apuntan. Si a mí me apunta mucha gente a través de links, yo soy más importante en esa topología. Entonces el buscador busca en los documentos haciendo un pequeño tratamiento de las palabras: por ejemplo, si yo pongo un plural, Google saca el plural y busca solamente la palabra, y de los documentos donde encuentra esa palabra se fija el de mayor rango. Esa es la idea básica, la que todo el mundo sabe de Google, pero supuestamente detrás hay muchas cosas que no se divulgan.
–¿Cómo es la topología, la estructura de la red?
–Tampoco nadie la sabe, porque es muy grande y cambia todo el tiempo, lo cual no deja de ser un problemita; ¿cómo representar algo que cambia tanto, que pierde nodos y al que se le agregan nodos todo el tiempo de una manera que sea rápida y efectiva para buscar? Hay programas buscando en la red permanentemente y actualizando esa topología.
–¿Y ahora en qué está trabajando?
–Ahora tengo dos frentes de investigación; uno es hacer un analizador sintáctico para español y por otro lado estoy dirigiendo a unos chicos que están trabajando con un subsidio de la provincia para crear un banco de datos de ADN que maneje los datos y que además haga “Data mining” con esos datos.
–Sí, habló de eso al principio. Cuénteme qué es “Data mining”.
–“Data mining” es un sistema para tratar de encontrar información que está escondida de alguna manera en los datos. Por ejemplo, si yo tengo una base de datos de personas no quiero saber quiénes son los que se llaman Pedro, sino que quiero saber la edad media de la gente que está ahí adentro, tipo o color de pelo que tienen, o el ingreso o hacer análisis de crédito sobre esa gente. Son parámetros que no están explícitamente en los datos, que aparecen escondidos en la base pero que hay que buscarlos, hay que calcularlos de alguna manera.
Producción: Nicolás Olszevicki
El verano también se disfruta en la UNCUYO
Dic 27, 2024