¿Pueden pensar las máquinas?, esta pregunta se hizo el matemático inglés Alan Turing, considerado el padre de la computación, en 1950 en su artículo “Computing machinery and intelligence”. Para responderlo ideó un popular test que lleva su nombre y prueba la habilidad de una máquina para comportarse como un ser humano, la cual es determinada por un evaluador.
En 1997 la empresa de tecnología IBM se preguntó si una computadora podría ganarle al Campeón Mundial de Ajedrez, Gary Kaspárov. Para ello desarrolló Deep Blue, un sistema computacional gigantesco que logró derrotar en seis partidas al ajedrecista ruso. Ese hito represento un punto de llegada: finalmente una computadora derrotó al ser humano en una tarea que no se creía que fuera posible.
Ciencia ficción o realidad, cada vez más tareas hechas por el hombre pueden ser realizadas por máquinas. Agustín Gravano, investigador asistente del CONICET en el Departamento de Computación de la Facultad de Ciencias Exactas y Naturales de la Universidad de Buenos Aires (UBA) estudia computacionalmente la extraordinaria y compleja coordinación que posee el hombre al hablar.
Estamos cada vez más acostumbrados a que distintos sistemas logren por medios computacionales realizar tareas que un ser humano puede hacer, desde el ejemplo clásico de jugar al ajedrez hasta hablar o reconocer objetos. Esta capacidad que tienen las máquinas de imitar el razonamiento humano se conoce con el nombre de Inteligencia Artificial (IA).
Gravano explica que una de las tantas temáticas que pueden abordarse desde la IA es el habla, específicamente los sistemas que permiten la comunicación oral entre las computadoras y el hombre. “Dentro de todo lo que el ser humano puede hacer, está el manejo del lenguaje natural: inglés, español o suajili, cualquier lenguaje creado naturalmente en contraposición a los que el hombre diseñó para algo específico. Lo usamos espontáneamente sin tener conciencia de su complejidad porque fue desarrollándose con nosotros mismos y por eso nos resulta natural, pero llevar eso a una computadora es complejo. No hemos sido capaces todavía de lograr que manejen el lenguaje de manera razonable tanto para percibir como para producir mensajes aceptables”, dice.
El investigador agrega que entender palabras o reconocer las intenciones, emociones, dobles sentidos o sutilezas son tareas muy sofisticadas para una máquina. A pesar de que existen algunas aplicaciones especialmente para celulares de reconocimiento de habla, su porcentaje de error es muy grande. Sólo es tolerable cuando se intenta acelerar el proceso de dictado de un mensaje o dar una instrucción, pero no si se pretende hablar o si se busca calidad sobre la percepción de lo que se dijo. Estos sistemas tienen un porcentaje de éxito que los hacen comercialmente viables pero aún hay mucho terreno por recorrer.
El procesamiento de habla está en sus primeras etapas y aún falta no sólo comprender qué se dijo sino cómo. Ese “cómo” es conocido como prosodia, es decir, una rama de la lingüística que estudia los elementos fónicos una expresión como los acentos, los tonos y la entonación. El estudio de ella es lo que lleva a cabo el Grupo de Procesamiento del Habla del Departamento de Computación de la Facultad de Ciencias Exactas y Naturales de la UBA, en el que Gravano participa.
“Yo me sumé a una línea de investigación que empezó en los ‘90, hacemos estudios estadísticos para describir los mecanismos y herramientas que tiene el hombre para cambiar el significado sutil o drásticamente de acuerdo a cómo lo decimos. Usamos técnicas de machine learning (aprendizaje automático) que es una de las grandes ramas dentro de la IA que consiste en crear programas capaces de aprender comportamiento en base a ejemplos”, aclara.
El equipo trabaja con grabaciones de conversaciones en una cámara acustizada para evitar ecos y ruidos que perjudiquen el posterior análisis. Se estudian los atributos como el volumen o intensidad de voz que tiene la señal de audio, con ellos se entrenan algoritmos para que aprendan distintas combinaciones de ellos. El objetivo es que el sistema pueda reconocer patrones que le indiquen diferentes modos de hablar, por ejemplo que detecte que si una persona dice una palabra en tono elevado y con mucha intensidad porque evidentemente quiere poner énfasis en ella.
“Esto puede ser aplicable a todos los lenguajes y culturas. Lo que buscamos desde la computación es tratar de encontrar patrones que sean un factor común. No importa de donde sos, tu cultura o nivel socio-económico, de alguna manera todos usamos más o menos los mismos protocolos para comunicarnos, eso es lo que buscamos. En este punto de desarrollo de la IA apuntamos a con la menor cantidad de datos posibles tratar de lograr un cubrimiento amplio de la población”, asegura el investigador.
Finalmente, Gravano explica que este conocimiento generado puede ser utilizado por los desarrolladores de tecnologías: los que se dedican a hacer traductores automáticos, los que producen reconocedores del habla para hacer búsquedas para poder operar con un sistema y los que buscan optimizar los servicios de atención al cliente. En este sentido, destaca que esto puede ser una buena herramienta de análisis para call centers porque la máquina podría inferir cuáles son las principales quejas y los motivos y ese material posteriormente ser analizado por una persona.
“Es importante tener en cuenta como combinar personas y sistemas porque esto ayuda a mejorar la comunicación. El procesamiento de lenguaje todavía está muy lejos de pasar el Test de Turing por eso hay que seguir trabajando muchísimo. Uno tiene la sensación de que hoy en día con los celulares está todo resuelto pero en un sistema de diálogo uno se puede dar cuenta enseguida que no es una persona la que está hablando”, concluye.
(CONICET/DICYT)