Por: Adolfo Guzmán Arenas**
Por “entender” me refiero a comprender lo que un documento dice. Por ejemplo, contestar preguntas elaboradas, hacer deducciones interesantes, o contrastar dos versiones distintas. No simplemente cambiar de tamaño de letra, corregir ortografía o buscar palabras clave.
Con la proliferación de textos escritos en español, inglés y otros lenguajes, es tiempo de que las máquinas los procesen en forma más profunda y productiva. Si lograran extraer la información que hay en un documento, podrían hacer inferencias, deducciones, extrapolaciones y analizar consecuencias, por ejemplo para responder preguntas o sintetizar lo que han leído.
Y mientras una máquina analiza (¿aprende, digiere, entiende?) cierto tema, otras máquinas lo hacen con otros. Si tienen acceso a muchos documentos sobre el mismo tema (vía Internet, digamos), conseguirían acumular grandes conocimientos sobre un mismo tópico… algo como un “sabelotodo” particular. Pero las máquinas pueden intercambiar sus bases de datos, de manera que es factible tener un “sabelotodo” sobre muchos temas, algo como una enciclopedia interactiva, que nos diera (aunque sea vía pantallas) respuestas, soluciones, sugerencias o consejos sobre lo que le planteáramos… Sería la inteligencia dentro de las máquinas, la Inteligencia Artificial.
Aquí describiré el camino y los progresos logrados (y lo que falta) en nuestro grupo de trabajo. Usamos arañas (Crawlers) distribuidas para localizar documentos sobre cierto tema (mediante Clasitex, un programa que dice de qué temas habla un documento) y guardarlos en BiblioDigital®, una biblioteca digital distribuida y organizada taxonómicamente.
Cada documento se convierte a una ontología (red semántica) mediante un analizador sintáctico-semántico (en construcción, proyecto OM*) que usa programas para resolver homónimos (banco como silla versus banco de un río versus banco financiero versus banco de peces), anáforas (reemplaza los pronombres por los sustantivos a los que se refieren), preposiciones (olla de barro versus olla de arroz versus olla de Oaxaca), extrae información útil (de herramientas, digamos), etcétera.
Las ontologías extraídas de cada documento se fusionan usando OM (Ontology Merging, que a su vez usa COM para localizar los conceptos más cercanos en dos ontologías), un programa que quita repeticiones y redundancias, resuelve sinónimos, homónimos, elimina relaciones redundantes, y zanja ciertas inconsistencias y contradicciones aparentes.
Ya “limpia” una ontología grande, unificada, viene el deductor o contestador (en construcción) que la analiza y recorre para obtener las respuestas a preguntas no triviales y búsquedas de información.
La meta es lograr un banco interactivo de información, que por sí solo colecciona información sobre un grupo de temas, la digiere y la pone al alcance de los usuarios que lo interrogan, versus buscar documentos en la Web y digerirlos manualmente.
*Texto elaborado por el autor, que sirvió como base a la conferencia magistral impartida el 8 de noviembre en el Instituto Nacional de Astrofísica, Óptica y Electrónica, donde recibió el doctorado Honoris Causa. El título original es: ¿Qué pasará cuando las computadoras entiendan lo que leen? Un camino hacia la Inteligencia Artificial: el análisis semántico de documentos.
**Premio Nacional de Ciencias y Artes (1996). Miembro de la Academia Mexicana de Ciencias e investigador del Centro de Investigación en Computación del Instituto Politécnico Nacional.