El Centro de Tecnologías y Aplicaciones del Lenguaje y del Habla (TALP) de la Universitat Politècnica de Catalunya · BarcelonaTech (UPC), integrado en el CIT UPC, ha desarrollado el prototipo de un sistema de traducción automática para patentes del área biomédica. El sistema permite la creación de documentos multilingües que mantienen la estructura de las patentes originales incluyendo imágenes, fórmulas y otro tipo de anotaciones. Además, el sistema funciona en tiempo real y puede integrarse en aplicaciones web.
El trabajo de los investigadores de TALP UPC, desarrollado a lo largo de tres años, se integra en un proyecto colaborativo del VII Programa Marco de la Unión Europea denominado MOLTO, en el que han colaborado con grupos de investigación de Göteborg (Suecia), Helsinki (Finlandia), Utrecht (Holanda), Sofía (Bulgaria) y Zúrich (Suiza).
Con el objetivo general de obtener un sistema de traducción automática en varios idiomas capaz de producir traducciones de alta calidad, los investigadores de MOLTO han trabajado en tres casos de estudio: los enunciados de ejercicios de matemáticas, la descripción de objetos de museos y un modelo de traducción de patentes, que es en el que han trabajado directamente los miembros de TALP UPC.
Como técnica general en el proyecto MOLTO, los investigadores han utilizado gramáticas sintáctico-semánticas creadas a partir de ontologías específicas de dominio (esquemas conceptuales que facilitan el intercambio de información entre distintos sistemas). A su vez, estos componentes se han integrado en lo que se denomina Grammatical Framework (GF), la herramienta informática que hace posible las traducciones automáticas a distintos idiomas a través de una representación abstracta común. Para facilitar su uso on line se ha desarrollado una API (Application Programming Interface o Interfaz de programación de aplicaciones) que permite su integración con cualquier aplicación Web.
En el caso de la traducción de patentes, se han empleado técnicas de hibridación entre Grammatical Framework y métodos estadísticos. Con GF se consiguen traducciones gramaticalmente correctas, mientras que la inclusión de las técnicas estadísticas (al estilo de las que usan traductores como Google Translate) permite cubrir dominios extensos como es el caso de la biomedicina.
Además, las patentes forman parte de un sistema de recuperación de documentos que inicialmente sólo permitía la búsqueda en inglés. Por ello se ha tenido especial cuidado en idear una metodología que permite preservar la compleja disposición de etiquetas y anotaciones semánticas presentes en los documentos, lo que hace posible, entre otras cosas, mantener la estructura de los compuestos químicos descritos en los registros biotecnológicos, y permite la búsqueda de documentos en el idioma de la traducción.
El resultado es la traducción automática de las patentes al inglés, francés y alemán (las tres lenguas oficiales de la Oficina Europea de Patentes), con la ventaja añadida de que dichas traducciones pueden hacerse en tiempo real, lo que facilita enormemente el trabajo de búsqueda multilingüe en bases de datos.