¿Qué significa traducir para una Inteligencia Artificial?

traduccion para la inteligencia artificial

Hace unas pocas semanas NVIDA ha publicado su nueva tecnología, vid2vid, para la traducción vídeo-a-vídeo. Para promocionar esta tecnología mostraron el siguiente video con diferentes ejemplos realmente llamativos:

Cuando las personas pensamos en una traducción, automáticamente consideramos una traducción de lenguaje, por ejemplo, de español a inglés. Sin embargo, el concepto de traducción puede ser aplicado a diferentes tipos de datos más allá del idioma. Esta idea se ha extendido gracias a la sofisticación de los algoritmos de machine learning.

¿Qué es una traducción?

El principal objetivo de una traducción es transmitir información. Por ejemplo, las dos frases “Je suis hereux” y “Soy feliz”, expresan la misma idea, cada una en un idioma diferente. Cuando decimos que una traducción es “buena”, nos referimos a que preserva el significado de la frase original al convertirse de un idioma a otro.

Las traducciones no se limitan únicamente al lenguaje: traducciones de imágenes de un “idioma” a otro ha sido un área activa de investigación en visión por computador durante los últimos años. Aunque muchos de los problemas a los que se enfrenta la visión por computador, como por ejemplo la detección de bordes, se pueden considerar como un problema de “traducción”, no ha sido hasta la eclosión de las modernas técnicas de “deep learning” cuando han aparecido técnicas capaces relacionar colores, texturas e incluso estilos entre diferentes grupos de imágenes.

traducir para una inteligencia artificialEste concepto de traducción imagen-imagen se detalla muy bien en el artículo sobre CycleGAN publicado por UC Berkeley y cuyos resultados se pueden ver en su página oficial.

¿Cómo se realiza el trabajo de traducción una red neuronal?

La mayoría de los sistemas de traducción funcionan mediante una arquitectura conocida como codificación-decodificación. Para entenderla pongamos como ejemplo que queremos que un pintor reproduzca un bosque en un lienzo. ¿Cómo podemos explicar al pintor lo que debe pintar? Podríamos enviarle una foto, pero si no disponemos de ella, podríamos “describir” en un documento los detalles de la escena.

El proceso de escribir este documento se correspondería con la fase de codificación. En él intentamos resumir el mayor número de detalles para describir la escena, y prescindimos de algunos detalles nimios (por ejemplo, el número de hojas de árbol caídas al suelo). Al recibir el documento, el pintor decodifica esta descripción y realiza el dibujo.

Conforme una red neuronal se va entrenando, su capacidad para codificar y decodificar esta información va mejorando, y por tanto es capaz de incluir más información de alto en la descripción de la imagen original. No obstante, es el proceso de decodificación el que usa su experiencia adquirida para producir la imagen de salida en el estilo deseado.

traduccion para inteligencia artificial

Tipos de traducción automática

El artículo más importante en el área de la traducción de imagen-imagen es el publicado por Isola et al y titulado “Image-to-Image Translation with Conditional Adversarial Nets”. En este artículo se incluyen resultados impactantes, como la coloración de imágenes en blanco y negro o la generación de imágenes desde unos simples trazos.

codificacion y decodificacion inteligencia artificial

Este artículo causó un gran furor y numerosos trabajos surgieron a raíz de él. En concreto, el proyecto pix2pixHD de NVIDIA y Image Captioning de Google gozan de una gran popularidad.

Su aplicación en el vídeo

¿Por qué deberíamos limitarnos a traducciones únicamente en el campo de las imágenes? Lo novedad en el reciente trabajo de NVIDIA, vid2vid, demuestra cómo se aplica una traducción de alta calidad entre vídeos, mostrando diversas traducciones:

traduccion imagen a imagen

traduccion inteligencia artificial

traduccion en inteligencia artificial

Conclusión

La arquitectura codificación-decodificación es suficientemente flexible como para abarcar una gran cantidad de problemas de “traducción”. Lo expuesto aquí es sólo una pequeña fracción de la gran cantidad de problemas que podríamos resolver con este paradigma, por lo que tendremos que estar atentos a los grandes avances en esta área.

ComparteShare on Facebook0Share on Google+0Tweet about this on TwitterShare on LinkedIn0
Carlos Sánchez Cazorla

Carlos Sánchez Cazorla

Carlos Sánchez Cazorla es subdirector del Área de Ingeniería de Loyola Leadership School.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *