En la segunda parte de su conferencia en el evento Smart Travel News Inspire, celebrado en los Cines de Méndez Álvaro (Madrid) el pasado 6 de junio, Néstor Guerra, CEO de N Company, exploró el potencial de los modelos de inteligencia artificial de imagen a texto. Esta entrega es la segunda de una serie de cinco vídeos que publicaremos para desglosar las ideas innovadoras presentadas por Guerra.
Modelos de imagen a texto: una revolución en la comprensión visual
Guerra comenzó su exposición hablando sobre modelos que han sido utilizados con éxito en campos tan diversos como la oncología. Sin embargo, el foco de esta presentación fue el modelo GPT-4V (visión), que ha sorprendido al mundo con su capacidad de interpretar y describir imágenes con un nivel de detalle y contexto impresionante.
Para ilustrar este punto, Guerra mostró una foto de su familia en un paseo marítimo, y demostró cómo GPT-4V podía no solo describir la escena con precisión, sino también inferir emociones y contextos subyacentes. «Describe la foto con detalle», le pidió al modelo. La respuesta incluyó detalles sobre las personas en la imagen, sus expresiones faciales y hasta conjeturas sobre sus emociones, demostrando una comprensión profunda y matizada de la escena.
Inferencias y emociones: más allá de la simple descripción
Uno de los aspectos más sorprendentes de la demostración fue la capacidad del modelo para inferir que una de las personas en la foto, una joven, estaba incómoda o distraída. Guerra subrayó la importancia de esta capacidad, señalando que no solo se trata de reconocer objetos o personas, sino de entender el contexto emocional de una imagen.
«Lo brutal de esto es que todos tenéis acceso a esto», enfatizó Guerra, destacando que estas herramientas están disponibles para cualquiera desde el año pasado. «Imaginaros las aplicaciones que puede tener esto en vuestro sector, pueden ser incalculables», añadió, sugiriendo usos potenciales en turismo, marketing, y otros campos donde la comprensión del contexto visual y emocional puede aportar un valor significativo.
Preparados para el futuro: la evolución constante de la IA
Guerra también advirtió a la audiencia que se prepararan para nuevas actualizaciones de estos modelos, anticipando que un nuevo modelo estaría disponible en octubre. La rápida evolución de estas tecnologías implica que las capacidades que hoy nos sorprenden pronto serán superadas por nuevas funcionalidades aún más avanzadas.
En esta segunda parte de su conferencia, Néstor Guerra demostró cómo los modelos de imagen a texto están revolucionando la manera en que entendemos y utilizamos las imágenes. Desde la capacidad de describir detalles precisos hasta la inferencia de emociones y contextos, estas herramientas ofrecen un potencial enorme para diversas industrias. La serie de vídeos continuará explorando estas innovaciones, proporcionando a los profesionales del turismo y otros sectores las herramientas necesarias para aprovechar al máximo la inteligencia artificial.
Estad atentos a las próximas entregas, donde Guerra seguirá desglosando los modelos y herramientas de IA que prometen transformar nuestras formas de trabajar y comunicarnos.