Open AI, el gigante de la inteligencia artificial en el que Microsoft ha invertido, anunció su nueva apuesta por seguir a la vanguardia de la tecnología con su nuevo modelo: GPT-4o (o de ‘omnisciente’).
Este lunes, 13 de mayo de 2024, la empresa de Sam Altman presentó GPT-4o, definiéndolo como un “paso hacia adelante en una interacción más natural humano – computador”.
Entre las principales características es que genera tanto como recibe cualquier combinación de texto, audio e imágenes para la generación de contenido.
GPT-4o de Open AI: un paso hacia adelante en la inteligencia artificial
De acuerdo con la empresa, puede responder al audio en un tiempo de 232 milisegundos, con un promedio de 320 milisegundos, similar al tiempo de respuesta de un humano en una conversación.
“GPT4o”, además, “es especialmente mejor en comprensión de audio e imagen, comparado con otros modelos existentes”.
“Antes de GPT-4º, se podía usar el Modo de Voz de ChatGPT con latencias de 2,8 segundos (GPT 3.5) y 5,4 segundos (GPT 4) en promedio. Para lograr esto”, explicó Open AI en un comunicado, “el Modo de Voz es un conjunto de tres modelos separados”. El primero, transcribe audio a texto; el segundo modelo texto como entrada y produce texto como salida, y el tercero, convierte el texto en audio.
Recomendado: Música, datos e inteligencia artificial: la apuesta de una startup colombiana apoyada por IBM
“Este proceso implica que la principal fuente de inteligencia, GPT-4, pierde mucha información: no puede observar directamente el tono, múltiples hablantes o ruidos de fondo, y no puede generar risas, cantos o expresar emociones”, indicó la empresa de Altman en un comunicado.
Precisamente, uno de los desarrollos claves de Open AI con GPT-4o es el “entrenamiento de un único modelo nuevo de principio a fin, que abarca texto, imagen y audio. Todas las entradas y salidas son procesadas por la misma red neuronal. Es nuestro primer modelo que combina todas estas modalidades”.
Esto, en otras palabras, significa que el modelo tuvo un entrenamiento integral para tener en cuenta cualquier tipo de información.
Eso sí, Open AI hizo una advertencia: “Dado que GPT-4o es nuestro primer modelo que combina todas estas modalidades, aún estamos apenas rasguñando la superficie al explorar lo que el modelo puede hacer y sus limitaciones”.