La empresa OpenAI sigue destacando en la carrera de inteligencia artificial. Recientemente, anunció el lanzamiento de GPT-4o, su nuevo modelo insignia que puede razonar a través de audio, visión y texto en tiempo real. Lo mejor: se integrará gratis a ChatGPT, primero con texto e imagen; y posteriormente con voz y video para sus usuarios Premium.
OpenAI anunció que GPT-4o representa “un paso hacia una interacción persona-computadora mucho más natural”. Este modelo de lenguaje permite que la instrucción (o aviso) sea una combinación de texto, audio e imagen y genera, de igual manera, texto, audio e imagen.
¿Cuáles son sus mejoras con respecto a GPT-4? Puede responder a entradas de audio en tan solo 232 milisegundos, con un promedio de 320 milisegundos, que es similar al tiempo de respuesta humano en una conversación.
Say hello to GPT-4o, our new flagship model which can reason across audio, vision, and text in real time: https://t.co/MYHZB79UqN
— OpenAI (@OpenAI) May 13, 2024
Text and image input rolling out today in API and ChatGPT with voice and video in the coming weeks. pic.twitter.com/uuthKZyzYx
Antes de GPT-4o, los usuarios de ChatGPT podían usar el modo de voz con latencias de 2,8 segundos (GPT-3.5) y 5,4 segundos (GPT-4) en promedio.
Voice Mode integra tres modelos separados: un modelo simple transcribe audio a texto, GPT-3.5 o GPT-4 toma texto y genera texto, y un tercer modelo simple convierte ese texto nuevamente en audio. Este proceso significa que la principal fuente de inteligencia, GPT-4, pierde mucha información: no puede observar directamente el tono, varios parlantes o ruidos de fondo, y no puede emitir risas, cantar ni expresar emociones.
Esto es lo sorprende: con GPT-4o hay un único modelo nuevo en texto, visión y audio, lo que significa que todas las entradas y salidas son procesadas por la misma red neuronal. En el video, se escucha a GPT-4o riendo de la interacción con una persona.
“Todavía estamos apenas rascando la superficie para explorar lo que el modelo puede hacer y sus limitaciones”, señala OpenAI en un comunicado.
LEA TAMBIÉN: El 77% de empresas de retail y consumo apuestan por inteligencia artificial para impulsar su eficiencia
En cuanto a texto, el nuevo modelo de inteligencia artificial GPT-4o iguala el rendimiento de GPT-4 Turbo en texto en inglés y código, con una mejora significativa en texto en idiomas distintos del inglés, a la vez que es mucho más rápido y un 50 % más económico en la API. GPT-4o es especialmente mejor en cuanto a visión y comprensión de audio en comparación con los modelos existentes, según la compañía.
Por ejemplo, si hay una conversación con múltiples personas, el nuevo modelo de IA puede distinguir cada voz, además de transcribir lo que haya dicho cada persona con mejor precisión. En cuanto a elementos gráficos, el usuario podría darle dos fotografías a la herramienta de inteligencia artificial y esta crearía una única imagen con la combinación de texto y fotos enviada. A ello se suma la capacidad de crear gráficos en 2D, 3D u otro formato de acuerdo a instrucciones precisas que incluyan orden, texto, colores y más detalles.
Según la empresa, GPT-4o ha sido evaluado teniendo en cuenta la ciberseguridad y privacidad. También ha sido sometido a un equipo externo compuesto por 70 expertos en psicología social, equidad y otras especialidades.
Se puede enviar instrucciones en imágenes y texto para recibir ambos tipos de contenido. Esto permitirá encontrar potenciales riesgos durante su uso, que serán analizados por el equipo de desarrollo. Durante las próximas semanas y meses se incluirán entradas y salidas de otros formatos como audio y video. Inicialmente, algunos desarrolladores socios tendrán acceso.
“Las salidas de audio se limitarán a una selección de voces preestablecidas y cumplirán con nuestras políticas de seguridad existentes”, dijo OpenAI en un comunicado .
¿Cómo usar GPT-4o en ChatGPT?
GPT-4o se está implementando ChatGPT a nivel gratuito. Los usuarios Plus podrán tener límites de mensajes hasta cinco veces mayores. La nueva versión con soporte de audio en GPT-4o estará disponible en ChatGPT Plus en las próximas semanas.
Para habilitar GPT-4o en la plataforma deberás ingresar como invitado o con tu usuario a ChatGPT y luego elegirlo en el menú del modelo de IA (ubicado en la parte superior izquierda).
Los usuarios del nivel gratuito utilizarán GPT-4o de forma predeterminada con un límite en la cantidad de mensajes que pueden enviar usando GPT-4o, que variará según el uso y la demanda actual. Cuando no esté disponible, los usuarios del nivel gratuito volverán a GPT-3.5.
Los usuarios gratuitos también reciben acceso limitado a mensajes utilizando herramientas avanzadas, como: análisis de los datos, cargas de archivos, navegar, descubrir y utilizar GPT y funciones de visión.
GPT-4o tiene capacidades de visión avanzada, lo que aumenta la precisión en la comprensión de las imágenes que comparte. Si aún no ves disponible el nuevo modelo de inteligencia artificial, no te preocupes porque muy pronto estará visible para Perú y otros países.
A partir del 13 de mayo de 2024, los usuarios de Plus podrán enviar hasta 80 mensajes cada 3 horas en GPT-4o y hasta 40 mensajes cada 3 horas en GPT-4.