Tras su anuncio en 2023, ChatGPT ha pospuesto la llegada de su esperado modo avanzado de voz, destinado a posibilitar “conversaciones” con el chatbot de inteligencia artificial. Actualmente, esta funcionalidad está disponibles para un reducido número de usuarios de ChatGPT Plus, es decir, aquellos que abonan su suscripción.
Pruebas del Modo Voz en ChatGPT
Las restantes características anunciadas, que incluyen el envío de videos con instrucciones en ChatGPT, se implementarán en una fase posterior. Para determinar si han sido seleccionados para las pruebas del Modo Voz en ChatGPT, los usuarios de ChatGPT Plus recibirán una notificación por correo electrónico para activar esta opción, además de un aviso a través de la aplicación móvil.
Es importante señalar que esta modalidad “alpha” está restringida a un grupo limitado de usuarios. La compañía ha manifestado su compromiso de mejorar la seguridad y la calidad de las interacciones de voz.
“Probamos las capacidades de voz de GPT-4o con más de 100 equipos externos en 45 idiomas. Para proteger la privacidad de las personas, hemos entrenado el modelo para que solo hable con las cuatro voces preestablecidas y construimos sistemas para bloquear las salidas que difieran de esas voces. También implementamos medidas de seguridad para bloquear solicitudes de contenido violento o protegido por derechos de autor”, agregó OpenAI.
LEE TAMBIÉN: Apple lanza su propia inteligencia artificial y se alía con OpenAI para integrar ChatGPT
Asimismo, en los primeros días de agosto se prevé compartir los resultados de las pruebas antes de la expansión de la misma a un número mayor de usuarios. En relación a cómo acceder al modelo de inteligencia artificial, OpenAI ha informado que GPT-4o (el “o” hace referencia a “omni”) representa “un avance hacia una interacción persona-computadora significativamente más natural”.
¿Cómo acceder a su modelo de inteligencia artificial?
Este modelo de lenguaje permite que las instrucciones sean una combinación de texto, audio e imagen, generando igualmente texto, audio e imagen. Las mejoras que presenta respecto a GPT-4 incluyen un tiempo de respuesta a entradas de audio de tan solo 232 milisegundos, y un promedio de 320 milisegundos, comparable al tiempo de respuesta humano en una conversación.
Previamente, los usuarios de ChatGPT experimentaban latencias de 2,8 segundos (GPT-3.5) y 5,4 segundos (GPT-4) en promedio al utilizar el modo de voz. El Modo Voz integra tres modelos distintos: un modelo que se encarga de transcribir audio a texto, GPT-3.5 o GPT-4 que procesa texto y genera texto, y un tercer modelo que convierte ese texto nuevamente en audio.
Este esquema implica que la fuente principal de inteligencia, GPT-4, pierde una considerable cantidad de información, ya que no es capaz de percibir directamente el tono de voz, la multiplicidad de oradores o el ruido de fondo, además de no poder emitir risas, cantar ni expresar emociones.
Una de las innovaciones destacables es que, con GPT-4o, se cuenta con un único modelo que integra texto, visión y audio, lo que significa que todas las entradas y salidas son procesadas por la misma red neuronal.