
Después de un anuncio en 2023 y un retraso en su lanzamiento, el esperado modo avanzado de voz de ChatGPT ya es una realidad para un pequeño grupo de usuarios de ChatGPT Plus, los miembros de pago.
«El modo de voz avanzado ofrece conversaciones más naturales en tiempo real, permite interrumpir en cualquier momento y detecta y responde a las emociones», declaró OpenAI en sus redes sociales.
Las funciones adicionales anunciadas, como el envío de videos con instrucciones, se implementarán más adelante.
¿Cómo Saber si Fuiste Elegido para las Pruebas del Modo de Voz en ChatGPT?
Los usuarios de ChatGPT Plus recibirán una notificación por correo electrónico y un aviso en la aplicación móvil para activar el Modo de Voz. Inicialmente, el modo «alpha» estará disponible para un grupo limitado de usuarios.
«Continuaremos agregando más personas continuamente y planeamos que todos los miembros de Plus tengan acceso en otoño (estadounidense)», afirmó OpenAI.
La compañía enfatiza que está trabajando en mejorar la seguridad y la calidad de las conversaciones de voz.
«Hemos probado las capacidades de voz de GPT-4o con más de 100 equipos externos en 45 idiomas. Para proteger la privacidad, entrenamos el modelo para que solo hable con las cuatro voces preestablecidas y construimos sistemas para bloquear salidas no autorizadas. También implementamos medidas de seguridad para bloquear solicitudes de contenido violento o protegido por derechos de autor», agregó OpenAI.
A principios de agosto, se compartirán los resultados de las pruebas antes de extender el acceso a más usuarios.
Acceso al Modelo de Inteligencia Artificial
OpenAI anunció que GPT-4o (“o” de “omni”) representa «un paso hacia una interacción persona-computadora mucho más natural». Este modelo de lenguaje permite la combinación de texto, audio e imagen tanto en la entrada como en la salida.
Las mejoras respecto a GPT-4 son notables: puede responder a entradas de audio en solo 232 milisegundos, con un promedio de 320 milisegundos, similar al tiempo de respuesta humano en una conversación.
Antes de GPT-4o, los usuarios de ChatGPT podían usar el modo de voz con latencias de 2.8 segundos (GPT-3.5) y 5.4 segundos (GPT-4) en promedio.
Voice Mode integra tres modelos separados: uno para transcribir audio a texto, GPT-3.5 o GPT-4 para generar texto, y otro para convertir texto en audio nuevamente. Esto implica que GPT-4 pierde mucha información, como el tono, varios hablantes o ruidos de fondo, y no puede emitir risas, cantar ni expresar emociones.
Lo sorprendente de GPT-4o es que utiliza un único modelo nuevo en texto, visión y audio, lo que significa que todas las entradas y salidas son procesadas por la misma red neuronal.