Usuarios de ChatGPT Estrenan Modo Avanzado de Voz con IA

Después de un anuncio en 2023 y un retraso en su lanzamiento, el esperado modo avanzado de voz de ChatGPT ya es una realidad para un pequeño grupo de usuarios de ChatGPT Plus, los miembros de pago.

«El modo de voz avanzado ofrece conversaciones más naturales en tiempo real, permite interrumpir en cualquier momento y detecta y responde a las emociones», declaró OpenAI en sus redes sociales.

Las funciones adicionales anunciadas, como el envío de videos con instrucciones, se implementarán más adelante.

¿Cómo Saber si Fuiste Elegido para las Pruebas del Modo de Voz en ChatGPT?

Los usuarios de ChatGPT Plus recibirán una notificación por correo electrónico y un aviso en la aplicación móvil para activar el Modo de Voz. Inicialmente, el modo «alpha» estará disponible para un grupo limitado de usuarios.

«Continuaremos agregando más personas continuamente y planeamos que todos los miembros de Plus tengan acceso en otoño (estadounidense)», afirmó OpenAI.

La compañía enfatiza que está trabajando en mejorar la seguridad y la calidad de las conversaciones de voz.

«Hemos probado las capacidades de voz de GPT-4o con más de 100 equipos externos en 45 idiomas. Para proteger la privacidad, entrenamos el modelo para que solo hable con las cuatro voces preestablecidas y construimos sistemas para bloquear salidas no autorizadas. También implementamos medidas de seguridad para bloquear solicitudes de contenido violento o protegido por derechos de autor», agregó OpenAI.

A principios de agosto, se compartirán los resultados de las pruebas antes de extender el acceso a más usuarios.

Acceso al Modelo de Inteligencia Artificial

OpenAI anunció que GPT-4o (“o” de “omni”) representa «un paso hacia una interacción persona-computadora mucho más natural». Este modelo de lenguaje permite la combinación de texto, audio e imagen tanto en la entrada como en la salida.

Las mejoras respecto a GPT-4 son notables: puede responder a entradas de audio en solo 232 milisegundos, con un promedio de 320 milisegundos, similar al tiempo de respuesta humano en una conversación.

Antes de GPT-4o, los usuarios de ChatGPT podían usar el modo de voz con latencias de 2.8 segundos (GPT-3.5) y 5.4 segundos (GPT-4) en promedio.

Voice Mode integra tres modelos separados: uno para transcribir audio a texto, GPT-3.5 o GPT-4 para generar texto, y otro para convertir texto en audio nuevamente. Esto implica que GPT-4 pierde mucha información, como el tono, varios hablantes o ruidos de fondo, y no puede emitir risas, cantar ni expresar emociones.

Lo sorprendente de GPT-4o es que utiliza un único modelo nuevo en texto, visión y audio, lo que significa que todas las entradas y salidas son procesadas por la misma red neuronal.

Usuarios de ChatGPT Estrenan Modo Avanzado de Voz con IA

EDICIÓN DIGITAL

Últimas noticias

04.11.2025

Joven de 24 años desaparecido hace dos años y medio, es encontrado por su madre en un fosa común

Solo 18 municipalidades de Huánuco tienen planes para enfrentar emergencias y desastres

A menos de dos meses de acabar el 2025, el Gorehco alcanza 54% de gasto en inversiones

Gobierno Regional de Huánuco entrega cámaras del sistema de vigilancia a Pillco Marca