El “modo Her” de ChatGPT es una función avanzada de voz que permite a la inteligencia artificial (IA) interacciones más naturales y fluidas entre los usuarios y el modelo de lenguaje desarrollado por OpenAI. Inspirado en la película “Her” de 2013, donde un hombre desarrolla una relación con una inteligencia artificial de voz femenina, este modo busca replicar una experiencia conversacional similar, facilitando una comunicación más humana y emocionalmente resonante.
La idea de un asistente de inteligencia artificial con capacidades de voz avanzadas ha sido un objetivo en la comunidad tecnológica durante años. OpenAI presentó por primera vez su modo de voz avanzado en el evento de lanzamiento de GPT-4o, demostrando mejoras significativas en la capacidad del modelo para manejar interrupciones y ajustar respuestas dinámicamente.

Inteligencia artificial: cómo surgió el modo de voz “Her”
Aunque su lanzamiento se planeó inicialmente para finales de junio de 2024, se retrasó para implementar mejoras de seguridad, incluyendo la refinación de la capacidad del modelo para detectar y rechazar contenido inapropiado.
El modo de voz avanzado de ChatGPT está impulsado por un nuevo modelo de texto a voz capaz de generar audio con calidad humana a partir de texto y unos pocos segundos de muestra de voz.
- Te podría interesar: OpenAI inicia una investigación para poder extender la vida humana con inteligencia artificial
OpenAI colaboró con actores de voz profesionales para crear cada una de las voces disponibles, asegurando una experiencia auditiva natural y agradable. Además, se utiliza Whisper, el sistema de reconocimiento de voz de código abierto de OpenAI, para transcribir las palabras habladas por el usuario en texto, permitiendo una interacción bidireccional fluida.

Los beneficios y controversias de esta nueva función en ChatGPT
El objetivo principal del modo “Her” es hacer que las interacciones con ChatGPT sean más naturales y accesibles, especialmente para aquellos que prefieren la comunicación verbal o tienen limitaciones que dificultan la escritura.
Al permitir conversaciones en tiempo real, los usuarios pueden experimentar una sensación de conexión más profunda con la inteligencia artificial, lo que puede mejorar la eficacia en tareas como el aprendizaje de nuevos idiomas, la obtención de información o simplemente mantener una conversación.
- Te podría interesar: WormGPT: la versión maligna de ChatGPT que genera ciberdelincuencia
Además, la capacidad del modelo para manejar interrupciones y ajustar sus respuestas dinámicamente permite una experiencia más interactiva y realista. Por ejemplo, los usuarios pueden interrumpir al modelo en cualquier momento, y este ajustará su respuesta en consecuencia, similar a una conversación humana.

A pesar de los beneficios, OpenAI reconoció los riesgos asociados con interacciones de voz altamente realistas. Existe la preocupación de que los usuarios puedan desarrollar una dependencia emocional hacia la inteligencia artificial, lo que podría afectar las interacciones humanas y las normas sociales.
Para mitigar estos riesgos, OpenAI limitó las opciones de voz a cuatro voces preestablecidas creadas con actores de voz, evitando la posibilidad de suplantación de identidad. Además, se han realizado pruebas exhaustivas para identificar y abordar posibles debilidades en el sistema, asegurando que el modelo pueda detectar y rechazar contenido inapropiado.