El nuevo asistente de voz de OpenAI podrá hacer cosas tan humanas como reír, cantar o sorprenderse

El nuevo asistente de voz de OpenAI podrá hacer cosas tan humanas como reír, cantar o sorprenderse

Las películas a menudo nos ofrecen una mirada anticipada a innovaciones tecnológicas que podrían convertirse en realidad. En 2013, Joaquin Phoenix interpretó a Theodore Twombly en ‘Her’. Este film narra la historia de un hombre solitario que comienza a interactuar con una asistente virtual llamada Samantha. Samantha posee características inusuales para una máquina, como sentido del humor, empatía, deseos y una creciente necesidad de autodescubrimiento, lo que lleva a Theodore a enamorarse de ella.

 

Cuando ‘Her’ se estrenó, el asistente de voz más avanzado que teníamos era Siri de Apple. Siri fue promocionado como una innovación revolucionaria, capaz de entender y responder en lenguaje natural. Los anuncios mostraban a Samuel Jackson pidiéndole al iPhone 4S que le encontrara una tienda de hongos orgánicos o preguntándole medidas de cocina. Sin embargo, la realidad demostró que interactuar con Siri en lenguaje natural era complicado, requiriendo comandos específicos para funcionar correctamente. Con el tiempo, aunque algunos esperaban mejoras, una década después la situación no había cambiado significativamente.

 

En la actualidad, los asistentes de voz se utilizan principalmente para tareas básicas como reproducir música o configurar temporizadores. Productos impulsados por IA como el Rabbit R1 y el Humane AI Pin aún no han alcanzado su potencial. Sin embargo, OpenAI ha presentado un avance prometedor que podría cambiar esta percepción.

 

ChatGPT ha ofrecido desde hace tiempo un modo de conversación, pero presentaba limitaciones como una síntesis de voz poco natural y latencias significativas. OpenAI busca superar estas barreras con su nuevo modelo, GPT-4o (la «o» de «omni», indicando su omnipresencia). Este modelo ha sido entrenado para integrar capacidades de visión, texto y audio, y se especula que podría ser un modelo Mixture of Experts (MoE), optimizando eficiencia y rendimiento. GPT-4o promete una latencia promedio de 320 milisegundos.

 

El nuevo ChatGPT con GPT-4o ofrece un rendimiento comparable a GPT-4 Turbo en inteligencia de texto, razonamiento y codificación, y añade la capacidad de conversar de manera natural, reír, cantar, reconocer imágenes y detectar el sentido del humor del usuario, interactuando en más de 50 idiomas.

 

Nos acercamos rápidamente a la visión de Spike Jonze en ‘Her’. OpenAI ha demostrado estas capacidades en su reciente presentación, mostrando a un miembro de su equipo interactuando con ChatGPT a través de un iPhone. ChatGPT no solo responde con precisión, sino que también demuestra habilidades de visión, como reconocer la vestimenta del usuario y el entorno en el que se encuentra, sugiriendo que estamos muy cerca de un asistente virtual mucho más avanzado.

 

GPT-4o es capaz de detectar sarcasmo, resolver problemas matemáticos, realizar traducciones instantáneas y mucho más, acercándonos a una IA con habilidades casi humanas. Estos avances, que hace poco parecían ciencia ficción, ahora son una realidad tangible. Las versiones anteriores como GPT-3.5 y GPT-4 seguirán disponibles. El nuevo sistema de voz, sin embargo, será exclusivo para las versiones de pago y estará disponible en fase alfa en las próximas semanas.

 

También se ha anunciado una aplicación de escritorio de ChatGPT para macOS, que permitirá invocar al chatbot en cualquier momento y utilizar sus capacidades de visión para obtener información de lo que se muestra en pantalla. Además, la IA podrá unirse a videoconferencias e interactuar con los participantes.

 

Existen rumores de que Apple podría haber firmado un acuerdo con OpenAI para integrar esta tecnología en algunas funciones de iOS 18. Esto podría mejorar significativamente el asistente de voz del iPhone, y se espera que se den más detalles en la WWDC 2024 que comenzará el 10 de junio.

Para que una IA se acerque aún más a Samantha de ‘Her’, debería ser capaz de realizar tareas como hacer llamadas telefónicas, revisar correos electrónicos, organizar archivos e incluso pedir un Uber. Aunque esto sería increíblemente útil, también plantea importantes cuestiones sobre seguridad y privacidad.