gpt-4o

OpenAI ha lanzado su nuevo modelo insignia, GPT-4o, que integra de manera fluida entradas y salidas de texto, audio e imagen, prometiendo mejorar la naturalidad de las interacciones con las máquinas. GPT-4o, donde la «o» significa «omni», está diseñado para abarcar un espectro más amplio de modalidades de entrada y salida. «Acepta como entrada cualquier combinación de texto, audio e imagen y genera cualquier combinación de salidas de texto, audio e imagen», anunció OpenAI.

Los usuarios pueden esperar un tiempo de respuesta tan rápido como 232 milisegundos, imitando la velocidad conversacional humana, con un impresionante tiempo de respuesta promedio de 320 milisegundos.

Funciones Innovadoras

La introducción de GPT-4o marca un salto desde sus predecesores al procesar todas las entradas y salidas a través de una única red neuronal. Este enfoque permite que el modelo retenga información y contexto críticos que anteriormente se perdían en la línea de modelos separados utilizada en versiones anteriores.

Antes de GPT-4o, el ‘Modo de Voz’ podía manejar interacciones de audio con latencias de 2.8 segundos para GPT-3.5 y 5.4 segundos para GPT-4.

La configuración anterior involucraba tres modelos distintos: uno para transcribir audio a texto, otro para respuestas textuales y un tercero para convertir texto de nuevo a audio. Esta segmentación llevaba a la pérdida de matices como tono, múltiples hablantes y ruido de fondo.

Como una solución integrada, GPT-4o cuenta con notables mejoras en la comprensión visual y de audio. Puede realizar tareas más complejas como armonizar canciones, proporcionar traducciones en tiempo real e incluso generar salidas con elementos expresivos como risas y canto. Ejemplos de sus amplias capacidades incluyen la preparación para entrevistas, traducciones de idiomas al vuelo y la generación de respuestas de servicio al cliente.

Nathaniel Whittemore, Fundador y CEO de Superintelligent, comentó: “Los anuncios de productos van a ser inherentemente más divisivos que los anuncios de tecnología porque es más difícil saber si un producto va a ser verdaderamente diferente hasta que realmente interactúas con él. Y especialmente cuando se trata de un modo diferente de interacción humano-computadora, hay aún más espacio para creencias diversas sobre cuán útil va a ser.

“Dicho esto, el hecho de que no se haya anunciado un GPT-4.5 o GPT-5 también está distrayendo a la gente del avance tecnológico de que este es un modelo multimodal nativo. No es un modelo de texto con una adición de voz o imagen; es un token multimodal de entrada, token multimodal de salida. Esto abre un enorme abanico de casos de uso que van a tardar algún tiempo en filtrarse en la conciencia.”

Rendimiento y seguridad

GPT-4o iguala los niveles de rendimiento de GPT-4 Turbo en tareas de texto en inglés y codificación, pero sobresale significativamente en idiomas no ingleses, convirtiéndose en un modelo más inclusivo y versátil. Establece un nuevo referente en razonamiento con una alta puntuación del 88.7% en 0-shot COT MMLU (preguntas de conocimiento general) y 87.2% en 5-shot no-CoT MMLU.

OpenAI ha incorporado robustas medidas de seguridad en GPT-4o por diseño, incluyendo técnicas para filtrar datos de entrenamiento y refinando el comportamiento a través de salvaguardas post-entrenamiento. El modelo ha sido evaluado a través de un Marco de Preparación y cumple con los compromisos voluntarios de OpenAI. Las evaluaciones en áreas como ciberseguridad, persuasión y autonomía del modelo indican que GPT-4o no supera un nivel de riesgo ‘Medio’ en ninguna categoría.

Otras evaluaciones de seguridad involucraron pruebas exhaustivas con más de 70 expertos en varios dominios, incluyendo psicología social, sesgo, equidad y desinformación. Este escrutinio exhaustivo tiene como objetivo mitigar los riesgos introducidos por las nuevas modalidades de GPT-4o.

Disponibilidad e integración futura

A partir de hoy, las capacidades de texto e imagen de GPT-4o están disponibles en ChatGPT, incluyendo un nivel gratuito y características extendidas para usuarios Plus.

Un nuevo Modo de Voz impulsado por GPT-4o entrará en pruebas alfa dentro de ChatGPT Plus en las próximas semanas. Los desarrolladores pueden acceder a GPT-4o a través de la API para tareas de texto y visión, beneficiándose de su velocidad duplicada, precio reducido a la mitad y límites de tasa mejorados en comparación con GPT-4 Turbo.

OpenAI planea expandir las funcionalidades de audio y video de GPT-4o a un grupo selecto de socios de confianza a través de la API, con un despliegue más amplio esperado en un futuro próximo. Esta estrategia de lanzamiento gradual tiene como objetivo garantizar pruebas exhaustivas de seguridad y usabilidad antes de poner a disposición del público toda la gama de capacidades.

“Es enormemente significativo que hayan hecho este modelo disponible de forma gratuita para todos, además de hacer que la API sea un 50% más barata. Eso es un aumento masivo en la accesibilidad”, explicó Whittemore. OpenAI invita a la retroalimentación de la comunidad para refinar continuamente GPT-4o, enfatizando la importancia de la opinión de los usuarios para identificar y cerrar brechas donde GPT-4 Turbo aún podría superar.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *