– OpenAI lanza GPT-4o, un modelo multimodal que integra entradas y salidas de texto, audio y visuales.
– GPT-4o procesa todas las entradas y salidas a través de una única red neuronal, mejorando la retención del contexto
– GPT-4o ofrece un rendimiento mejorado en texto en inglés, idiomas distintos del inglés, audio y tareas de traducción con sólidas medidas de seguridad y planes de integración futuros.
OpenAI ha presentado GPT-4o, un nuevo modelo insignia que integra entradas y salidas de texto, audio y visuales para mejorar las interacciones de las máquinas. Este modelo, conocido como “omni”, puede manejar una amplia gama de modalidades de entrada y salida con tiempos de respuesta rápidos que reflejan la velocidad de conversación humana.
GPT-4o procesa todas las entradas y salidas a través de una única red neuronal, reteniendo información crítica y contexto perdido en modelos anteriores. Este enfoque integrado mejora la visión y la comprensión del audio, permitiendo tareas como armonizar canciones, proporcionar traducciones y generar resultados expresivos.
El modelo destaca en tareas de codificación y texto en inglés, así como en idiomas distintos del inglés, estableciendo nuevos puntos de referencia en capacidades de razonamiento, audio y traducción. OpenAI ha implementado sólidas medidas de seguridad para filtrar los datos de entrenamiento y garantizar que el comportamiento del modelo se alinee con sus compromisos voluntarios.
GPT-4o está disponible para tareas de texto e imágenes en ChatGPT, con un modo de voz en prueba alfa. Los desarrolladores pueden acceder al modelo a través de la API para tareas de texto y visión, con planes de expandir sus funcionalidades de audio y video a socios confiables en el futuro.
OpenAI fomenta los comentarios de la comunidad para ajustar GPT-4o y enfatiza la importancia de las aportaciones de los usuarios para perfeccionar el rendimiento del modelo. La compañía tiene como objetivo hacer que el modelo sea más accesible mediante costos más bajos y estrategias de lanzamiento gradual para garantizar la seguridad y la usabilidad.