Informe: La inteligencia artificial está superando las capacidades humanas, lo que genera la necesidad de puntos de referencia actualizados.

Categorías: IA Autor: Diego C Martin

– La Universidad de Stanford publicó el Informe del índice de IA 2024, señalando que los avances en la IA hacen que las comparaciones de referencia humanas sean menos relevantes.
– Los puntos de referencia de la industria como MMLU comparan los modelos de IA con el desempeño humano, pero los modelos superan las líneas de base humanas.
– Los investigadores están desarrollando puntos de referencia más desafiantes como GPQA para evaluar modelos de IA frente a personas realmente inteligentes e incorporando evaluaciones humanas en los puntos de referencia en lugar de clasificaciones computarizadas.

El Informe del índice de IA 2024 de la Universidad de Stanford destaca el rápido avance de la IA, lo que hace que las comparaciones con los humanos sean cada vez más irrelevantes. Los puntos de referencia de la industria como el MMLU, que evalúa los LLM en diversos temas, han demostrado que los modelos de IA superan las bases humanas en cuanto a rendimiento. El informe sugiere la necesidad de puntos de referencia nuevos y más desafiantes a medida que los modelos de IA alcanzan la saturación en puntos de referencia establecidos como ImageNet y SuperGLUE.

Un ejemplo de un punto de referencia desafiante es el GPQA, que consiste en preguntas de opción múltiple a nivel de posgrado que incluso los no expertos altamente capacitados luchan por responder con precisión. Los modelos de IA se están probando con personas realmente inteligentes en lugar de con la inteligencia humana promedio. El informe también señala que medir la seguridad de la IA sigue siendo un desafío debido a la falta de transparencia entre los desarrolladores con respecto a los datos y metodologías de capacitación.

La tendencia en la industria es recurrir a evaluaciones humanas del desempeño de la IA en lugar de depender únicamente de pruebas comparativas. Este cambio hacia evaluaciones humanas, como Chatbot Arena Leaderboard, tiene como objetivo incorporar sentimientos y preferencias en la selección de modelos. A medida que los modelos de IA sigan superando a los humanos y se vuelvan cada vez más difíciles de medir, es posible que en el futuro las decisiones se basen más en preferencias personales que en puntos de referencia estandarizados.

Enlace fuente

Deja una respuesta Cancelar la respuesta

Artículos de la misma categoría

Garry Tan de Y Combinator aboga por la regulación de la IA y advierte contra los monopolios en la industria

¿Para qué se pueden utilizar las descripciones generales de IA de Google?

Miriam Vogel destaca la importancia de la IA ética para las mujeres en el campo

Google Partner

Diego C Martín. 2022

Legal