Logotipo horizontal de Diego C Martín colores invertidos, blanco y naranja para findo negro

Informe: La inteligencia artificial está superando las capacidades humanas, lo que genera la necesidad de puntos de referencia actualizados.

Categorías:  Autor: Diego C Martin 
img-1

– La Universidad de Stanford publicó el Informe del índice de IA 2024, señalando que los avances en la IA hacen que las comparaciones de referencia humanas sean menos relevantes.
– Los puntos de referencia de la industria como MMLU comparan los modelos de IA con el desempeño humano, pero los modelos superan las líneas de base humanas.
– Los investigadores están desarrollando puntos de referencia más desafiantes como GPQA para evaluar modelos de IA frente a personas realmente inteligentes e incorporando evaluaciones humanas en los puntos de referencia en lugar de clasificaciones computarizadas.

El Informe del índice de IA 2024 de la Universidad de Stanford destaca el rápido avance de la IA, lo que hace que las comparaciones con los humanos sean cada vez más irrelevantes. Los puntos de referencia de la industria como el MMLU, que evalúa los LLM en diversos temas, han demostrado que los modelos de IA superan las bases humanas en cuanto a rendimiento. El informe sugiere la necesidad de puntos de referencia nuevos y más desafiantes a medida que los modelos de IA alcanzan la saturación en puntos de referencia establecidos como ImageNet y SuperGLUE.

Un ejemplo de un punto de referencia desafiante es el GPQA, que consiste en preguntas de opción múltiple a nivel de posgrado que incluso los no expertos altamente capacitados luchan por responder con precisión. Los modelos de IA se están probando con personas realmente inteligentes en lugar de con la inteligencia humana promedio. El informe también señala que medir la seguridad de la IA sigue siendo un desafío debido a la falta de transparencia entre los desarrolladores con respecto a los datos y metodologías de capacitación.

La tendencia en la industria es recurrir a evaluaciones humanas del desempeño de la IA en lugar de depender únicamente de pruebas comparativas. Este cambio hacia evaluaciones humanas, como Chatbot Arena Leaderboard, tiene como objetivo incorporar sentimientos y preferencias en la selección de modelos. A medida que los modelos de IA sigan superando a los humanos y se vuelvan cada vez más difíciles de medir, es posible que en el futuro las decisiones se basen más en preferencias personales que en puntos de referencia estandarizados.

Enlace fuente

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Artículos de la misma categoría

crossmenu
linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram