Logotipo horizontal de Diego C Martín colores invertidos, blanco y naranja para findo negro

“Un nuevo estudio encuentra que los modelos de IA mejoran en las matemáticas de la escuela primaria, pero genera preocupación por las trampas”

Categorías:  Autor: Diego C Martin 
img-1

1. Los modelos de lenguajes grandes (LLM, por sus siglas en inglés) como ChatGPT están obteniendo buenos resultados en las pruebas comparativas de matemáticas, pero esto puede deberse a la contaminación del conjunto de datos.
2. La contaminación de datos puede llevar a un sobreajuste, donde el LLM prioriza memorizar respuestas sobre comprender el problema.
3. Los investigadores desarrollaron una nueva prueba de referencia de matemáticas (GSM1k) para medir el sobreajuste y descubrieron que algunos LLM obtienen resultados sustancialmente peores en esta prueba en comparación con los puntos de referencia de la industria, lo que indica la necesidad de mejorar el razonamiento en los LLM.

Los modelos de lenguajes grandes (LLM), como ChatGPT, están mejorando en el razonamiento matemático, pero existe la preocupación de que la contaminación del conjunto de datos provoque calificaciones infladas. La contaminación del conjunto de datos ocurre cuando datos similares a las preguntas de referencia se filtran en los datos de entrenamiento, lo que hace que el modelo priorice la aprobación de pruebas sobre la comprensión real. Este problema, conocido como sobreajuste, puede distorsionar el rendimiento del modelo. Sin embargo, un nuevo artículo de investigación de Scale AI sugiere que el sobreajuste no significa necesariamente que la IA sea mala para razonar, solo que puede que no funcione tan bien como sugieren los puntos de referencia.

Para abordar este problema, los investigadores de Scale AI desarrollaron una nueva prueba de referencia matemática llamada GSM1k para evaluar la capacidad de los LLM para comprender problemas más allá de las pruebas estandarizadas. Esta prueba reveló caídas en la precisión de hasta un 13% en los LLM líderes cuando se los evaluó con acertijos matemáticos más desafiantes. Los autores predicen que las matemáticas en la escuela primaria pueden llegar a ser demasiado fáciles de comparar para los nuevos LLM para 2025, destacando la importancia de mejorar el razonamiento en estos modelos.

El científico investigador senior de NVIDIA, Jim Fan, enfatizó la importancia de evolucionar las evaluaciones de LLM para mantener la relevancia. Sugirió tres tipos de evaluaciones que serán importantes en el futuro: conjuntos de pruebas privados informados por terceros confiables, puntos de referencia comparativos públicos como Chatbot Arena y puntos de referencia seleccionados de forma privada para casos de uso específicos de empresas. Este cambio en los métodos de evaluación tiene como objetivo garantizar evaluaciones precisas de las capacidades de razonamiento de los LLM más allá de simples pruebas de referencia.

Enlace fuente

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Artículos de la misma categoría

crossmenu
linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram