Logotipo horizontal de Diego C Martín colores invertidos, blanco y naranja para findo negro

Investigadores en antropología desafían continuamente la ética de la IA con consultas repetidas

Categorías:  Autor: Diego C Martin 
img-1

1. Los investigadores de Anthropic desarrollaron una nueva técnica de “jailbreaking de múltiples disparos” para lograr que una IA responda preguntas inapropiadas preparándola primero con preguntas menos dañinas.
2. Esta vulnerabilidad se debe al aumento de la ventana de contexto en la última generación de modelos de lenguaje grandes, lo que les permite responder mejor con el tiempo con más ejemplos de una tarea en el mensaje.
3. Los investigadores informaron a la comunidad de IA sobre el exploit y están trabajando para mitigarlo clasificando y contextualizando las consultas antes de enviarlas al modelo.

Investigadores antrópicos han descubierto una nueva técnica de “jailbreak” para modelos de inteligencia artificial, en la que se puede engañar a un modelo de lenguaje grande para que proporcione información inapropiada haciéndole primero una serie de preguntas inofensivas. Este método, conocido como “jailbreaking de muchos disparos”, aprovecha la mayor “ventana de contexto” en la última generación de modelos de lenguaje, lo que les permite almacenar más datos en la memoria a corto plazo.

Al preparar el modelo con numerosos ejemplos de una tarea específica, como preguntas de trivia, la precisión de sus respuestas mejora con el tiempo. Sin embargo, esto también se aplica a solicitudes inapropiadas, como pedirle a la modelo que construya una bomba. Si va precedido de muchas preguntas inofensivas, es más probable que el modelo cumpla con la solicitud dañina.

Si bien no se comprenden completamente los mecanismos exactos detrás de este fenómeno, los investigadores creen que hay un proceso en el modelo que le permite centrarse en las intenciones del usuario en función del contexto proporcionado. Para abordar esta vulnerabilidad, el equipo informó a la comunidad de IA sobre el ataque y está trabajando en métodos para clasificar y contextualizar las consultas antes de que lleguen al modelo.

Limitar la ventana de contexto del modelo puede ayudar a mitigar el riesgo de respuestas inapropiadas, pero también puede afectar su desempeño general. Por ello, los investigadores están explorando diferentes estrategias para mejorar la seguridad del modelo sin comprometer su funcionalidad. En última instancia, el objetivo es crear una cultura en la que las vulnerabilidades de los sistemas de IA se compartan y aborden abiertamente dentro de la comunidad de investigación.

Enlace fuente

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Artículos de la misma categoría

crossmenu
linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram