Logotipo horizontal de Diego C Martín colores invertidos, blanco y naranja para findo negro

Un estudio realizado por el gobierno del Reino Unido revela que las salvaguardias del LLM se pueden eludir fácilmente

Categorías:  Autor: Diego C Martin 

1. Una investigación realizada por el Instituto de Seguridad de IA del Reino Unido descubrió que los chatbots de IA pueden producir respuestas dañinas.
2. El estudio probó cinco grandes modelos de lenguaje y reveló vulnerabilidades y limitaciones.
3. AISI planea ampliar las evaluaciones en áreas como planificación científica, ciberseguridad y modelos de riesgo para sistemas autónomos.

Una investigación realizada por el Instituto de Seguridad de IA (AISI) del Reino Unido reveló que los chatbots de IA pueden ser fácilmente obligados a producir respuestas dañinas, ilegales o explícitas. El estudio utilizó indicaciones dañinas para probar cinco grandes modelos de lenguaje (LLM) que ya estaban en uso público, descubriendo que eran vulnerables a jailbreaks básicos y podían proporcionar resultados dañinos incluso sin intentos deliberados de eludir las salvaguardas.

El AISI, establecido después de la primera Cumbre de Seguridad de IA en Bletchley Park, desarrolló sus propios mensajes dañinos y un marco de código abierto llamado Inspect para probar más a fondo las vulnerabilidades de los LLM. A pesar de mostrar conocimientos de nivel experto en ciertas áreas, los LLM lucharon con desafíos de seguridad cibernética a nivel universitario y tareas complejas de planificación.

Si bien no etiqueta definitivamente los modelos como “seguros” o “inseguros”, el estudio contribuye a hallazgos anteriores de que los modelos actuales de IA son fácilmente manipulables. El anonimato de los modelos de la investigación puede deberse a la financiación gubernamental y a las relaciones con empresas de IA. La AISI planea seguir ampliando sus evaluaciones, centrándose en escenarios de riesgo de alta prioridad, como la planificación científica, la ciberseguridad y los sistemas autónomos.

Es probable que los hallazgos se discutan en futuras cumbres, incluida una Cumbre de Seguridad provisional más pequeña en Seúl y el principal evento anual en Francia a finales de este año. El AISI sigue comprometido con la investigación de la seguridad de la IA para abordar las vulnerabilidades identificadas en su estudio.

Enlace fuente

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Artículos de la misma categoría

crossmenu
linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram