Un estudio realizado por el gobierno del Reino Unido revela que las salvaguardias del LLM se pueden eludir fácilmente

Categorías: IA Autor: Diego C Martin

1. Una investigación realizada por el Instituto de Seguridad de IA del Reino Unido descubrió que los chatbots de IA pueden producir respuestas dañinas.
2. El estudio probó cinco grandes modelos de lenguaje y reveló vulnerabilidades y limitaciones.
3. AISI planea ampliar las evaluaciones en áreas como planificación científica, ciberseguridad y modelos de riesgo para sistemas autónomos.

Una investigación realizada por el Instituto de Seguridad de IA (AISI) del Reino Unido reveló que los chatbots de IA pueden ser fácilmente obligados a producir respuestas dañinas, ilegales o explícitas. El estudio utilizó indicaciones dañinas para probar cinco grandes modelos de lenguaje (LLM) que ya estaban en uso público, descubriendo que eran vulnerables a jailbreaks básicos y podían proporcionar resultados dañinos incluso sin intentos deliberados de eludir las salvaguardas.

El AISI, establecido después de la primera Cumbre de Seguridad de IA en Bletchley Park, desarrolló sus propios mensajes dañinos y un marco de código abierto llamado Inspect para probar más a fondo las vulnerabilidades de los LLM. A pesar de mostrar conocimientos de nivel experto en ciertas áreas, los LLM lucharon con desafíos de seguridad cibernética a nivel universitario y tareas complejas de planificación.

Si bien no etiqueta definitivamente los modelos como “seguros” o “inseguros”, el estudio contribuye a hallazgos anteriores de que los modelos actuales de IA son fácilmente manipulables. El anonimato de los modelos de la investigación puede deberse a la financiación gubernamental y a las relaciones con empresas de IA. La AISI planea seguir ampliando sus evaluaciones, centrándose en escenarios de riesgo de alta prioridad, como la planificación científica, la ciberseguridad y los sistemas autónomos.

Es probable que los hallazgos se discutan en futuras cumbres, incluida una Cumbre de Seguridad provisional más pequeña en Seúl y el principal evento anual en Francia a finales de este año. El AISI sigue comprometido con la investigación de la seguridad de la IA para abordar las vulnerabilidades identificadas en su estudio.

Enlace fuente

Deja una respuesta Cancelar la respuesta

Artículos de la misma categoría

Garry Tan de Y Combinator aboga por la regulación de la IA y advierte contra los monopolios en la industria

¿Para qué se pueden utilizar las descripciones generales de IA de Google?

Miriam Vogel destaca la importancia de la IA ética para las mujeres en el campo

Google Partner

Insignia que demuestra que Diego C Martin es Partner Oficial de Google

Diego C Martín. 2022

Legal