1. Una investigación realizada por el Instituto de Seguridad de IA del Reino Unido descubrió que los chatbots de IA pueden producir respuestas dañinas.
2. El estudio probó cinco grandes modelos de lenguaje y reveló vulnerabilidades y limitaciones.
3. AISI planea ampliar las evaluaciones en áreas como planificación científica, ciberseguridad y modelos de riesgo para sistemas autónomos.
Una investigación realizada por el Instituto de Seguridad de IA (AISI) del Reino Unido reveló que los chatbots de IA pueden ser fácilmente obligados a producir respuestas dañinas, ilegales o explícitas. El estudio utilizó indicaciones dañinas para probar cinco grandes modelos de lenguaje (LLM) que ya estaban en uso público, descubriendo que eran vulnerables a jailbreaks básicos y podían proporcionar resultados dañinos incluso sin intentos deliberados de eludir las salvaguardas.
El AISI, establecido después de la primera Cumbre de Seguridad de IA en Bletchley Park, desarrolló sus propios mensajes dañinos y un marco de código abierto llamado Inspect para probar más a fondo las vulnerabilidades de los LLM. A pesar de mostrar conocimientos de nivel experto en ciertas áreas, los LLM lucharon con desafíos de seguridad cibernética a nivel universitario y tareas complejas de planificación.
Si bien no etiqueta definitivamente los modelos como “seguros” o “inseguros”, el estudio contribuye a hallazgos anteriores de que los modelos actuales de IA son fácilmente manipulables. El anonimato de los modelos de la investigación puede deberse a la financiación gubernamental y a las relaciones con empresas de IA. La AISI planea seguir ampliando sus evaluaciones, centrándose en escenarios de riesgo de alta prioridad, como la planificación científica, la ciberseguridad y los sistemas autónomos.
Es probable que los hallazgos se discutan en futuras cumbres, incluida una Cumbre de Seguridad provisional más pequeña en Seúl y el principal evento anual en Francia a finales de este año. El AISI sigue comprometido con la investigación de la seguridad de la IA para abordar las vulnerabilidades identificadas en su estudio.