Después de la publicación por primera vez sobre la vulnerabilidad de prompt injection en 2022, durante 2023 se realizó una investigación sobre la seguridad en la arquitectura transformers y en particular en LLMs, llegando al bajo nivel de leer los papers y entender la arquitectura en detalle. En esta investigación identificamos los riesgos que afectaban a este tipo de arquitecturas. Como resultado, nos encontramos que algunos de los riesgos que encontrábamos en otros tipos de modelos de AI anteriores no tenían un impacto significativo en los LLMs y, por el contrario, que algunos nuevos ataques como «prompt injection» afectaban únicamente a los LLMs por su singular arquitectura. En este proceso, publicamos varios blogposts sobre varios de los temas que fuimos encontrando (https://research.nccgroup.com/author/jselvincc/). En esta charla haremos un repaso de como funciona un transformer a bajo nivel, necesaria para luego entender ciertas técnicas de explotación de prompt injection, y mostraremos ejemplos de como resolvimos algunos retos, como los de Lakera. Finalmente, explicaremos que tipo de arquitecturas usando LLMs hemos visto como pentesters en los últimos 2 años y las recomendaciones que se realizan para mitigar los riesgos en 2024.