Adversarial Prompting: Vulnerabilidades de LLMs y Estrategias de Defensa

Esta conferencia se enfocará en el tema del «adversarial prompting», una técnica utilizada para manipular el comportamiento de los modelos de lenguaje. Se discutirán los diferentes tipos de ataques como prompt injection, prompt leaking o jailbreaking, así como las implicaciones y riesgos asociados con estos ataques. Además, se explorarán estrategias de defensa y mitigación para proteger los modelos de lenguaje contra estos tipos de amenazas.

Con la llegada de los modelos GPT (Y la explosión de los últimos meses tras GPT3.5, muchas organizaciones estan viendo como desarrollar sistemas productivos (chatbots, procesadores de documentos, etc.) basados en LLMs con unas garantías de seguridad. Esta charla es el resultado de trabajo con diferentes organizaciones desde la llegada de GPT3 en 2020 e intenta trasladar la necesidad de involucración de los equipos de Threat modelling, red teaming, etc. en el (meta) prompt design desde un punto de vista de safety & security.

octubre 5 @ 17:00

17:00

– 17:20

(20′)

Sala CrowdStrike

Fernando Rubio Roman