OWASP Top 10 para Modelos de Gran Lenguaje (LLMs)

Introducción: El nuevo paradigma de la seguridad en IA

La integración de Modelos de Gran Lenguaje (LLMs) en los flujos de trabajo corporativos ha expandido significativamente la superficie de ataque de las organizaciones. A diferencia de las aplicaciones de software tradicionales, los sistemas basados en IA generativa operan bajo una lógica probabilística, lo que introduce vectores de amenaza que no pueden ser mitigados exclusivamente mediante controles de seguridad perimetral convencionales.

El proyecto OWASP Top 10 para Aplicaciones de LLM surge como una respuesta técnica necesaria para estandarizar la identificación de riesgos en este ecosistema (OWASP Foundation, 2023). Este marco no solo es una guía de seguridad, sino un componente esencial para cualquier organización que busque implementar una gobernanza de IA madura, alineada con los requisitos de la norma ISO/IEC 42001 (International Organization for Standardization, 2023). La adopción de este estándar permite a los equipos de ciberseguridad y gobernanza hablar un lenguaje común al evaluar la resiliencia de sus despliegues de IA.

El panorama de riesgos en la IA generativa: Análisis profundo

La adopción de la IA generativa exige una reevaluación de los modelos de amenaza. Mientras que el desarrollo de software tradicional se centra en la integridad del código y la validación de entradas mediante esquemas rígidos, la seguridad de la IA debe considerar la integridad de los datos de entrenamiento, la robustez del modelo frente a entradas adversarias y la gestión de la autonomía del sistema.

1. Inyección de Prompts (LLM01)

La inyección de prompts ocurre cuando un atacante manipula las entradas para que el modelo ignore sus instrucciones de sistema (system prompts) y ejecute comandos no autorizados. Este riesgo es particularmente complejo debido a la naturaleza del procesamiento de lenguaje natural. La inyección indirecta, donde el prompt malicioso reside en fuentes externas (como sitios web, correos electrónicos o documentos) que el modelo procesa, representa un desafío crítico para los sistemas RAG (Retrieval-Augmented Generation).

Implicación práctica: Un atacante podría insertar instrucciones ocultas en un documento PDF que, al ser resumido por un LLM corporativo, fuerce al modelo a exfiltrar datos privados del usuario.
Control: Implementar capas de validación de entrada, separar las instrucciones del sistema de los datos del usuario y utilizar modelos de monitoreo que detecten patrones de manipulación semántica.

2. Manejo Inseguro de Salidas (LLM02)

Cuando las aplicaciones aceptan la salida de un LLM sin validación, se exponen a vulnerabilidades de ejecución de código. Si un modelo genera código malicioso que es interpretado por un sistema backend, el atacante puede lograr una escalada de privilegios o comprometer la infraestructura.

Control: Tratar toda salida del modelo como datos no confiables. Implementar sandboxing para la ejecución de código generado por IA y aplicar filtros de salida que validen el formato y la seguridad del contenido antes de que llegue al usuario final o a otros sistemas.

3. Envenenamiento de Datos de Entrenamiento (LLM03)

La integridad de los datos es la base de la seguridad del modelo. El envenenamiento ocurre cuando se introducen datos maliciosos en el conjunto de entrenamiento o en las bases de conocimiento utilizadas por el modelo.

Riesgo: Esto puede resultar en comportamientos sesgados o en la creación de puertas traseras que el atacante puede activar posteriormente mediante un "trigger" específico.
Control: Auditoría rigurosa de las fuentes de datos, validación de la procedencia de los datasets y monitoreo de la deriva del modelo (model drift) tras actualizaciones.

4. Denegación de Servicio del Modelo (LLM04)

Los LLMs requieren recursos computacionales significativos. Un ataque de denegación de servicio busca agotar estos recursos mediante consultas extremadamente complejas o volúmenes masivos de peticiones.

Control: Implementar límites de tasa (rate limiting), cuotas de uso por usuario y optimización de la infraestructura de inferencia para evitar el agotamiento de recursos críticos.

5. Vulnerabilidades en la Cadena de Suministro (LLM05)

El uso de modelos pre-entrenados, librerías de terceros y plugins introduce riesgos de cadena de suministro. Si un componente base está comprometido, toda la aplicación hereda dicha vulnerabilidad.

Control: Mantener un inventario detallado de los componentes de software y verificar la procedencia de los modelos utilizados. Consultar marcos como MITRE ATLAS para entender cómo los atacantes explotan estas dependencias (The MITRE Corporation, 2025).

6. Divulgación de Información Sensible (LLM06)

Los modelos pueden revelar accidentalmente información confidencial si han sido entrenados con datos sensibles o si tienen acceso a repositorios de datos sin los controles de acceso adecuados.

Control: Implementar técnicas de anonimización, aplicar políticas de control de acceso basadas en roles (RBAC) y asegurar que los datos de entrenamiento estén debidamente depurados.

7. Diseño Inseguro de Plugins (LLM07)

Los plugins permiten a los LLMs interactuar con sistemas externos. Si estos no implementan una validación estricta de las entradas y permisos granulares, un atacante puede utilizar el LLM como intermediario para realizar acciones no autorizadas.

Control: Aplicar el principio de menor privilegio a los plugins y exigir confirmación humana para acciones críticas.

8. Agencia Excesiva (LLM08)

La autonomía otorgada a los agentes de IA debe ser proporcional a su capacidad de control. La agencia excesiva permite que el modelo tome decisiones críticas sin supervisión humana.

Control: Implementar "human-in-the-loop" para procesos de alto impacto y definir límites claros sobre qué acciones puede ejecutar el agente de forma autónoma.

9. Sobrerreconfianza (LLM09)

La tendencia de los usuarios a confiar ciegamente en las respuestas de la IA, a pesar de las alucinaciones, es un riesgo de seguridad.

Control: Transparencia sobre las limitaciones del modelo, advertencias claras al usuario y mecanismos de verificación de hechos.

10. Robo de Modelos (LLM10)

El robo de modelos implica la exfiltración de los pesos o la arquitectura de un modelo propietario.

Control: Protección de la propiedad intelectual mediante controles de acceso estrictos a los endpoints de la API y monitoreo de patrones de consulta inusuales que sugieran intentos de extracción de datos del modelo.

Integración con marcos de gobernanza y cumplimiento

La seguridad de la IA no puede ser tratada de forma aislada. La gestión de riesgos debe seguir las directrices de la ISO/IEC 23894, que proporciona una guía sobre cómo aplicar la gestión de riesgos a la inteligencia artificial (International Organization for Standardization, 2023). Este estándar es fundamental para traducir los riesgos técnicos de OWASP en un lenguaje de negocio comprensible para la alta dirección.

Asimismo, el NIST AI RMF ofrece una estructura para gestionar los riesgos de la IA a través de cuatro funciones: Gobernar, Mapear, Medir y Gestionar (National Institute of Standards and Technology, 2023). El OWASP Top 10 para LLMs actúa como una herramienta de diagnóstico dentro de la función de "Medir" y "Gestionar", permitiendo a los equipos técnicos identificar brechas específicas en sus implementaciones.

Para una visión táctica de las tácticas y técnicas de ataque, se recomienda consultar MITRE ATLAS, que complementa el enfoque de OWASP proporcionando un catálogo de comportamientos adversarios observados en sistemas de IA (The MITRE Corporation, 2025). Además, es vital considerar principios éticos y de derechos humanos, como los descritos en el Blueprint for an AI Bill of Rights (White House Office of Science and Technology Policy, 2022), para asegurar que la gobernanza no solo sea técnica, sino también responsable.

Responsabilidades y controles operativos

La implementación de una estrategia de seguridad para LLMs requiere una distribución clara de responsabilidades:

CISO y equipos de seguridad: Deben liderar la evaluación de riesgos y la integración de controles de seguridad en el ciclo de vida de desarrollo de software (SDLC).
Científicos de datos: Son responsables de la integridad de los datos de entrenamiento y de la robustez del modelo frente a ataques adversarios.
Responsables de Gobernanza: Deben asegurar que las políticas de uso de IA estén alineadas con marcos como el Model AI Governance Framework de Singapur (Personal Data Protection Commission Singapore, 2020), garantizando la transparencia y la rendición de cuentas.

Controles operativos recomendados:

Red Teaming para IA: Realizar pruebas de penetración periódicas enfocadas en la manipulación de prompts y la extracción de datos.
Monitoreo de logs: Registrar todas las interacciones con el modelo para detectar anomalías en tiempo real.
Gestión de parches: Mantener actualizados los modelos base y las librerías de orquestación (como LangChain o similares).
Educación continua: Capacitar a los desarrolladores sobre los riesgos específicos de la IA generativa, más allá de las vulnerabilidades web tradicionales.

Implicaciones para la Gobernanza de IA

La adopción de estos controles es un requisito para cumplir con las expectativas de auditoría y cumplimiento. En el contexto de IA Generativa, las organizaciones deben:

Establecer políticas de uso: Definir qué datos pueden ser procesados por modelos de IA y bajo qué condiciones de privacidad.
Implementar controles técnicos: Aplicar las mitigaciones sugeridas por OWASP en cada capa de la arquitectura, desde la ingesta de datos hasta la interfaz de usuario.
Auditoría continua: Realizar pruebas de penetración y red teaming enfocadas en los riesgos específicos de los LLMs, documentando cada hallazgo para su remediación.
Capacitación: Asegurar que los equipos de desarrollo comprendan los riesgos de la inyección de prompts y el manejo inseguro de salidas, fomentando una cultura de "seguridad desde el diseño".

Cierre operativo: Hacia una IA resiliente

El marco OWASP Top 10 para LLMs es una herramienta fundamental para la seguridad en la era de la IA generativa. Su adopción permite a las organizaciones transitar de un enfoque reactivo a uno proactivo, integrando la seguridad desde el diseño y asegurando que la innovación no comprometa la integridad de los activos corporativos. La colaboración entre los equipos de seguridad, los científicos de datos y los responsables de gobernanza es esencial para construir sistemas de IA resilientes.

Al integrar estas prácticas, las organizaciones no solo protegen su propiedad intelectual y sus datos, sino que también construyen la confianza necesaria con sus usuarios y reguladores. La seguridad en IA no es un destino, sino un proceso continuo de adaptación ante un panorama de amenazas en constante evolución.

OWASP Top 10 para Modelos de Gran Lenguaje (LLMs)

Puntos clave

Introducción: El nuevo paradigma de la seguridad en IA

El panorama de riesgos en la IA generativa: Análisis profundo

1. Inyección de Prompts (LLM01)

2. Manejo Inseguro de Salidas (LLM02)

3. Envenenamiento de Datos de Entrenamiento (LLM03)

4. Denegación de Servicio del Modelo (LLM04)

5. Vulnerabilidades en la Cadena de Suministro (LLM05)

6. Divulgación de Información Sensible (LLM06)

7. Diseño Inseguro de Plugins (LLM07)

8. Agencia Excesiva (LLM08)

9. Sobrerreconfianza (LLM09)

10. Robo de Modelos (LLM10)

Integración con marcos de gobernanza y cumplimiento

Responsabilidades y controles operativos

Controles operativos recomendados:

Implicaciones para la Gobernanza de IA

Cierre operativo: Hacia una IA resiliente

Recursos relacionados

Preguntas frecuentes

Referencias

Puntos clave

Introducción: El nuevo paradigma de la seguridad en IA

El panorama de riesgos en la IA generativa: Análisis profundo

1. Inyección de Prompts (LLM01)

2. Manejo Inseguro de Salidas (LLM02)

3. Envenenamiento de Datos de Entrenamiento (LLM03)

4. Denegación de Servicio del Modelo (LLM04)

5. Vulnerabilidades en la Cadena de Suministro (LLM05)

6. Divulgación de Información Sensible (LLM06)

7. Diseño Inseguro de Plugins (LLM07)

8. Agencia Excesiva (LLM08)

9. Sobrerreconfianza (LLM09)

10. Robo de Modelos (LLM10)

Integración con marcos de gobernanza y cumplimiento

Responsabilidades y controles operativos

Controles operativos recomendados:

Implicaciones para la Gobernanza de IA

Cierre operativo: Hacia una IA resiliente

Recursos relacionados

Preguntas frecuentes

¿Cómo se diferencia el OWASP Top 10 para LLMs de la seguridad web tradicional?

¿Es suficiente implementar solo el OWASP Top 10 para asegurar un sistema de IA?

Referencias