Fine-tuning, privacidad y RGPD: los riesgos legales que nadie te cuenta

Haces fine-tuning de un modelo de lenguaje con los datos de tu empresa: correos, contratos, expedientes de clientes, historiales médicos, fichas de empleados. El modelo funciona mejor. Misión cumplida. Dos meses después, un cliente ejerce su derecho al olvido y te pregunta si sus datos siguen en tu sistema. La respuesta honesta es: probablemente sí, y no sabemos cómo sacarlos. Bienvenido al rincón del RGPD que casi nadie te explica antes de vender fine-tuning.

El problema raíz: los modelos memorizan

Un LLM no es una base de datos, pero tampoco es una caja mágica que olvida lo que le enseñas. Cuando haces fine-tuning con datos reales de tu empresa, el modelo memoriza fragmentos de esa información, especialmente los que aparecen con frecuencia o tienen patrones distintivos. Estudios publicados en los últimos años demuestran que es posible extraer datos personales literales de modelos fine-tuneados simplemente con los prompts adecuados.

Esto significa que si fine-tuneas un modelo con expedientes de tus clientes, existe riesgo real de que:

Un empleado con acceso al modelo pueda extraer datos de otros clientes.
Un atacante que obtenga acceso al modelo pueda reconstruir información sensible.
El modelo "filtre" datos en respuestas a terceros si se despliega de forma menos controlada.

La memorización es una característica inherente del proceso de fine-tuning, no un bug que se pueda corregir completamente. Se puede mitigar, no eliminar.

El RGPD y la base jurídica que casi nunca se cuida

El Reglamento General de Protección de Datos exige una base jurídica válida para tratar datos personales. Cuando usas datos de clientes o empleados para fine-tunear un modelo, estás haciendo un nuevo tratamiento de esos datos para una finalidad distinta a la original.

Y aquí empiezan los problemas:

Consentimiento: ¿obtuviste consentimiento explícito de esos clientes para usar sus datos en el entrenamiento de un modelo de IA? Lo más probable es que no.
Interés legítimo: puedes intentar ampararte en este, pero requiere un análisis formal de ponderación y, en la práctica, es muy difícil justificar que tu interés prevalece sobre los derechos del titular en un entrenamiento de IA.
Ejecución de contrato: el contrato original con el cliente probablemente no contemplaba este uso.

Si no tienes una base jurídica sólida, estás incumpliendo el RGPD desde el minuto cero del fine-tuning.

El derecho al olvido: la bomba de relojería

El Artículo 17 del RGPD establece el derecho de supresión: cualquier titular puede pedir que sus datos sean eliminados. En una base de datos tradicional, ejecutas un DELETE y listo. En un modelo fine-tuneado, esto es técnicamente muy complicado, en ocasiones imposible.

Las opciones reales son:

Reentrenar el modelo desde cero sin los datos del titular. Caro y lento.
Machine unlearning, técnicas de investigación emergentes para "desaprender" información concreta. No están maduras ni auditadas para producción.
Aceptar que el dato permanece en el modelo de forma residual. Incumplimiento directo del RGPD.

Ninguna opción es buena. Si tu empresa tiene clientes que pueden ejercer derechos RGPD, fine-tunear con sus datos es entrar en una trampa legal de la que es muy difícil salir.

Datos especialmente protegidos: el nivel rojo

Si manejas datos de categorías especiales (salud, orientación sexual, opiniones políticas, afiliación sindical, datos biométricos, origen étnico), el riesgo se multiplica. El Artículo 9 del RGPD establece requisitos mucho más estrictos para estos datos.

Fine-tunear un modelo con historiales médicos de una clínica, con expedientes laborales o con información financiera detallada te coloca en un escenario donde:

La base jurídica debe ser excepcional (consentimiento explícito o ley específica).
La evaluación de impacto en protección de datos (EIPD) es obligatoria.
La supervisión del Delegado de Protección de Datos (DPO) es imprescindible.
El riesgo sancionador se dispara.

En estos sectores, optar por fine-tuning sin un análisis legal previo es temerario.

El proveedor del modelo también importa

Cuando haces fine-tuning a través de una API comercial (OpenAI, Google, Anthropic, Azure…), tus datos de entrenamiento viajan a los servidores del proveedor. Esto introduce dos cuestiones adicionales:

Transferencias internacionales: si el proveedor está fuera del Espacio Económico Europeo, necesitas cláusulas contractuales tipo (SCC) y, en casos concretos, medidas técnicas adicionales. Tras la sentencia Schrems II, esto no es trivial.
Uso de los datos por parte del proveedor: algunos proveedores reservan el derecho a usar tus datos de entrenamiento para mejorar sus modelos. Lee la letra pequeña.

La alternativa es fine-tunear con modelos open-source en infraestructura propia (Llama, Mistral, Gemma). Tienes más control pero también más responsabilidad técnica y de seguridad.

Fine-tuning vs RAG: la diferencia también es de privacidad

RAG es una alternativa técnica al fine-tuning, y resulta mucho más compatible con el RGPD por diseño:

Los datos se almacenan en una base de datos que puedes auditar, cifrar y controlar.
El derecho al olvido se ejecuta con un DELETE normal.
Las fuentes se citan en cada respuesta, garantizando trazabilidad.
No hay memorización residual en los pesos de un modelo.
La base jurídica es la misma que la del sistema documental existente.

Para la inmensa mayoría de casos de uso en pymes, RAG no solo es más barato y efectivo. Es también la opción que menos comprometerá tu cumplimiento normativo.

Ocho comprobaciones antes de hacer fine-tuning con datos reales

Si aun así crees que fine-tuning es la vía correcta, asegúrate de que tu empresa ha hecho los deberes:

Identifica exactamente qué datos personales contiene tu dataset de entrenamiento.
Determina la base jurídica válida para este nuevo tratamiento.
Ejecuta una Evaluación de Impacto (EIPD) si hay datos sensibles o tratamiento a gran escala.
Anonimiza o seudonimiza todo lo que no sea estrictamente necesario.
Documenta el proceso en el Registro de Actividades de Tratamiento.
Revisa el contrato con el proveedor del modelo (cláusulas de encargado, transferencias, uso secundario).
Diseña un procedimiento para ejercer derechos (acceso, rectificación, supresión).
Forma a tu equipo sobre alfabetización en IA según el EU AI Act.

Si cualquiera de estos pasos te resulta difícil o poco realista, es la señal más clara de que el fine-tuning no encaja con tu madurez actual en protección de datos.

La responsabilidad no se delega

Un error común es pensar que si el fine-tuning lo hace un proveedor externo, la responsabilidad pasa a ser suya. El RGPD es claro: el responsable del tratamiento sigues siendo tú. El proveedor es, como mucho, un encargado. Las sanciones, las quejas a la AEPD y la reputación ante tus clientes son tuyas.

Consultoras con experiencia real en IA y cumplimiento, como Navel Digital, abordan los proyectos de fine-tuning con un análisis legal previo porque saben que los riesgos no son hipotéticos. Si tu proveedor no incluye esta fase en su propuesta, está traspasándote un problema que luego será tuyo.

Conclusión: la privacidad condiciona la arquitectura

Fine-tuning no es una decisión solo técnica. Es también una decisión legal y ética. Cada dato que usas para entrenar un modelo es una huella que puede ser muy difícil de borrar, una obligación que puede ser muy difícil de cumplir y un riesgo que puede ser muy difícil de mitigar.

Para la mayoría de pymes españolas, la alternativa RAG cubre el caso de uso sin ninguno de estos problemas. Y cuando el fine-tuning es realmente necesario, debe hacerse con plena conciencia del coste regulatorio.

Polp procesa tus documentos con RAG: los datos permanecen en tu control, las respuestas citan las fuentes y los derechos RGPD se ejercen sobre la base de datos, no sobre los pesos de un modelo. IA para empresas sin comprometer tu cumplimiento.

Sources: