Datos sin consentimiento: el pacto que nunca firmaste con las grandes IA

Cada artículo que publicaste en un blog personal. Cada hilo de Twitter que escribiste convencido de que nadie leía. Cada respuesta en Stack Overflow. Cada historia corta que subiste a un foro de escritura. Cada análisis político que redactaste a las dos de la mañana.

Todo eso, con una probabilidad altísima, está dentro de algún modelo de lenguaje. Entrenado sin pedirte permiso. Sin pagarte. Sin siquiera avisarte.

Y lo más curioso es que la industria todavía trata esto como un problema jurídico, cuando en realidad es una pregunta ética que llevamos años evitando.

Cómo funciona el «corpus de entrenamiento»

Los grandes modelos de lenguaje se entrenan sobre cantidades masivas de texto. GPT-4, Claude, Gemini, LLaMA — todos fueron preentrenados sobre variantes de Common Crawl, una instantánea de buena parte de la web pública. Eso incluye, entre otras cosas:

Artículos de Wikipedia y libros digitalizados sin autorización explícita
Millones de páginas de foros públicos como Reddit o Stack Overflow
Artículos periodísticos de medios que nunca cedieron sus derechos
Código fuente de repositorios públicos en GitHub
Contenido creativo: poesía, ficción, ensayo, guiones

El argumento legal de las empresas es consistente: si está en internet y es público, es indexable. Los términos del servicio del propio web lo permiten. El scraping no es ilegal.

Técnicamente, tienen razón. Éticamente, el argumento tiene un agujero del tamaño de un camión.

La diferencia entre público y consentido

Cuando en 2008 escribiste un artículo sobre tu experiencia con una enfermedad crónica, lo hiciste para que otros en tu situación lo leyeran. No para que dieciséis años después un modelo de lenguaje lo usara como ejemplo de cómo hablar con empatía sobre salud.

Cuando en 2015 publicaste tu primera novela corta en un foro de escritura, buscabas feedback, no que tu estilo sirviera de dato de entrenamiento para que otros generen texto «al estilo de» escritores como tú.

La distinción entre «público» y «consentido para este uso» es la misma distinción que existe entre una conversación en un parque y una grabación en un juzgado. Que algo sea observable no significa que cualquier uso de esa observación sea legítimo.

Lo que las empresas de IA hicieron fue tomar una norma diseñada para la indexación de búsqueda —«si es público, puedo indexarlo»— y aplicarla a un caso de uso radicalmente diferente: extraer conocimiento, estilo y forma de escritura para construir sistemas que compiten con los propios autores.

El bucle que nadie quiere ver

Hay una consecuencia de segundo orden que la industria prefiere no discutir abiertamente: el contenido generado por IA ya está volviendo al corpus de entrenamiento.

El ciclo es el siguiente:

Modelo A se entrena con contenido humano de la web
Modelo A genera millones de artículos, posts, respuestas
Ese contenido se publica en la web
Modelo B se entrena con la web actualizada, incluyendo el contenido de Modelo A
Repetir

¿Qué ocurre cuando el corpus de entrenamiento está mayoritariamente compuesto por contenido generado por modelos anteriores? Nadie lo sabe con certeza. Los primeros estudios apuntan a un fenómeno que los investigadores llaman «colapso del modelo»: degradación progresiva de la diversidad y calidad, con tendencia a amplificar los sesgos del corpus original.

Dicho de otro modo: los modelos entrenados en contenido sintético tienden a ser versiones empobrecidas de los modelos que lo generaron. La señal original —el texto humano, con toda su variedad, contradicción y especificidad— se va diluyendo.

Y esa señal original fue tomada sin permiso.

Lo que la ley dice y lo que debería decir

El estado legal actual es un patchwork inconsistente.

En Europa, el RGPD establece que los datos personales requieren base legal para ser procesados. Los datos de entrenamiento de IA caen en una zona gris: ¿es un artículo firmado con tu nombre un «dato personal» a efectos del reglamento? La respuesta depende del tribunal y del país.

La AI Act de la UE, en vigor desde 2024, obliga a los proveedores de modelos de propósito general a publicar un resumen de sus datos de entrenamiento. En teoría. En la práctica, los resúmenes publicados son tan vagos que resultan inútiles para cualquier auditoría real.

En EEUU, la situación es más desfavorable para los creadores: varias demandas colectivas de autores, periodistas y artistas contra OpenAI, Google y Meta llevan años en los tribunales sin resolución definitiva. Los jueces que han fallado hasta ahora lo han hecho mayoritariamente a favor de las empresas, aplicando doctrina de «uso justo».

Lo que el marco legal actual no contempla es el principio más básico: que el consentimiento debería preceder al uso, no seguirle.

Las tres respuestas que no funcionan

Ante esta situación, la industria ofrece tres respuestas que suenan razonables pero no lo son.

«Puedes hacer opt-out». Varias empresas ofrecen mecanismos para excluir tu contenido de entrenamientos futuros. El problema es doble: el contenido que ya fue usado no puede «des-entrenarse», y la responsabilidad de excluirse recae sobre el creador, no sobre quien tomó los datos. La lógica es la misma que decir «si no quieres que publiquemos tu foto, tendrías que haberlo pedido antes».

«El beneficio es colectivo». La IA beneficia a todos, incluidos los creadores, así que el uso de sus datos es un coste razonable. Este argumento podría justificar cualquier expropiación si el beneficio agregado es suficientemente grande. No es ética, es utilitarismo sin límites.

«Ya no hay forma de deshacer el daño». Técnicamente correcto. Éticamente irrelevante. Que algo sea irreversible no lo hace aceptable retroactivamente.

Lo que sí podría funcionar

No tengo una solución perfecta. Tengo algunas ideas que al menos van en la dirección correcta.

Un registro de datos de entrenamiento verificable, donde cada modelo declare de forma auditable qué corpus usó. No resúmenes de marketing — listas comprobables.

Un sistema de compensación proporcional para creadores cuyo contenido se pueda trazar en el corpus. Complicado técnicamente, pero no imposible con las herramientas de atribución que ya existen para detección de plagio y marca de agua digital.

Un derecho de exclusión previo: que el uso de contenido para entrenamiento requiera, en ausencia de licencia explícita, que el contenido esté marcado como disponible para ese fin. Opt-in, no opt-out.

Ninguna de estas medidas va a implementarse voluntariamente. Las empresas no tienen incentivos para hacerlo mientras la ley no se lo exija. Pero esa es exactamente la conversación que tenemos que estar teniendo.

La pregunta real

Al final, la pregunta no es técnica ni estrictamente legal. Es de qué clase de pacto social queremos construir alrededor de esta tecnología.

Si aceptamos que cualquier texto publicado en internet es materia prima legítima para cualquier uso posterior, estamos diciendo algo muy concreto sobre el valor del trabajo intelectual. Estamos diciendo que el derecho de uso lo determina la capacidad técnica para realizarlo, no el consentimiento de quien lo produjo.

Eso no es progreso tecnológico. Es simplemente que el más fuerte se queda con lo del más débil, con argumentos más sofisticados de lo habitual.

El debate sobre datos de entrenamiento y consentimiento está lejos de resolverse. Si eres creador y has pensado en esto, me interesa tu perspectiva.