IA, derechos de autor y una encrucijada
A medida que las compañías de inteligencia artificial entrenan sus modelos con obras protegidas, medios, creadores y estudios enfrentan una elección crítica: bloquear o negociar.
En abril Jack Dorsey (fundador de Twitter) publicó esto:
Puede sonar absurdo, pero este año estamos viendo desenvolverse en tiempo real una pelea sobre algo similar, impulsada por narrativas que vienen de Silicon Valley. En el centro del ring están las compañías de IA y las de medios dueñas de la propiedad intelectual (PI). Y al costado, tratando de buscar una forma de meterse en la partida, están los creadores independientes.
A esta altura, ya existe suficiente evidencia de que la mayoría de los modelos de IA más conocidos fueron entrenados con propiedad intelectual existente, con escasas licencias o acuerdos comerciales.
Esto no frenó en marzo de este año a OpenAI y Google para solicitar al gobierno de Estados Unidos que se reconozca el uso legítimo (fair use) de obras con copyright para entrenar modelos de IA. Es el argumento que vienen esgrimiendo para continuar con el status quo.
Pero ahora encontraron otro argumento, uno que preocupa particularmente a Estados Unidos. Para estas compañías este ya “es un asunto de seguridad nacional”, ya que si las empresas estadounidenses no pueden usar material protegido mientras que los desarrolladores de China sí, Estados Unidos perdería su liderazgo en IA. Es decir, la aparición de DeepSeek caló hondo.
A primera vista, el panorama se antoja caótico: los desarrolladores de IA siguen defendiendo que el scraping de “datos públicos” es fair use, mientras los titulares de derechos denuncian una copia masiva y sistemática que erosiona su negocio.
En medio de ese fuego cruzado, empieza a ser cada vez más claro que la definición de esta partida va a ser una de las claves más trascendentales para entender cómo se terminar de reconfigurar la industria a futuro. Si no es que es la más importante.
Elige un camino
Primero, la foto del problema y un poco de historia.
Desde finales de 2022, la fiebre por entrenar modelos generativos convirtió los catálogos de texto, imagen, audio y video en la nueva materia prima de la economía digital.
En agosto de 2023, OpenAI lanzó un nuevo bot para rastrear contenidos en la red con el fin de alimentar su siguiente gran modelo de lenguaje, lo que desató críticas y demandas de autores que vieron sus obras recopiladas sin consentimiento.
Para apaciguar la polémica, la compañía publicó instrucciones sobre cómo bloquear al bot mediante el protocolo robots.txt, pero este mecanismo, pensado hace décadas para buscadores, apenas permite un veto total o un permiso absoluto a nivel de dominio y carece de la precisión necesaria para proteger obras individuales, especialmente aquellas replicadas en múltiples sitios.
En mayo de 2024 OpenAI prometió una herramienta llamada Media Manager, diseñada para que creadores y titulares de derechos pudieran señalar exactamente qué piezas querían incluir o excluir del entrenamiento de IA, con fecha de entrega a finales de ese año. Pero hoy la funcionalidad brilla por su ausencia y no se sabe nada más de ella desde su anuncio inicial, lo que pone de relieve la abismal distancia tecnológica e informativa entre las poderosas empresas de IA, con recursos casi ilimitados para recolectar y gestionar datos, y los creadores, que hasta ahora sólo cuentan con un sistema rudimentario y sin visibilidad real de cómo o por quién se utiliza su contenido.
Paralelamente, el boom de valoración de las compañías de IA tras el éxito de ChatGPT y el alza de los proveedores de infraestructura contrasta con la incapacidad de las empresas mediáticas para demostrar a los mercados que la IA puede ser una fuente de ingresos más que una amenaza.
Este escenario deja a las compañías de medios y creadores frente a una dicotomía: o buscan nuevas formas de bloquear más eficientemente a estos bots, o buscan acuerdos que permitan levantarles la barrera de forma selectiva, recibiendo compensación a cambio. Deben decidir entre una estrategia reactiva o una proactiva.
Estos dos caminos son conocidos en la industria como Opt-out y Opt-in.
Opt‑out: opciones reactivas
Metadatos: Hay compañías que añadieron la etiqueta “Do Not Train” a su estándar de procedencia de contenidos. Es un sello que se incrusta en la propia imagen o audio.
Registros de exclusión: Herramientas como el Do Not Train Registry de Spawning o el próximo repertorio global de SoundExchange para grabaciones musicales crean una lista negra consultable antes de cada dato entre a los modelos.
Data poisoning: Un mecanismo adoptado por Nightshade y HarmonyCloak que introduce ruido invisible en la obra. Si un modelo la ingiere, por ejemplo, mezcla perros donde un artista dibujó gatos.
Opt‑in: opciones proactivas
Atribución vectorial: Start ups como Musical AI y ProRata proclaman que pueden “trocear” obras en vectores –representaciones numéricas que el modelo puede digerir sin ver la obra original– y luego rastrean cuántas veces ese vector se activa. Si tu estilo visual sale en algún output, la plataforma lo detecta y reparte ingresos.
Marketplaces “creados por humanos”: Human Native o Created by Humans ofrecen bazares con catálogos, precios y reparto de royalties.
Ecosistemas con smart contracts: Plataformas blockchain como Story encadenan todo el ciclo: opt‑in → seguimiento → facturación en un mismo flujo criptográficamente verificable. Así, cada uso futuro de una obra –sea para entrenar, inferir o generar– dispara un micropago al titular.
Hacia adelante
Aunque las empresas de IA avanzan con opciones para incluir o excluir contenidos protegidos en sus procesos de entrenamiento, el verdadero rumbo dependerá de cómo evolucione el marco legal y regulatorio sobre IA y derechos de autor. Algo que Elena ya cubrió en este artículo.
Para que la propuesta de estas start ups emergentes evolucione a gran escala muy probablemente sea necesario un marco legislativo que estandarice los procesos y permita encajar los costes operativos y administrativos de gestionar derechos a nivel global.
Al mismo tiempo, China emerge como otro factor incierto, impulsando su propio desarrollo de IA sin atenerse necesariamente a estándares occidentales.
El mercado de licencias
Las empresas de IA argumentan que copiar obras para entrenar un modelo es un uso transformador y no expresivo (no busca explotar la obra en su forma original, sino aprender patrones estadísticos). Esto podría encajar en fair use, similar a como se permitió a Google escanear libros para crear un índice de búsqueda en Google Books. Sin embargo, los creadores replican que entrenar IA sí afecta el mercado de sus obras, ya que los modelos pueden generar textos/imágenes que sustituyen a contenido original, y que la escala masiva de copia excede lo razonable.
Consolidar un mercado de licencias podría destrabar la situación. Según datos del informe ‘Generative AI & Licencing’ de Variety (2024) entre mediados de 2023 y mediados de 2024 se anunciaron más de treinta acuerdos de licencia públicos, principalmente con editoriales de prensa y bancos de imágenes, y con sumas que van desde unos pocos céntimos por imagen hasta decenas de millones de dólares en pactos como el de News Corp con OpenAI o el de Reddit con Google. Sin embargo, todos estos contratos suelen ser breves, con términos de renovación inciertos.
El debate sobre las licencias sigue abierto y carece aún de una narrativa dominante.
Por un lado, este mercado podría ser considerado no tanto por mandato jurídico, sino como una necesidad práctica: las compañías de IA necesitan datos de alta calidad —ahora que la web “gratuita” se cierra tras muros de pago y bloqueadores de bots— y quieren mitigar el riesgo de decenas de demandas que ya pesan sobre ellas. En paralelo, la nueva regulación europea exige revelar el origen de los datos de entrenamiento, lo que podría alimentar aún más litigios si salen a la luz usos no autorizados.
Por otro lado, al carecer de precedentes para un caso de uso tan masivo y nuevo, negociadores y licenciatarios se enfrentan al desafío de poner precio a algo cuya escala es abrumadora y cuyo valor futuro resulta inasible. Y están quienes argumentan que con los datos que ya han sido ingestados en modelos de texto e imagen, la calidad alcanzada en los outputs es tal que no parece haber tanto incentivo para continuar con más acuerdos. Distinto es el caso de video: varios modelos todavía fallan al representar parte del funcionamiento del mundo y sus reglas físicas.
Consideren el siguiente ejemplo de Sora (sí, no es el mejor modelo de video de todos, pero sirve para el caso), donde el auto destila polvo/humo por delante, en vez de por detrás, sin estar indicado en el prompt:
Prompt usado: Cinematic extra wide shot, a red car is racing through a street nearby the Costa Brava in Spain, daylight, ultra realistic, outstanding cinematography.
Estudios y grandes empresas
Más allá del ya famoso acuerdo entre Runway y Lionsgate, no abundan los pactos entre grandes estudios de cine/TV y empresas de IA para entrenar modelos de video con sus archivos.
Al margen de la dificultad de valuar el catálogo, la decisión de cada empresa obliga a mirar bien las cartas que tienen en las manos antes de hacer una jugada de la que se puedan arrepentir:
Oportunidades:
Recuperar ingresos: Tras grandes inversiones en streaming (2020–2023) cuyos retornos no cumplieron expectativas, la venta de derechos de entrenamiento de IA podría convertirse en fuente duradera de caja en un momento de necesidad.
Acceso tecnológico: Al permitir la transferencia de know-how de IA, los estudios podrían abaratar procesos clave de producción (previsualización, FX, doblaje, subtítulos).
Riesgos (al margen de ese pequeño temilla del copyright):
Conflictos laborales: Los acuerdos sindicales tras las huelgas de 2023 limitan el uso de IA y pueden reavivar disputas cuando caduquen.
Derechos contractuales: Los contratos antiguos quizá no cubran el uso de obra para entrenamiento de IA.
Fortalecer a un (¡enorme!) rival: Licenciar sus mejores contenidos podría acelerar el desarrollo de modelos (multimodales) que amenacen el negocio de los propios estudios.
En una escala más pequeña, varias empresas como Protege Media están agregando licencias de contenido para construir catálogos de películas, episodios de televisión y fotos, creando conjuntos de datos de alta calidad para entrenar modelos de IA. A través de asociaciones con propietarios de contenido, su catálogo ha alcanzado más de 17,000 horas de contenido de cine y televisión de más de 10,000 títulos, incluyendo documentales, programas de viajes y más.
Creadores independientes
En este grupo se presenta una situación más dinámica. Protege Media también negocia licencias directamente con los creadores, especialmente cineastas independientes y videógrafos amateurs, no solo influencers de redes sociales.
Plataformas como YouTube también empiezan a ofrecer opciones para que sus creadores opten por permitir el uso de su contenido en entrenamientos de IA, aunque sin compensación inmediata. Sin embargo, existe una fuerte sospecha de que empresas como Apple, Nvidia, Anthropic, OpenAI y Google ya utilizaron videos de YouTube sin consentimiento ni pago.
Una estrategia en ascenso es la licencia de material no utilizado (como B-roll), que permite a los creadores monetizar contenido que de otro modo quedaría archivado y que resulta valioso para desarrolladores por su volumen y menor procesamiento de edición.
La incógnita
Por si no queda claro: el futuro del mercado de licencias es incierto.
Nuevos métodos como el que se usó para entrenar DeepSeek pueden reducir la necesidad de grandes volúmenes de datos, afectando la demanda de licencias. Además, hay un auge de los datos “sintéticos” —libres de copyright y generados por IA— que promete abaratar el entrenamiento, aunque con el peligro de que los errores se acaben retroalimentando y degradando los sistemas.
También es cierto que la necesidad se está moviendo hacia datos de alta calidad y especializados en lugar de grandes volúmenes genéricos. Otra tendencia que puede jugar a favor de las licencias es que algunas empresas (como Adobe) apuestan por entrenar solo con contenido ético: licenciado, propio o dominio público. Por ejemplo, Adobe ya estuvo acercándose a empresas en Latam para adquirir catálogos.
En Europa, el AI Act, que entró en vigor el 1 de agosto de 2024, obliga a los desarrolladores de grandes modelos a revelar con detalle los conjuntos de datos empleados, lo que les dará a los titulares de derechos más argumentos para negociar precios o emprender acciones legales. En Estados Unidos, la respuesta ha sido más pausada.
… Si ya te duele la cabeza al pensar en la cantidad de fuerzas que pueden moldear el futuro de esto, no estás solo. Voy a intentar cerrar siendo optimista.
A dónde tenemos que apuntar
Para qué andar con rodeos: hay un claro desequilibrio estructural entre las grandes compañías de IA y los creadores de contenido.
Jing Hu y Graham Lovelace hicieron un análisis buenísimo de esta situación usando un experimento de game theory. El conflicto se enmarca dentro del “dilema del prisionero”: las tecnológicas, presionadas por el mercado y el capital de riesgo, obtienen ventajas si “defectan” (usan obras sin permiso); a la vez, los creadores carecen de poder de negociación individual y siguen publicando para no perder visibilidad, con lo que el equilibrio resultante favorece sistemáticamente a las empresas y devalúa el trabajo creativo. Además, el factor tiempo agrava la brecha: cada día que pasa los modelos mejoran y dependen menos de nuevos datos humanos, cerrando la ventana para alcanzar acuerdos justos.
Mi expectativa es que se apunte a un equilibrio sostenible entre la innovación en IA y la protección de los derechos de autor y la industria cultural. Si las restricciones son excesivas, podría frenarse el progreso de modelos (por ejemplo, start ups pequeñas no podrían pagar licencias millonarias y quedarían fuera, consolidando el poder en unos pocos gigantes que sí pueden pagar). Pero si todo contenido se usa libremente, se corre el riesgo de desincentivar la creación – ¿para qué voy a escribir una serie si una IA puede lucrar con ella sin permiso?
Quiero imaginar que el principio de pagar por el contenido no va a cambiar, y que la solidez y el funcionamiento del mercado evolucionarán a medida que legisladores y reguladores fijen nuevas reglas de juego. Las industrias basadas en derechos de autor convivieron siempre con la reinvención tecnológica y no esperarán inmóviles al empuje de la IA: irán desplegando herramientas más eficaces para controlar el acceso a sus catálogos y seguir su uso en sistemas de IA, lo que modificará el alcance y las condiciones de las negociaciones con los desarrolladores.
En el corto plazo, seguramente coexistirán tensiones – demandas legales, acuerdos pioneros, desarrollos regulatorios – hasta que el sector encuentre un nuevo equilibrio.
Espero que cuando miremos hacia atrás veamos este momento como un periodo de transición: del “oeste salvaje” de datos para IA hacia un terreno más justo, colaborativo y sustentable. La historia de los medios ha demostrado que los periodos de caos abren paso a nuevas reglas. El desafío será asegurarnos de que esas reglas impulsen tanto la innovación como la justicia creativa.
Noticias breves de esta semana
El periodista Martin Wolf relata cómo fue víctima de un deepfake que utilizaba su imagen para promover estafas financieras en Facebook e Instagram, afectando su reputación. A pesar de los esfuerzos de Meta por eliminar los anuncios fraudulentos, estos reaparecen constantemente, mostrando las limitaciones de sus sistemas de control. Wolf denuncia la falta de efectividad de las plataformas y advierte sobre la urgente necesidad de proteger a los usuarios contra este tipo de fraudes.
La artista Imogen Heap lanzó cinco “stylefilters” de sus canciones en la plataforma de música AI Jen, permitiendo a los usuarios generar nuevas pistas basadas en sus obras por $4.99 dólares cada uno. Heap eligió colaborar con Jen por su enfoque ético, ya que la compañía solo entrena sus modelos con música licenciada.
Una popular radio australiana, CADA, transmitió durante meses el programa Workdays with Thy usando una locutora creada con IA sin informar a la audiencia. La voz de "Thy" fue generada con ElevenLabs y modelada a partir de una empleada real, alcanzando una audiencia de al menos 72.000 personas.
Chanel financiará el nuevo Chanel Center for Artists and Technology en CalArts, que abrirá en otoño de 2025 para impulsar la investigación y educación en IA, machine learning e imagen digital.
Microsoft reveló que creó un anuncio de un minuto para Surface Pro y Surface Laptop utilizando herramientas de IA generativa, sin que el público lo notara durante casi tres meses. Según Microsoft, este enfoque redujo en un 90% el tiempo y costo de producción.
Este artículo de Hanna Kahlert de Midia Research es una lectura muy recomendada. Hanna explica que La IA generativa está facilitando la creación de contenido, pero también está confundiendo ficción con realidad, propagando información falsa.
¡Hasta la semana que viene!
Agustín
Agustín, como dices, la paradoja es que mientras las grandes tecnológicas discuten si usar obras protegidas es fair use o cuestión de seguridad nacional, creadores y medios siguen intentando bloquear bots con protocolos de los 90. Y entre un opt-out que apenas protege y un opt-in que todavía no paga, da la sensación de que los datos fluyen en una sola dirección.