I robot reading book, learning and knowledge of AI intelligen ceconcept, AI generative
La inclusión y utilización de estos libros en la base de datos de la inteligencia artificial puede considerarse como una vulneración del derecho exclusivo de reproducción de su autor. Foto: Vecteezy.

¿Los modelos de lenguaje de IA generativa infringen la propiedad intelectual si utilizan libros sin permiso?

30 / 08 / 2023 06:30

Actualizado el 31 / 08 / 2023 08:38

Para dar respuestas que parezcan lo más naturales y humanas posibles a las solicitudes de los usuarios, los sistemas de inteligencia artificial (IA) generativa deben procesar cantidades titánicas de texto que les provean no solo el material teórico en el que se apoyarán sus resultados, sino también los fundamentos gramáticos y sintácticos que les permitirá construir oraciones y párrafos.

Y cuando estas inteligencias artificiales usan sin autorización libros publicados para entrenar sus modelos de lenguaje pueden estar infringiendo los derechos de propiedad intelectual de los titulares de los textos.

Así lo afirma Jaime Delgado, abogado del departamento de ‘Commercial’ y ‘Privacy & Data Protection’ de Bird & Bird.

La inclusión y utilización de estos libros en la base de datos de la IA puede considerarse como «una vulneración del derecho exclusivo de reproducción de su autor», explica Delgado, apuntando al artículo 18 del Real Decreto Legislativo 1/1996, de 12 de abril, por el que se aprueba el texto refundido de la Ley de Propiedad Intelectual, (TRLPI).

jaime.delgado
Jaime Delgado, abogado del departamento de ‘Commercial’ y ‘Privacy & Data Protection’ de Bird & Bird. Jaime Delgado, abogado del departamento de ‘Commercial’ y ‘Privacy & Data Protection’ de Bird & Bird.

«Si se emplean en modelos de inteligencia artificial generativa es posible que se infrinja asimismo el derecho a la transformación de las obras y creación de obras derivadas, como aparece en el artículo 21 del TRLPI, dependiendo del grado de utilización del texto en el resultado generado», subraya.

Gerard Espuga Torné, abogado especialista en derecho digital y socio del despacho Beta Legal, comenta, por su parte, que el uso de obras para entrenar modelos de IA generativa «supone para muchos una obra derivada en el sentido del artículo 11 del TRLPI, pero no parece que pueda ser así en los casos en los que no puede reconocerse la obra preexistente».

Demandas y ‘desaprendizaje’

Según Espuga, «sí tendrían más visos de prosperar aquellas acciones encaminadas a defender los derechos de los titulares de las obras en virtud de lo establecido en el artículo 17 del TRLPI, esto es, que se obligue a las empresas titulares de la IA generativa a obtener el permiso de los titulares de los derechos de explotación, a los autores, para utilizar el contenido que legalmente les pertenece para entrenar los modelos de IA generativa».

«No obstante lo anterior, existiría un problema en cuanto a la prueba de los hechos, puesto que quien alegue se han vulnerado sus derechos como autor deberá acreditarlo, lo que cochará con la posibilidad de verificar que, efectivamente, se ha utilizado la obra que se trate para entrenar el modelo de IA», destaca el abogado.

Gerard Espuga Torné
Gerard Espuga Torné, abogado especialista en derecho digital y socio del despacho Beta Legal.

Es relevante definir la técnica de minería de texto y datos, como aparece en el Real Decreto-Ley 24/2021, que permite realizar el análisis automatizado para generar información que incluye, sin carácter exhaustivo, pautas, tendencias o correlaciones.

Así, pueden volcar cualquier obras que esté disponible en formato digital, algo permitido «salvo que los titulares de derechos hayan reservado expresamente el uso de las obras a medios de lectura mecánica u otros medios que resulten adecuados», según Espuga.

Los autores y otros posibles titulares de los derechos de propiedad intelectual pueden iniciar acciones de cesación en el uso del contenido tratado, solicitando la supresión de los sistemas destinados a la comisión de la conducta infractora, como ha ocurrido con OpenAI, compañía que diseñó el modelo de lenguaje ChatGPT, bajo la alegación de que esta IA había sido nutrida de más de 300.000 millones de palabras directamente extraídas de Internet, incluyendo obras protegidas y datos personales.

En cuanto a una hipotética corrección de la infracción al inducir el ‘desaprendizaje’ de los materiales, Delgado menciona que, » dependiendo del proceso de desarrollo del modelo, sería posible revertir a versiones anteriores previas a la incorporación de las obras controvertidas a su base de datos», eliminando toda referencia a obras específicas.

Un ejemplo sería la acción de eliminar la novela “El cuento de la criada” de Margaret Atwood de la base de datos de un modelo de IA generativa, lo que «haría que esta inteligencia artificial no fuera capaz de componer textos o resultados relacionados con esta obra», según Delgado. «Sin embargo, esta supresión debe ser total; las referencias, resúmenes o análisis del libro podrían servirle a la IA para extrapolar y recomponer fragmentos del texto eliminado».

Prohibiciones del barrido de páginas web

El barrido de páginas web, conocido también como ‘data scraping’ o ‘web crawling’ por sus nombres en inglés, es considerado una práctica legal para determinados objetivos, como la comparación de precios de diferentes artículos, por ejemplo, pero no si obtiene obras protegidas y datos personales. De hecho, redes sociales como Twitter y Reddit e incluso el New York Times han procurado limitar el alcance de estos barridos para evitar que un modelo de lenguaje de IA aproveche sus contenidos y proteger sus derechos.

«Además de poder conllevar infracciones en materia de propiedad intelectual, también puede constituir infracciones en materia de protección de datos, ante lo cual distintas autoridades de control ya han emitido algún comunicado e iniciado alguna investigación; puede que el hecho de que los datos sean públicos no suponga que los mismos puedan utilizarse para una finalidad distinta de la que inicialmente ha dispuesto su titular», aclara Espuga.

Al respecto, Delgado comenta que «no es un secreto que el desarrollo de sistemas de IA generativa tiene necesidad de bases de datos de conversaciones reales para ofrecer respuestas más naturales».

Y sobre la posibilidad de que la regularización de estas prácticas disminuya la capacidad de las IA para dar respuestas actualizadas, Delgado afirma que «la actualidad de las respuestas de los modelos de inteligencia artificial depende en cierta medida de fuentes de información recopiladas y publicadas por terceros en Internet».

«La normativa es clara al respecto, por lo que la regularización de la explotación de estos contenidos no debería disminuir la capacidad de las IA para proporcionar respuestas actualizadas, sino que posiblemente disminuya su rentabilidad para hacerlo», dice.

«Para mantener sus bases de datos, los desarrolladores de estos modelos de inteligencia artificial deberán, pues, llegar a un acuerdo con los derechohabientes de estos sitios web para la explotación de su información y obras. No obstante, es claro que esta información se ha revalorizado exponencialmente por su potencial en el marco de la revolución de la inteligencia artificial».

Noticias relacionadas:

Ocho de cada diez recursos de casación ante el Supremo mueren en la admisión: CASIA Legal, una nueva IA, ha llegado para evitarlo

Opinión | Previsibilidad jurídica en la personalización digital comercial

Opinión | «Magnifica Humanitas»: dignidad humana, neuroderechos y el alma del hombre en la era de la inteligencia artificial

Revolut rompe con el modelo tradicional: crea su propia herramienta de IA para controlar el rendimiento y la facturación de los bufetes externos

Bernat-N. Tiffon: “La IA puede contar manchas de sangre, pero es incapaz de oler el miedo o sentir la maldad pura”

«La calidad de una democracia se mide por cómo cuida a quien más lo necesita»: el presidente del CGAE reivindica a los olvidados de la justicia

Lo último en Áreas y Sectores

Legal Operations desde la base: cómo ordenar procesos antes de incorporar tecnología, con Irma Cebrián en las Píldoras Legaltech de Wolters Kluwer

Legal Operations desde la base: cómo ordenar procesos antes de incorporar tecnología, con Irma Cebrián en las Píldoras Legaltech de Wolters Kluwer

Mientras lees esto, la IA ya está trabajando en otros despachos

Mientras lees esto, la IA ya está trabajando en otros despachos

Titularidad real y sistema IURE: la obligación que muchas sociedades siguen infravalorando

Titularidad real y sistema IURE: la obligación que muchas sociedades siguen infravalorando

Mesa Redonda Online: Sistema de Compensación de Socios

Mesa Redonda Online: Sistema de Compensación de Socios

«El departamento legal no es un apagafuegos, sino una posición estratégica» — Paula Mayans, Head of Sales Spain for Legisway en Wolters Kluwer Legal Software

Paula Mayans (Wolkers Kluwer Legal Software): «El departamento legal no es un apagafuegos, sino una posición estratégica»