¿Los modelos de lenguaje de IA generativa infringen la propiedad intelectual si utilizan libros sin permiso?
La inclusión y utilización de estos libros en la base de datos de la inteligencia artificial puede considerarse como una vulneración del derecho exclusivo de reproducción de su autor. Foto: Vecteezy.

¿Los modelos de lenguaje de IA generativa infringen la propiedad intelectual si utilizan libros sin permiso?

|
30/8/2023 06:30
|
Actualizado: 31/8/2023 08:38
|

Para dar respuestas que parezcan lo más naturales y humanas posibles a las solicitudes de los usuarios, los sistemas de inteligencia artificial (IA) generativa deben procesar cantidades titánicas de texto que les provean no solo el material teórico en el que se apoyarán sus resultados, sino también los fundamentos gramáticos y sintácticos que les permitirá construir oraciones y párrafos.

Y cuando estas inteligencias artificiales usan sin autorización libros publicados para entrenar sus modelos de lenguaje pueden estar infringiendo los derechos de propiedad intelectual de los titulares de los textos.

Así lo afirma Jaime Delgado, abogado del departamento de ‘Commercial’ y ‘Privacy & Data Protection’ de Bird & Bird.

La inclusión y utilización de estos libros en la base de datos de la IA puede considerarse como «una vulneración del derecho exclusivo de reproducción de su autor», explica Delgado, apuntando al artículo 18 del Real Decreto Legislativo 1/1996, de 12 de abril, por el que se aprueba el texto refundido de la Ley de Propiedad Intelectual, (TRLPI).

jaime.delgado
Jaime Delgado, abogado del departamento de ‘Commercial’ y ‘Privacy & Data Protection’ de Bird & Bird. Jaime Delgado, abogado del departamento de ‘Commercial’ y ‘Privacy & Data Protection’ de Bird & Bird.

«Si se emplean en modelos de inteligencia artificial generativa es posible que se infrinja asimismo el derecho a la transformación de las obras y creación de obras derivadas, como aparece en el artículo 21 del TRLPI, dependiendo del grado de utilización del texto en el resultado generado», subraya.

Gerard Espuga Torné, abogado especialista en derecho digital y socio del despacho Beta Legal, comenta, por su parte, que el uso de obras para entrenar modelos de IA generativa «supone para muchos una obra derivada en el sentido del artículo 11 del TRLPI, pero no parece que pueda ser así en los casos en los que no puede reconocerse la obra preexistente».

Demandas y ‘desaprendizaje’

Según Espuga, «sí tendrían más visos de prosperar aquellas acciones encaminadas a defender los derechos de los titulares de las obras en virtud de lo establecido en el artículo 17 del TRLPI, esto es, que se obligue a las empresas titulares de la IA generativa a obtener el permiso de los titulares de los derechos de explotación, a los autores, para utilizar el contenido que legalmente les pertenece para entrenar los modelos de IA generativa».

«No obstante lo anterior, existiría un problema en cuanto a la prueba de los hechos, puesto que quien alegue se han vulnerado sus derechos como autor deberá acreditarlo, lo que cochará con la posibilidad de verificar que, efectivamente, se ha utilizado la obra que se trate para entrenar el modelo de IA», destaca el abogado.

Gerard Espuga Torné
Gerard Espuga Torné, abogado especialista en derecho digital y socio del despacho Beta Legal.

Es relevante definir la técnica de minería de texto y datos, como aparece en el Real Decreto-Ley 24/2021, que permite realizar el análisis automatizado para generar información que incluye, sin carácter exhaustivo, pautas, tendencias o correlaciones.

Así, pueden volcar cualquier obras que esté disponible en formato digital, algo permitido «salvo que los titulares de derechos hayan reservado expresamente el uso de las obras a medios de lectura mecánica u otros medios que resulten adecuados», según Espuga.

Los autores y otros posibles titulares de los derechos de propiedad intelectual pueden iniciar acciones de cesación en el uso del contenido tratado, solicitando la supresión de los sistemas destinados a la comisión de la conducta infractora, como ha ocurrido con OpenAI, compañía que diseñó el modelo de lenguaje ChatGPT, bajo la alegación de que esta IA había sido nutrida de más de 300.000 millones de palabras directamente extraídas de Internet, incluyendo obras protegidas y datos personales.

En cuanto a una hipotética corrección de la infracción al inducir el ‘desaprendizaje’ de los materiales, Delgado menciona que, » dependiendo del proceso de desarrollo del modelo, sería posible revertir a versiones anteriores previas a la incorporación de las obras controvertidas a su base de datos», eliminando toda referencia a obras específicas.

Un ejemplo sería la acción de eliminar la novela “El cuento de la criada” de Margaret Atwood de la base de datos de un modelo de IA generativa, lo que «haría que esta inteligencia artificial no fuera capaz de componer textos o resultados relacionados con esta obra», según Delgado. «Sin embargo, esta supresión debe ser total; las referencias, resúmenes o análisis del libro podrían servirle a la IA para extrapolar y recomponer fragmentos del texto eliminado».

Prohibiciones del barrido de páginas web

El barrido de páginas web, conocido también como ‘data scraping’ o ‘web crawling’ por sus nombres en inglés, es considerado una práctica legal para determinados objetivos, como la comparación de precios de diferentes artículos, por ejemplo, pero no si obtiene obras protegidas y datos personales. De hecho, redes sociales como Twitter y Reddit e incluso el New York Times han procurado limitar el alcance de estos barridos para evitar que un modelo de lenguaje de IA aproveche sus contenidos y proteger sus derechos.

«Además de poder conllevar infracciones en materia de propiedad intelectual, también puede constituir infracciones en materia de protección de datos, ante lo cual distintas autoridades de control ya han emitido algún comunicado e iniciado alguna investigación; puede que el hecho de que los datos sean públicos no suponga que los mismos puedan utilizarse para una finalidad distinta de la que inicialmente ha dispuesto su titular», aclara Espuga.

Al respecto, Delgado comenta que «no es un secreto que el desarrollo de sistemas de IA generativa tiene necesidad de bases de datos de conversaciones reales para ofrecer respuestas más naturales».

Y sobre la posibilidad de que la regularización de estas prácticas disminuya la capacidad de las IA para dar respuestas actualizadas, Delgado afirma que «la actualidad de las respuestas de los modelos de inteligencia artificial depende en cierta medida de fuentes de información recopiladas y publicadas por terceros en Internet».

«La normativa es clara al respecto, por lo que la regularización de la explotación de estos contenidos no debería disminuir la capacidad de las IA para proporcionar respuestas actualizadas, sino que posiblemente disminuya su rentabilidad para hacerlo», dice.

«Para mantener sus bases de datos, los desarrolladores de estos modelos de inteligencia artificial deberán, pues, llegar a un acuerdo con los derechohabientes de estos sitios web para la explotación de su información y obras. No obstante, es claro que esta información se ha revalorizado exponencialmente por su potencial en el marco de la revolución de la inteligencia artificial».

Noticias Relacionadas:
Lo último en Áreas y sectores