La práctica de “extracción de datos” automatizada a través de la Inteligencia Artificial (IA) “afecta directamente a los creadores y dueños de la propiedad intelectual y trabajos protegidos, especialmente cuando son conducidos sin el consentimiento o pago a los dueños de los derechos”, advirtió la Organización para la Cooperación y el Desarrollo Económicos (OCDE).
En el trabajo académico número 33 de la serie sobre IA itulado “Cuestiones de propiedad intelectual en la inteligencia artificial entrenada con datos extraídos”, el organismo internacional señala que esta práctica, conocida en inglés como data scraping, “con frecuencia involucra datos protegidos generando preguntas sobre las infracciones y aplicabilidad de excepciones como el uso justo de los datos, la minería de datos y la aplicación de términos contractuales”.
En ese sentido, se trata de un tema complejo, en principio, porque “lo usa todo el mundo”: la academia, las instituciones de investigación, los operadores y los escaladores “que lo hacen sin pagar licencias con distintos propósitos”.
El método consiste en aplicar herramientas de Inteligencia Artificial para revisar bases de datos gigantescas de cualquier institución o persona y sustraerlos datos de ahí, para alimentar modelos de IA generativa, con el propósito de hacerlos más certeros y eficaces, pero sin siquiera darle aviso al dueño de esa información, que con frecuencia se encuentra protegida.
Se trata de un problema serio porque la práctica está muy extendida, es casi imposible detectarla y evoluciona rápidamente. “Las leyes de propiedad intelectual que existen actualmente y prevén algo respecto a la IA, difieren entre jurisdicciones, complicando la aplicación de la ley”, advierte el estudio de la OCDE.
Peor aún, existen incluso problemas de conceptos, pues todavía muchos confunden la extracción de datos, con la minería de datos. Estos últimos son los procesos computacionales que se usan para identificar patrones, tendencias y correlaciones, sin que necesariamente se violen derechos de autor.
Inclusive, durante la presidencia japonesa del G7 en 2023, los líderes identificaron la infracción de derechos de propiedad intelectual como uno de los mayores riesgos de la IA generativa.
Si bien existen convenciones internacionales como la de Berna o París y el Acuerdo en aspectos relacionados con el comercio y los derechos de propiedad intelectual de la Organización Mundial de Comercio (OMC), que ayudan a regular de manera global, esta herramienta de Inteligencia Artificial aplicada indiscriminadamente a cualquier base de datos de todos tamaños y materias, implica un riesgo mucho más profundo.
Ante ello, la propuesta de la OCDE consiste en establecer un “Código de Conducta de Extracción de Datos” voluntario para la aplicación de parte de todas las instituciones en el mundo que usan esta técnica, aunque eso supone en principio acordar los términos de este código y se limita a la buena voluntad de quienes quieran seguirlo.
Otra de las recomendaciones es establecer contratos estandarizados de términos y condiciones para el uso de la información y el respeto a los derechos de propiedad intelectual que, una vez más, se limita a un acuerdo entre particulares no necesariamente sancionado por autoridades.
También es importante sensibilizar sobre la extracción de datos y sus implicaciones jurídicas, para dotar a las partes interesadas con información sobre cómo proteger y gestionar sus derechos de propiedad intelectual.
Se trata de una nueva figura no contemplada en las leyes de propiedad intelectual tradicionales y que implica gigantescos retos técnicos, pero también supone la extraterritorialidad, pues con frecuencia alguien que extrae datos de una institución de un país, lo hace desde otro país y eso complica la aplicación de las normas.
Si bien existen distintos marcos para el manejo del material pagado o libre, como señalar que se trata de datos gratuitos, que permite el uso libre e ilimitado de modificación o redistribución según determinadas reglas; libre, con ciertas libertades de modificación, compartición y redistribución sujeta a términos y materiales de dominio público como en arXiv o Project Gutenberg, señalar claramente que los materiales son pagados y se rigen por determinados términos y condiciones específicas, suele generar más certeza.
C$T-GM