En el contexto de la expansión de la Inteligencia Artificial (IA), así como de las enormes bases de datos que requieren el entrenamiento de estos modelos, el movimiento de datos abiertos cobra especial importancia como democratizador del conocimiento, ya que permite a los científicos de datos contar con más información para producir conocimiento, sin olvidar lo fundamental que es contar con una gobernanza adecuada y esquemas de gestión que no comprometen la privacidad y derechos de las personas.
Brandon Mora consultor de datos e información en el Sector del Conocimiento, Innovación y Comunicación del Banco Interamericano de Desarrollo (BID), destacó las ventajas de contar con información adecuada en el artículo titulado “El poder de los datos abiertos en la ciencia de datos”, publicado por la propia institución, donde fue señalada la relevancia de contar con información importante, oportuna y sobre todo accesible.
“Para que los modelos, análisis y aplicaciones de la ciencia de datos funcionen correctamente, resulta importante contar con una fuente sólida y diversa de datos. El movimiento de datos abiertos es clave al poner a disposición del público grandes volúmenes de información de forma gratuita y con licencias que permiten su uso y redistribución”, precisó.
El experto habló de cuatro ejes fundamentales en torno a este movimiento, los cuales parecían esenciales
para su correcto funcionamiento: democratización de la ciencia de datos; transparencia y replicabilidad; nuevas herramientas y Modelos de Lenguaje de Gran Tamaño (LLM, por sus siglas en inglés) y consideraciones éticas.
Para que los datos se conviertan en conocimiento útil para la humanidad, indicó, lo ideal es que estudiantes, investigadores, emprendedores y hasta personas con curiosidad sobre determinados temas tengan acceso a datos de calidad, sin necesidad de pagar costosas licencias o contar con infraestructura sofisticada.
A esto se denomina la democratización de la ciencia de datos, que genera la posibilidad de que prácticamente cualquier persona con conexión a internet y habilidades básicas de análisis, pueda producir nuevos conocimientos.
Respecto a la transparencia y replicabilidad, el autor destaca el valor que la replicabilidad de los experimentos tiene como pilar del método científico. Cuando se tienen datos abiertos disponibles, se puede verificar modelos y resultados, en beneficio de investigadores y profesionales que pueden reproducir experimentos y metodologías, así como mejorar la calidad, por ejemplo, al identificar sesgos durante el proceso y proponer formas para eliminarlos.
Por lo que hace a los LLM, estos resultan fundamentales para nuevas tecnologías en auge como la Inteligencia Artificial (IA), porque permite el uso de datos a gran escala. “Estos modelos (de IA) requieren grandes volúmenes de información para su entrenamiento, y buena parte de esa información proviene de fuentes abiertas, incluyendo repositorios de texto, documentos académicos y bases de datos públicos” que sin duda son fundamentales para el avance científico en general.
Sin embargo, los evidentes beneficios no pueden soslayar algunas obligaciones y consideraciones éticas elementales: “Es fundamental contar con protocolos de anonimización de identidad y protección de información personal, sobre todo en áreas sensibles como la salud o finanzas”, lo cual implica mejorar la gestión y la gobernanza de datos. Una utilización responsable de los datos abiertos refuerza la confianza en la ciencia de datos y sienta las bases para su crecimiento sostenible.
El Banco Interamericano de Desarrollo cuenta con un Catálogo de Datos Abiertos, y existen otras opciones como Hugging Face Datasets o la propia Open Data Charter que pueden servir para construir soluciones que creen impactos positivos en las comunidades, precisamente a partir de datos fidedignos que están al alcance de cualquier persona.
C$T-EVP