Un equipo de investigadores del Museo Nacional de Ciencias Naturales (MNCN-CSIC) ha desarrollado una innovadora aplicación denominada OCCUR, que permite a la comunidad científica depurar y homogeneizar de manera eficiente los datos de registros biológicos de especies, provenientes de repositorios de información masiva como el Global Biodiversity Information Facility (GBIF).
La investigadora del MNCN, Cristina Ronquillo, explica que si bien estos repositorios facilitan el acceso a una gran cantidad de datos, es necesario aplicar procesos de limpieza y validación de la información, ya que los criterios de recolección de los registros pueden variar considerablemente entre diferentes investigadores y proyectos.
CCUR surge como una solución a este desafío, permitiendo a los científicos seleccionar y filtrar los datos de acuerdo a las necesidades específicas de cada estudio.
La aplicación, desarrollada por el equipo del MNCN-CSIC, reúne y sistematiza los métodos de procesamiento de registros propuestos en 25 trabajos previos, agrupándolos en cinco módulos clave: tipo de naturaleza del registro, taxonomía, geografía, información temporal y detección de duplicados.
De esta manera, OCCUR facilita la aplicación de buenas prácticas y protocolos en la preparación de datos, evitando sesgos e imprecisiones que puedan afectar la calidad de los análisis.
Según el investigador Joaquín Hortal, el proceso de depuración de datos debe enfocarse en seleccionar aquellos que sean realmente útiles para responder a las preguntas de investigación, y no simplemente en obtener la mayor cantidad de datos posible.
OCCUR proporciona a los científicos las herramientas necesarias para tomar decisiones informadas en este sentido, generando un informe detallado de los pasos realizados en cada caso.
La utilidad de OCCUR ha sido comprobada en un reciente estudio publicado en la revista Ecology and Evolution, que analizó más de 9 millones de registros de musgos en la región templada del hemisferio norte.
Los resultados mostraron que los diferentes métodos de procesamiento de datos podían alterar significativamente las observaciones de diversidad de especies, lo que a su vez impactaba en las relaciones entre clima y biodiversidad medidas a partir de estos datos masivos.
Estos hallazgos ponen de manifiesto la importancia de realizar un trabajo minucioso en el procesamiento de datos de biodiversidad, a fin de asegurar la calidad y replicabilidad de los análisis y modelos que se desarrollen a partir de ellos.
La aplicación OCCUR se perfila como una herramienta clave para lograr este objetivo, brindando a la comunidad científica una solución eficiente y fácil de usar.
Cristina Ronquillo dijo que la OCCUR también genera un informe detallado que facilita la inclusión, organización y escritura de los métodos utilizados en los artículos científicos que describan los estudios.
Además, en aquellos casos en que ha sido posible, la aplicación proporciona código en el lenguaje estadístico R para ser incorporado directamente en los análisis de cada usuario.
La importancia de este tipo de herramientas se vuelve aún más relevante en un contexto donde la necesidad de comprender y monitorear los cambios en la biodiversidad a escala global es cada vez más apremiante.
Los datos masivos de registros biológicos ofrecen una oportunidad única para abordar estas cuestiones, pero su adecuada preparación y procesamiento es fundamental para garantizar la solidez de los resultados.
«La calidad de los datos de partida que utilizamos para calibrar los modelos del impacto del cambio global puede alterar sus predicciones, lo que pone en evidencia la necesidad de realizar un trabajo minucioso con el procesamiento de los datos masivos de biodiversidad, que puedan replicar otros investigadores en el futuro», dijo Joaquín Hortal.