La reproducibilidad en la investigación es crucial para poder avanzar en ciencia. Lamentablemente, y de acuerdo con estudios y encuestas recientes*, el número de experimentos que no se pueden reproducir va incrementando y la reproducibilidad en investigación ya es uno de los principales retos que científicos, instituciones, entes financiadores y editoriales deben abordar para asegurar la credibilidad y el avance de la ciencia.
Para comprender los datos genómicos, los científicos dependen cada vez más de una combinación de programas informáticos llamados pipelines. Estos pipelines procesan los datos, los analizan y dan lugar a resultados como, por ejemplo, el riesgo de padecer una enfermedad genética. Desafortunadamente los resultados de estos pipelines no son siempre reproducibles y, en la era de la medicina de precisión, esta reproducibilidad limitada puede tener implicaciones importantes para nuestra salud.
Ahora, un equipo de investigadores en el Centro de Regulación Genómica (CRG) en Barcelona, liderados por Cedric Notredame, han desarrollado un sistema de gestión de flujos de trabajo que asegura la reproducibilidad en los experimentos computacionales. El sistema, llamado Nextflow, se describe en el último número de la revista Nature Biotechnology. “Existen diminutas variaciones entre plataformas computacionales que pueden inducir inestabilidad numérica, lo que da lugar a la irreproducibilidad de los experimentos computacionales. Nextflow permite que los científicos eviten estas variaciones y contribuye a establecer buenas prácticas científicas en experimentos por ordenador”, explica Cedric Notredame, autor principal del trabajo.
“Una pequeña variación puede que no parezca un problema cuando se está utilizando una cantidad enorme de datos genómicos para un proyecto de investigación, pero incluso las variaciones más pequeñas pueden ser cruciales si pretendemos utilizar los resultados de nuestro análisis para tomar decisiones, por ejemplo, médicas”, añade Paolo Di Tommaso, primer autor del trabajo. “La irreproducibilidad será una cuestión fundamental para la medicina de precisión”, concluye.
Conteniendo la irreproducibilidad
La principal razón por la que existe irreproducibilidad en experimentos computacionales es la complejidad de los ordenadores modernos. Con la gran cantidad de archivos y programas que contienen, los ordenadores son como máquinas hechas de miles de millones de partes en movimiento. Incluso al utilizar exactamente el mismo pipeline y los mismos datos, existen pequeñas variaciones entre ordenadores que pueden dar lugar a irreproducibilidad de los resultados.
La solución a este problema pasa por proporcionar no sólo los datos y el software sino también todo el ambiente pre-configurado para su ejecución, gracias los contenedores de software, una tecnología de virtualización de nueva generación. El equipo del CRG ha implementado Nextflow como herramienta que permite gestionar los flujos de trabajo computacional utilizando este tipo de contenedores. “Es como si congeláramos el experimento, así todo aquel que quiera reproducirlo, podría hacerlo exactamente de la misma manera y en las mismas condiciones, sin tener que re-introducir manualmente ninguna configuración compleja. Trabajar de este modo garantiza que un mismo conjunto de datos dará lugar a los mismos resultados independientemente de dónde se analicen”, explican los autores.
En el artículo que acaba de publicar Nature Biotechnology, los autores muestran cómo Nextflow permite integrar los recursos más sofisticados para asegurar la reproducibilidad como, Zenodo para los datos, Github y Docker para el software y la computación en la nube. Este trabajo supone un punto de inflexión en la reproducibilidad de experimentos computacionales y un impulso para las buenas prácticas en el análisis de grandes conjuntos de datos. El CRG está comprometido con ayudar a promover este aspecto clave de la biología moderna entre la comunidad científica poniendo este nuevo recurso a disposición de la investigación académica pero también de producción clínica y comercial. También ha organizado una serie de talleres y cursos dedicados al uso de Nextflow.