Un equipo internacional de científicos, liderado por el Instituto de Biología Integrativa de Sistemas (I2SysBio), una colaboración entre el Consejo Superior de Investigaciones Científicas (CSIC) y la Universitat de València (UV), ha publicado en Nature Methods un innovador estudio comparativo sobre las técnicas de secuenciación de lectura larga del transcriptoma humano.
Este exhaustivo análisis de diversas tecnologías y herramientas computacionales para la secuenciación del ARN ha revelado una diversidad molecular mucho mayor de lo que se esperaba, lo que tiene importantes implicaciones para el estudio de enfermedades, el envejecimiento y la complejidad biológica de la vida en la Tierra.
Durante varios años, el Proyecto de Evaluación de Anotación del Genoma de Lectura Larga de ARN-Seq (LRGASP), un consorcio internacional, evaluó las tecnologías y métodos utilizados en la secuenciación de lectura larga del ARN.
Este proyecto, en el cual el CSIC juega un papel crucial, ha culminado con la publicación de los resultados en Nature Methods.
Es estudio ha proporcionado directrices para el futuro de la investigación en secuenciación de ARN.
El estudio examina en detalle las capacidades de las dos principales plataformas de secuenciación de lectura larga de ARN, Oxford Nanopore Technologies y Pacific Biosciences, así como los métodos computacionales empleados para analizar los datos obtenidos.
El ARN, un componente esencial de las células, transmite la información genética del ADN a las proteínas a través de los procesos de transcripción y traducción, fundamentales en todos los organismos vivos.
La secuenciación de lectura larga del ARN permite observar moléculas completas y detectar variaciones mínimas en la forma en que los genes se expresan como proteínas, variaciones que son cruciales en la formación de organismos complejos como los humanos y cuya alteración puede estar vinculada a diversas enfermedades.
Esta técnica es vital para identificar dichos cambios y asociarlos con múltiples procesos biológicos.
«El genoma humano ha sido secuenciado en su totalidad, pero aún enfrentamos enormes desafíos para definir con precisión cómo los genes producen la vasta diversidad de moléculas de ARN y proteínas que componen un ser vivo. Este conocimiento es crucial, ya que pequeñas variaciones en el proceso del ADN al ARN pueden conducir a patologías», explica Ana Conesa, profesora de investigación del CSIC en el I2SysBio y una de las líderes del consorcio.
Su equipo ha evaluado las predicciones de ARN de 14 laboratorios bioinformáticos de todo el mundo, utilizando el software SQANTI3 desarrollado en I2SysBio, una herramienta bioinformática de referencia en este campo.
El estudio analizó más de 427 millones de secuencias de lectura larga de ARN procedentes de humanos.
Francisco J. Pardo Palacios, investigador predoctoral del I2SysBio y primer autor del estudio, señala que probar las técnicas en una especie no modelo era esencial, ya que cada vez es más común utilizar secuenciación de lectura larga de ARN en organismos no tan estudiados.
El experto asegura que esta falta de información previa debe considerarse en los análisis, ya que puede influir directamente en los resultados.
Tras una extensa recopilación y análisis de datos, el consorcio emitió un conjunto de recomendaciones para la secuenciación de ARN.
En general, los enfoques de secuenciación de lectura larga superan a los de lectura corta en cuanto a precisión, siendo la calidad de las lecturas más importante que su cantidad.
Además, el estudio encontró una cantidad sorprendente de transcritos no documentados en los genomas humanos y de ratones.
Ana Conesa dijo que descubrieron que la diversidad de ARN es mucho mayor de lo que imaginaban. Cada individuo, e incluso cada célula, posee un transcriptoma único.
El siguiente paso es determinar la relevancia de esta diversidad en enfermedades, envejecimiento y la diversidad de especies.
El informe concluye que no existe un único mejor enfoque para la secuenciación de lectura larga de ARN, destacando que las mejores prácticas varían según los objetivos específicos de cada estudio.
Las diferentes tecnologías presentan variaciones en las tasas de error, el rendimiento de la secuenciación y la longitud de lectura, por lo que los investigadores deben priorizar según sus necesidades específicas.
Angela Brooks, investigadora de la Universidad de California Santa Cruz y coautora del estudio, aseguró que la investigación ayudará a muchos a avanzar en la tecnología, ya que aún hay margen de mejora en muchos de estos métodos.