Introducción al RNA-Seq El transcriptoma es el conjunto total de transcriptos presentes en una célula, para un estadio específico del desarrollo o condición fisiológica1. La transcriptómica se encarga de estudiar el transcriptoma mediante tecnologías de alto rendimiento, como los microarrays y la secuenciación de nueva generación (NGS: Next Generation Sequencing). La comparación de transcriptomas permite identificar genes que se expresan de modo diferencial en distintas poblaciones de células, o bajo distintos tratamientos . Dos tecnologías importantes sirven para este objetivo: microarray y RNA-Seq. El primer paso en ambas consiste en la construcción de una un a 2 biblioteca de ADNc a partir del ARN de una población de células . En la tecnología de microarray, desarrollada en los 90, el ADNc es marcado fluorescentemente e hibridado a un arreglo con sondas de ADN (Figura 1). Posteriormente el escaneo mediante láseres permite que el ADNc marcado emita fluorescencia, que es captada por una cámara y registrada por una computadora.
Figura 1 Microarray de dos colores. En la imagen se muestra un análisis para un experimento con muestras control y tratamiento. Estas dos muestras son marcadas con fluorocromos de distintos colores y luego puestas en la placa en igual cantidad. El color detectado en un determinado spot indica el nivel de expresión relativo entre ambas muestras. 1
Wang, Z., Gerstein, M., y Snyder, M. (2009). RNA-Seq: a revolutionary tool for transcriptomics. Nature reviews genetics, genetics ,
10:57-63 2
Actualmente se está utilizando también una técnica que se basa la secuenciación a nivel de célula individual (en vez de a nivel poblacional), denominada “single cell RNARNA-Seq”
Los datos finales comprenden un conjunto de valores de fluorescencia. Estos permiten comparar, para un gen, el nivel de fluorescencia relativo entre tratamientos. El método de RNA-Seq, desarrollado en 2008, se basa en la determinación de las secuencias de ADNc, sin información previa respecto a las mismas. Dentro de los secuenciadores disponibles en la actualidad, Illumina es la tecnología más usada.
Construcción de bibliotecas
Dados que el ARNr comprende la mayor parte de los transcriptos de una célula (~90%), para la obtención de bibliotecas de ARN se utilizan generalmente dos protocolos que descartan esta especie, permitiendo así un enriquecimiento con otras de interés3. En uno de ellos se utilizan oligonucleótidos poli-T, para aislar sólo los mensajeros poliadenilados (mensajeros maduros). En el otro, el ARNr es depletado, permitiendo el análisis de los mensajeros maduros y, además, de los ARN largos no codificantes (ARNlnc). Básicamente, los protocolos consisten en los siguientes pasos (Figura 2), variando sólo en el segundo: 1. Purificación de ARN total 2. Selección del ARN poliadenilado (para biblioteca de ARNm) o extracción del ARNr por medio de hibridación o captura magnética (para biblioteca de ARN total) 3. Fragmentación del ARN 4. Síntesis de ADNc 5. Ligado de adaptadores y PCR. Este paso consiste en el agregado de secuencias adaptadoras en ambos extremos de cada fragmento
Secuenciación con Illumina
El proceso de secuenciación con la tecnología Illumina4 se realiza en una superficie denominada celda de flujo. La celda de flujo, que tiene el tamaño de un portaobjetos, contiene 8 líneas que en su superficie presentan oligos de dos tipos, complementarios a los adaptadores en los extremos 5’ o 3’ de los fragmentos de ADNc (Figura 2). Dichos fragmentos, en forma de cadena simple, se unen a la celda de flujo a través de estas secuencias y tras un ciclo de PCR, que usa como primer el oligo de la placa, queda una nueva cadena unida de modo covalente a la celda. Allí comienzan una serie de ciclos de PCR de modo paralelo a lo largo y ancho de la celda utilizando también como primers los oligos presentes en las líneas (proceso denominado “bridge amplification”), que resulta en un conjunto de clusters. Cada uno de estos clusters comprende secuencias que derivan de un fragmento inicial y que poseen por ende la misma secuencia5. Tras obtener los clusters, las moléculas son secuenciadas de un extremo (single-read [SR] sequencing) o primero de uno y luego del otro (paired-end [PE] sequencing, Figura 2).
3
Conesa, A., Madrigal, P., Tarazona, S., Gomez-Cabrero, D., Cervera, A., McPherson, A y otros. (2016). A survey of best practices for RNA-seq data analysis. Genome biology, 17:1 4 5
El proceso es mostrado con mayor detalle en el siguiente video: https://youtu.be/fCd6B5HRaZ8
Tras el ciclo de PCR se presentan cadenas con la secuencia original y su complemento, pero se hace un p aso de lavado al final que permite quedarse sólo con aquellas complementarias a uno de los adaptadores
Figura 2 Secuenciación Single-read (SR) y Paired-end (PE). Los colores rojo y verde indican las zonas de los fragmentos donde se lee para SR (rojo) o PE (rojo + verde). Para un mismo gen se generan cadenas cortas que mapean en distintas zonas al fragmentar la población de sus transcriptos. En el caso de lecturas PE, se sabe cuáles lecturas son complementarias (es decir, lecturas en extremos de un mismo fragmento).
Durante el proceso de secuenciación, se agregan de a una por vez bases marcadas fluorescentemente a las cadena en crecimiento hasta completar el largo de secuenciación deseado que abarca en general unos 50-250 nucleótidos en uno o ambos extremos de los fragmentos. Cada una de las cuatro bases emite luz en un color distinto que permite identificarlas unívocamente. Con láseres que recorren la celda de flujo se activa la fluorescencia de la base agregada, que es detectada por una cámara y registrada en una computadora. Este proceso se produce en paralelo en millones de clusters (Figura 3). La función de los clusters es poder generar una intensidad de señal suficiente para ser detectable por una cámara.
Figura 3 Celda de flujo (A) mostrando las 8 líneas que la recorren (franjas verticales). En (B) se muestra el proceso de secuenciación descripto en el texto.
Los datos generados son analizados por software del secuenciador, que produce un archivo en formato FASTQ (de “FASTA”, formato de archivo para secuencias, + Q = “quality”) con cada secuencia leída y la calidad de cada una de sus bases. Este es el archivo que se utiliza como entrada en el posterior análisis de datos. Los siguientes son tres registros de un archivo FASTQ, que contiene millones como estos (varios Gb de peso). El registro para cada secuencia individual está compuesto de 4 líneas:
@M00967:43:000000000-A3JHG:1:1101:18327:1699 1:N:0:188 NACGGAGGATGCGAGCGTTA + #>>AABABBFFFGGGGGGGG @M00967:43:000000000-A3JHG:1:1101:14069:1827 1:N:0:188 TACGGAGGATGCGAGCGTTA + 3AA?ABBDBFFBEGGEGGGG @M00967:43:000000000-A3JHG:1:1101:18044:1900 1:N:0:188 TACGGAGGATGCGAGCGTTG + BA@BBBABBFFFGGGGGGGG
En negrita y fondo gris se indica el registro de una de las secuencias. - La primera línea consiste del símbolo @ seguido del identificador (ID) de la secuencia (primer grupo de caracteres agrupados con “:”, y de una segunda cadena de caracteres con datos adicionales. El identificador indica el nombre del aparato, linea, etc., y la ubicación del cluster (en coordenadas).
-
La segunda línea contiene la secuencia propiamente dicha La tercera línea contiene el signo “+” La cuarta línea, una cadena de caracteres de igual longitud que la secuencia, donde cada uno de ellos puede traducirse en un número6 con un rango típico entre 0 y 40. Este número representa la calidad de la lectura para el nucleótido correspondiente. Esto quiere decir lo siguiente: la determinación de cada base leída en una secuencia se hace en función de la fluorescencia emitida en los ciclo de síntesis tal como se comentó anteriormente. La conversión de lectura de fluorescencia a identificación de base lo hace un software del secuenciador, no es perfecto y se produce con cierto error. La calidad es una medida de este error. A valores más altos, más confiable es la identificación del nucleótido (menor error). Estos valores se pueden utilizar para encontrar secuencias o partes de secuencias con baja calidad, haciendo una limpieza del archivo antes de continuar con el análisis.
Diseño experimental: replicación y cobertura
Dos cosas importantes al momento de realizar un trabajo de RNA-Seq son el diseño experimental y la cobertura a la que se quiere trabajar. El padre de la bioestadística, R.A. Fisher, dijo hace más de 80 años que un buen experimento hace uso de replicación, bloques y aleatorización7. Sin replicación no se puede conocer la variabilidad provocada por los tratamientos experimentales, y la expresión diferencial que se puede encontrar no es generalizable (sólo vale para ese experimento8). Diferentes fuentes aportan variación a los datos finales en un experimento controlado (Figura 4). Por un lado está la variación biológica, que se debe a los tratamientos utilizados. La otra fuente de variación es la variación técnica, que incluye aquella generada durante la construcción de la biblioteca (“efectos de batch”) y el proceso de secuenciación. La fuente de variación que en el fondo nos interesa es la biológica (Figura 4). Como regla general, se recomienda utilizar al menos tres réplicas biológicas por tratamiento.
6
Se utiliza una codificación muy usada en computación, denominada ASCII, que asigna un número a cada carácter. En su uso corriente, permite transmitir información de texto entre equipos (¡que en el fondo sólo entienden de números!). 7 8
Fisher, R. A. (1935). The Design of Experiments. Ed. 2. Oliver & Boyd, Edinburgo Auer, P. L., y Doerge, R. W. (2010 ). Statistical design and analysis of RNA sequencing data. Genetics, 185:405-416
Figura 4 Fuentes de variación y diseño de un experimento. A. Réplicas biológicas: diferentes muestras biológicas, procesadas de modo independiente. Permiten medir la variación producida por los tratamientos biológicos, y hacer inferencias acerca de la población estadística; B. Réplicas técnicas: el mismo material de partida, pero con pasos independientes (desde la preparación de la biblioteca). Permiten tener una medida del error aleatorio del ensayo. Las líneas punteadas verticales indican qué tipo de variación aporta cada paso.
Por otra parte, el número de los ADNc secuenciados para un gen deben estar por arriba de un umbral de detección. Para mayor cantidad de lecturas totales (lo que se denomina profundidad de secuenciación o tamaño de biblioteca, hablándose por ejemplo de 10 millones o 100 millones de lecturas), mayor es la probabilidad de detectar un gen. La Figura 5 muestra lo que ocurre al variar el tamaño de biblioteca desde un punto de vista estadístico.
Figura 5 Una biblioteca de ARN puede pensarse como una bolsa que contiene una población de bolitas (transcriptos) de distintos colores. Los colores asignados corresponden a los genes de los cuales los transcriptos derivan (rectángulos inferiores). El número de colores posibles en la población es muy elevado. Al extraer un número representativo de bolitas, 1000 para dar un ejemplo, se puede intuir que la proporción de cada color en la muestra tenderá a ser similar a la proporción que posee en la bolsa; las bolitas más frecuentes en la población serán las más representadas en la muestra, y las menos frecuentes las menos representadas. Algunos colores directamente no aparecerán con este tamaño muestral. Al extraer ahora no 1000, sino 10000, algunos colores con baja frecuencia aparecen en la muestra (ya que el número de distintos colores en la bolsa es muy elevado, otros siguen sin aparecer). Así, a medida que se continúa aumentando el número de bolitas extraídas se detectan más genes, y el valor de frecuencia relativa de cada color, estimado a partir de la muestra, se va acercando al valor poblacional.
Como se verá en la parte del análisis de datos, luego del proceso de secuenciación se alinean todas las lecturas obtenidas al genoma de la especie de estudio9. Durante el proceso de secuenciación, en el que se genera un muestreo al azar de lecturas, algunas bases estarán más presentes en ellas y otras menos. La cobertura es el número promedio de lecturas que alinean en una base específica del genoma (dicho de otro modo, cuántas veces una base fue leída en promedio durante el proceso de secuenciación, Figura 6). Por ejemplo, una cobertura de 10X indica que una base fue secuenciada en promedio 10 veces.
9
En el caso de no tener acceso a un genoma de referencia se puede hacer lo que se denomina assembly de novo usando programas especializados que generan contigs , permitiendo reconstruir el transcriptoma a partir de los resultados del RNA-Seq
Figura 6 Lecturas alineadas al genoma de referencia. La cobertura es el número de lecturas que en promedio alinean a una posición (base) específica del genoma. El ejemplo muestra el caso para una cobertura 18X (esto quiere decir que para una determinada base alinean en promedio 18 lecturas).
La cantidad de secuenciación requerida varía en función de las preguntas que se hace el investigador y de la especie bajo estudio. En general10 se desea una cobertura > 10X. En determinados casos se requiere poca secuenciación, como cuando se quiere hacer un análisis global de los transcriptos presentes. En muchos otros se requiere gran cantidad de secuenciación, para dar con transcriptos de baja frecuencia.
La fórmula de Lander y Waterman11 describe la relación entre la cobertura, el largo de la lectura, el número de lecturas y el tamaño del genoma: C = L x N/G
Donde L es la longitud de la lectura, N es el tamaño de la biblioteca en cada réplica, y G es el tamaño haploide del genoma de referencia. Despejando, se puede obtener una estima de la cantidad de lecturas requeridas por réplica (N) como N= C x G / L Por ejemplo, para valores de L = 50 pb, C = 10X y G = 50 Mb ( = 50 106 pb) → N = 106 En el caso de lecturas pareadas, L es dos veces el valor que toma para lecturas simples; por ejemplo, L = 2 x 50pb = 100pb.
10 11
www.illumina.com/science/education/sequencing-coverage.html
Lander, E. S. y Waterman, S. (1988). Genomic Mapping by Fingerprinting Random Clones : A Mathematical Analysis. Genomics 239: 231 – 239
Análisis de los datos de RNA-Seq
Luego del proceso de secuenciación, el método estándar de análisis consiste en mapear todas las lecturas obtenidas a un genoma de referencia, utilizando alguno de los programas disponibles que permiten alinear secuencias cortas a gran velocidad12. Posteriormente se mide la expresión de cada gen contando el número de lecturas que alinean a su región codificante. Dicho de otro modo:
Nivel de expresión de un gen
cantidad de lecturas que alinean al mismo
El punto de partida para el análisis de los datos es generar una matriz de genes por muestras, donde cada celda corresponde al conteo de lecturas observadas para un gen en el tratamiento y réplica correspondiente (Figura 7).
Figura 7 Estructura de la matriz básica de datos para un análisis de RNA-Seq con dos tratamientos y tres réplicas por tratamiento. La matriz contiene la cantidad de lecturas (conteos) que alinean en un gen determinado (en este caso se indica uno de ellos como “gen x”).
El análisis posterior se basa en encontrar los genes que tienen un cambio significativo en abundancia entre condiciones experimentales. Estos genes con cambios significativos pueden clasificarse como up-
12
Algunos de los alineadores más utilizados son BWA, Bowtie y SubRead
regulados (expresión media del tratamiento mayor a la media de los controles) y down-regulados (expresión media del tratamiento menor a la media de los controles). Dos problemas hay asociados con el conteo de las lecturas: a) Transcriptos más largos van a producir más lecturas (contribuyen con más fragmentos, Figura 8A). Al comparar distintos tratamientos para un mismo gen, este efecto se cancela. b) La cantidad de lecturas totales entre bibliotecas suele diferir13 (efecto que se produce por variabilidad aleatoria generada al nivel de pasos técnicos). Más lecturas totales van a producir de modo proporcional más lecturas para un gen particular (Figura 8B). Por ello es necesario normalizar las muestras para el tamaño total de las bibliotecas, de modo de hacerlas comparables. No hay un único modo de normalizar, y diferentes normalizaciones tendrán efectos distintos sobre las estimaciones de expresión diferencial.
Figura 8 A. Transcriptos de diferentes longitud; B. bibliotecas de distinto tamaño
Dado un gen g , tres normalizaciones corrientes son: CPM (Counts Per Million) = 106 x (lecturas gen g ) / numero total de lecturas RPKM (R eads Per K ilobase of gene Per Million reads) = 109 x (lecturas gen g )/ [(longitud gen g ) x (número total de lecturas)] FPKM (Fragments Per K ilobase of gene per Million reads) = lo mismo que RPKM pero para lecturas pareadas, donde cada par se considera como una única lectura
13
En la práctica, el tamaño de biblioteca se refiere a una de dos cosas: el número total de lecturas secuenciadas o el número total
de lecturas mapeadas
Estas normalizaciones han sido criticadas, debido a que pueden producir artefactos en determinadas circunstancias (por ejemplo, cuando unos pocos genes muestran un alto número de conteos en uno de los tratamientos). Una vez elegida una forma de contar las lecturas de modo normalizado, la expresión diferencial puede estimarse como la relación de conteos entre las condiciones experimentales, esto es: cuántas veces para un gen un tratamiento muestra más expresión que el otro (lo que se denomina “Fold Change” [FC]). Para experimentos con réplicas, se toma la relación entre la expresión promedio para cada condición. Los valores de FC deben ser reescalados, debido a que los genes up-regulados pueden tomar valores entre 1 y cualquier valor positivo, mientras que los down-regulados toman valores entre 0 y 1. Primero, a los conteos se les suma el valor de 1 y luego a su cociente se le saca el logaritmo en base 2:
Log2FC = Log2([conteo tratamiento normalizado + 1]/ [conteo control normalizado +1])
El Log2FC es negativo para los genes down-regulados y positivo para los up-regulados, tomando el valor de 0 cuando no hay cambios entre tratamientos. El 1 se agrega para evitar dividir por cero cuando el conteo del control es nulo. La Figura 9 muestra para un set de datos real el efecto de sacar el logaritmo en base 2 del conteo de los datos + 1 (el cociente de estos valores es igual al Log 2FC por propiedad del logaritmo).
Figura 9 Histogramas para un set de datos, que muestran la proporción de lecturas para los genes usando valores de conteos crudos (A) o transformados en logaritmo base 2 (B). En A los valores están comprimidos a la izquierda del gráfico (lo que se conoce como una “distribución con cola pesada”). En B la distribución de los datos toma un aspecto normal.
A los valores de Log2FC se le da un valor de significancia en base al testeo de la siguiente hipótesis: H o: “el conteo promedio para el gen x en la muestra A es igual al conteo promedio del gen x en la muestra B ”. Los datos de conteos en este tipo de experimentos no permiten utilizar tests
tradicionales, por lo que se han desarrollado diversos métodos, que escapan a los objetivos de la presente introducción.
Figura 9 Tablas para valores de Log 2FC ordenadas según valor absoluto creciente. Tabla 1: genes up-regulados; Tabla 2: genes down-regulados. Extraido de Rolfe y col., 201614
Análisis Downstream
Una vez que se identificaron los genes con expresión diferencial, se pueden realizar diversos análisis. Entre los más comunes, los genes pueden analizarse por medio de análisis de enriquecimiento funcional15, que consiste en mapearlos a una lista de funciones biológicas utilizando recursos como Gene Ontology o KEGG, y encontrar aquellas que se encuentran estadísticamente enriquecidas (Figura 10).
14
Rolfe, A. J., Bosco, D. B., Wang, J., Nowakowski, R. S., Fan, J., y Ren, Y. (2016). Bioinformatic analysis reveals the expression of unique transcriptomic signatures in Zika virus infected human neural stem cells. Cell & Bioscience, 6:1 15
Reimand, J., Arak, T., Adler, P., Kolberg, L., Reisberg, S., Peterson, H., y Vilo, J. (2016). g: Profiler — a web server for functional interpretation of gene lists (2016 update). Nucleic acids research, gkw199
Figura 10 Enriquecimiento para funciones relacionadas con el metabolismo de ácidos grasos. Extraído de Rolfe y col., 2016 (ver cita número 14)