Introducción
Posterior al desarrollo de la metodología de secuenciación de Frederick Sanger (1), se ha incentivado el crecimiento de la genómica y demás ciencias -ómicas. La secuenciación de Sanger consiste en el uso de didesoxinucleótidos (ddNTPs); análogos químicos de los nucleótidos sin el grupo hidroxilo en el extremo 3’, lo cual inhibe la extensión de la cadena de ADN en la replicación (2). Esta técnica emplea una combinación de cada ddNTP individual marcado radioactivamente junto a nucleótidos tradicionales, permitiendo el alargamiento de la cadena de ADN hasta la incorporación de un ddNTP; los resultados son analizados por medio de electroforesis capilar para determinar la secuencia según las distancias de corrida (1).
En 1990, la técnica de Sanger fue automatizada y utilizada para la secuenciación del genoma humano, como parte del Proyecto del Genoma Humano (HGP, por sus siglas en inglés), el cual se finalizó en el 2001 (3). Los resultados obtenidos favorecieron a la identificación de alelos deficientes asociados a enfermedades como la fibrosis quística, lo que permitió enfocar investigaciones al desarrollo de su tratamiento (4). En la actualidad, el genoma humano sigue siendo actualizado agregando zonas de heterocromatina y otras regiones cromosómicas no representadas en el primer genoma de referencia, desbloqueando nuevas secuencias para estudios funcionales (5).
En este sentido, el desarrollo de las diferentes ciencias -ómicas ha tenido múltiples aplicaciones como la caracterización y entendimiento de las rutas metabólicas para la manipulación y mejoramiento genético, planteamiento de plataformas industriales de biomanufactura, detección de predisposiciones genéticas, procesos fisiopatológicos y epidemiología de enfermedades, entre otras (6)–(8). Dada su aplicabilidad en diversos aspectos, el desarrollo de nuevas tecnologías de menor costo y mayor eficiencia ha sido uno de los principales enfoques recientes, llevando a las siguientes generaciones en técnicas de secuenciación (9).
La primera generación consiste en la secuenciación de Sanger y Maxam Gilbert; la segunda generación o next generation sequencing (NGS) engloba técnicas de empresas como Illumina Inc., principalmente. Finalmente, la secuenciación de tercera generación se relaciona con los sistemas de empresas como Pacific Biosciences (PacBio) y Oxford NanoPore Technologies Inc. (ONT) (9). En esta revisión se analiza y compara las principales metodologías de secuenciación de segunda y tercera generación, describiendo su fundamento bioquímico, aspectos de lectura, dispositivos y accesibilidad.
Tecnologías de Secuenciación
La secuenciación genética consiste en la determinación de la secuencia de nucleótidos de secciones de material genético (9). Cada tecnología de secuenciación bajo su propio mecanismo bioquímico da lugar a lecturas de información (reads), que reflejan los resultados de la secuenciación (10). Estos resultados consisten en un conjunto complejo de múltiples caracteres que son transformados y analizados posteriormente mediante programas bioinformáticos (11). Asimismo, la información generada se interpreta de diferente manera según el objetivo del estudio, ya sea en metagenómica, transcriptómica o secuenciación de genomas completos.
Se han desarrollado gran variedad de interfaces para el análisis, organización y visualización de los resultados de secuenciación. Programas como NanoPlot y FastQC generan resúmenes y representaciones gráficas de los datos. NanoPlot se emplea en el procesamiento de secuencias de lectura larga (12), mientras que FastQC se utiliza para lecturas cortas (13).
Asimismo, los resultados de una secuenciación conllevan un proceso de recorte genómico (genomic trimming); el cual consiste en una eliminación de lecturas de baja calidad o longitud indeseada (14). Para ensamblar los genomas se emplean plataformas como Unicycler (15), que realizan el acomodamiento de las lecturas cortas y largas para la generación de un archivo con el genoma completo en formato fasta; este ensamblaje se puede realizar de novo o mediante un genoma de referencia. Una vez obtenido el genoma, este puede analizarse de diversas formas dependiendo de la finalidad del estudio, como alineamiento con otros genomas, estudiar relaciones filogenéticas y realizar anotaciones sobre los distintos genes presentes (genome mining) (16), (17).
Fundamento bioquímico de las técnicas de secuenciación
Segunda generación
La secuenciación de segunda generación consiste en plataformas que producen gran cantidad de lecturas cortas (25-400 bp) de secuencias de ADN (18). En esta generación destaca la empresa Illumina Inc., actualmente dominante en el mercado. Asimismo, otras empresas como Roche 454, AB SOLiD y Ion Torrent fueron desarrolladas en torno a este modelo; sin embargo, fueron desplazadas y/o descontinuadas por la innovación de la tecnología de Illumina.
El concepto detrás de la tecnología NGS es similar a la técnicas de secuenciación de Sanger, previamente descrita (19). La tecnología de Illumina utiliza el método de secuenciación por síntesis (sequencing by synthesis, SBS), permitiendo la lectura paralela de millones de fragmentos por medio de la detección de las bases individuales a medida que se incorporan a las cadenas de ADN en crecimiento (19), (20). La ADN polimerasa cataliza la incorporación de desoxirribonucleótidos trifosfato (dNTP) marcados con fluorescencia a una hebra molde de ADN durante ciclos secuenciales de síntesis. Durante cada ciclo los nucleótidos se identifican mediante excitación del fluoróforo (19), creando una imagen de un terminador reversible marcado fluorescentemente a medida que se añade cada dNTP, y luego se separa para el ingreso de la siguiente base. Al finalizar, se obtiene una secuenciación base por base con datos de alta precisión y calidad, para una gran variedad de usos, como el ensamblaje de novo, la resecuenciación, la identificación de mutaciones de interés clínico y la metagenómica (19), (21).
Tercera generación
Las técnicas de secuenciación masiva de ácidos nucleicos de segunda generación presentan debilidades, principalmente en cuanto a la capacidad de generar lecturas extensas (>1 kb). Para satisfacer estas necesidades se desarrollaron las tecnologías de tercera generación (third-generation sequencing, TGS), las cuales permiten extensiones de hasta 2.3 Mb y no requieren de una amplificación preliminar, disminuyendo la incidencia de pérdidas de marcas epigenéticas (22).
Existen dos proveedores altamente utilizados para la secuenciación de lecturas largas: Pacific Biosciences y Oxford Nanopore Technologies Inc. PacBio tiene la capacidad de generar lecturas HiFi (High Fidelity) con una resolución alta por base. Por su parte, ONT puede generar lecturas con una extensión de hasta 2 Mb (23). Además, existen otras plataformas emergentes de TGS, como Molecu y 10X Genomics, basadas en el ensamblaje de lecturas cortas para generar lecturas largas sintéticas (24). En este artículo se exploran las tecnologías de PacBio y ONT, dado que son las más establecidas y comercializadas.
La tecnología de Oxford Nanopore Technologies fue lanzada en el 2014 y utiliza la secuenciación por nanoporos, los cuales emplean el perfil eléctrico de cada nucleótido de ADN y ARN para su identificación (25). Estos canales permiten el paso de una molécula a la vez, detectando cambios en la corriente eléctrica característicos de cada nucleótido (22). El fundamento de la secuenciación de ONT permite la lectura directa de secuencias de ARN, siendo esta la única tecnología con dicha capacidad (26), (27).
Por otro lado, la empresa Pacific Biosciences es líder de la tercera generación, con la tecnología de secuenciación en tiempo real de una sola molécula (Single-Molecule, Real-Time, SMRT) lanzada en el 2011 (28). Esta produce lecturas largas de 3000-15000 bp, se utiliza ampliamente para la elaboración de perfiles filogenéticos de microbiomas por medio de una clasificación taxonómica a nivel de género; así bien, también es utilizada en estudios genómicos, transcriptómicos, epigenómicos, metagenómicos y de ensamblaje de novo (24), (29).
La estrategia de secuenciación de PacBio consiste en una modificación de la SBS de Illumina, en la cual se logra capturar una sola molécula de ADN que ingresa a celdas de flujo con tecnología de guía de onda de modo cero (zero-mode waveguide, ZMW) (22). La ZMW es un dispositivo focalizador de la luz hacia un punto específico, lo que permite el registro preciso de la señal lumínica emitida por un fluoróforo unido a un nucleótido específico (22), (30).
Comparación entre tecnologías de segunda y tercera generación
Características de la secuenciación
Las tecnologías de secuenciación de Illumina se caracterizan por la lectura de fragmentos cortos de ADN (31). Este tipo de secuenciación se recomienda para análisis de variantes clínicas, ya que es altamente preciso y eficiente, permitiendo la identificación de variaciones genéticas de menor frecuencia (32), (33). Su rendimiento se considera más alto que las tecnologías de tercera generación, y la preparación de la muestra, más compleja al requerir una amplificación por PCR (27), (34), (35). A pesar de una baja tasa de error (0.01%), cuenta con algunos sesgos y limitaciones. En primer lugar, la lectura de secuencias cortas se ve limitada ante las repeticiones en tándem del ADN. Esto puede causar errores en la lectura en forma de gaps y complicaciones en el ensamblaje (36). Se han reportado errores en sustituciones; es decir, el reemplazo de una base por otra no correspondiente, y errores menos frecuentes (p. ej. inserciones, deleciones, errores específicos) a ciertos motifs e interferencias entre muestras multiplexadas (21), (37). Algunos de estos se adjudican a sesgos por el contexto de la secuencia, así como procesos químicos relacionados a la tecnología de secuenciación y la preparación de las librerías genómicas (31), (38).
Seguidamente, Oxford Nanopore Technologies Inc. ha desarrollado tecnologías de secuenciación para longitudes de fragmentos especialmente largos, siendo esta característica una de sus principales ventajas. La secuenciación de fragmentos largos brinda ventajas al momento de realizar el ensamblaje genómico, como una mayor repetividad de fragmentos, cobertura y probabilidad para el cierre del genoma, en comparación con ensamblajes de secuencia cortas (39), (40). Asimismo, ONT es la única tecnología en el mercado que permite la secuenciación de ARN de forma directa. Dicho estilo de secuenciación favorece el estudio de organismos cuyo material genético se encuentra basado en ARN, como algunos virus, y colabora con el análisis de estructuras genéticas relacionadas, como los ARN largos no codificantes y retrotransposones (41), (42). Además, es destacable la mejora en el análisis de organismos cuyo genoma completo no se encuentra reportado o ensamblado en una sola secuencia (contig) (43). Por ejemplo, una nueva actualización del genoma humano con regiones que no habían sido previamente secuenciadas fue reportado recientemente con ayuda de las tecnologías de secuenciación de ONT (5), y el ensamblaje de cromosomas bacterianos y de microorganismos en un único contig ha sido favorecido de la misma forma (44)–(46).
Sin embargo, una de las principales desventajas de las tecnologías de secuenciación de fragmentos largos se relaciona a la calidad de las lecturas. La amplia longitud de las secuencias leídas aumenta la tasa de error, tendencia mantenida a lo largo de las secuenciaciones para ADN y ARN de forma directa e indirecta (32), (35), (47). En las tecnologías de ONT, la tasa de error se ha presentado con una media de <0.1% (25).
Finalmente, la tecnología de secuenciación de PacBio permite la medición en tiempo real de la incorporación de nucleótidos de acuerdo con señales de luz emitidas por el sistema (28), (30). Este es utilizado para la lectura de cadenas largas de ADN y ARN indirectamente, sin que se comprometa la precisión. Por lo cual, su secuenciación es libre de error sistemático al contar con más de un 99.999% de precisión por consenso (28). Asimismo, la secuenciación cuenta con bajo sesgo por contexto de la muestra, un mapeo preciso de las lecturas y cobertura uniforme al no haber desviaciones por el contenido de bases GC. Una característica distintiva de este tipo de secuenciación es su análisis epigenómico sin la necesidad de amplificar por PCR; el sistema es capaz de detectar directamente modificaciones a las bases durante la secuenciación, especialmente la metilación 5mC (30). Esto sirve para eliminar la necesidad de alguna modificación química para realizar esta clase de estudios, reduciendo costos, tiempo y aumentando la eficiencia experimental (30). Adicionalmente, PacBio ha sido empleada para la secuenciación a partir de una célula (single-cell sequencing), técnica que favorece el estudio de haplotipos y mutaciones de ultra baja frecuencia posiblemente asociadas a patologías (48)–(50).
Dispositivos
Illumina cuenta con una línea de secuenciadores de sobremesa (benchtop sequencers) y otra de secuenciadores de producción a escala (production-scale sequencers) (51). Los secuenciadores sobremesa (cuadro 1) poseen la capacidad de realizar secuenciaciones de genoma completos, secuenciación dirigida, ARN y análisis metagenómicos de 16S. Por su parte, la línea de secuenciadores de producción a escala (cuadro 2) poseen las mismas funciones que los secuenciadores benchtop con un mayor poder de procesamiento. Los precios de los distintos dispositivos son protegidos por la compañía. Sin embargo, las ventas de servicios para MiSeq se estiman en $185.71 por muestra al secuenciar 24 muestras multiplexadas, tomando en cuenta los costos de preparación de las librerías genómicas (35). Una característica distintiva de estos equipos es tener un rendimiento masivo con un costo de miles de dólares para una corrida sencilla, resultando en un costo por muestra bajo, pero costo por corrida alto (27).
Cuadro 1 Dispositivos de secuenciación de sobremesa benchtop de las tecnologías de segunda y tercera generación 51–54
Illumina | ONT | |||||
iSeq 100 | MiniSeq | MiSeq | NextSeq 550 | MinION | GridION | |
Portabilidad | No | No | No | No | Sí | No |
Tiempo de corrida (h) | 9.5-19 | 4-24 | 4-55 | 12-30 | ~72 | ~72 |
Longitud máxima (bp) | 150 | 150 | 300 | 150 | 10000 | 10000 |
Lecturas totales (mill) | 4 | 25 | 25 | 400 | 110 | 110* |
Uso en DIV | No | No | Sí** | Sí** | No | No |
Costo | No disp. | No disp. | $128000 | No disp. | $1000-4900 | $50000 |
DIV = diagnóstico in vitro. No disp. = No disponible. *Por celda, GridION permite hasta 5 celdas por ejecución. **Las versiones Dx de los dispositivos. Pacific Bioscience no posee ningún dispositivo de sobremesa comercializado.
Con respecto a los distintos dispositivos de ONT, en el mercado hay disponibles cuatro equipos principales, entre estos se pueden mencionar los secuenciadores de sobremesa: MiniION y GridION (cuadro 1), y un equipo de producción a escala: PromethION (cuadro 2) (53), (54). Dichos equipos poseen la capacidad de secuenciar genomas y transcriptomas completos de forma directa e indirecta y secuenciaciones dirigidas; así bien, el equipo a escala permite realizar análisis poblacionales y metagenómicos. El MinION y GridION son tecnologías que emplean celdas de flujo específicas con 512 nanoporos; mientras que, el PromethION utiliza celdas con 2675 nanoporos, brindándole 6 veces mayor capacidad de procesamiento simultáneo. Las celdas de 512 nanoporos poseen un valor de $900, y las de 2675 nanoporos presentan un costo de $2400 (54). El cuarto equipo desarrollado corresponde a un adaptador para MinION y GridION llamado Flonge, el cual permite la realización de secuenciaciones pequeñas con celdas de flujo de un solo uso; dichas celdas poseen la capacidad de secuenciación de ~24 horas en condiciones óptimas. Este dispositivo presenta un valor de $1460, donde se incluyen adicionalmente 12 celdas de flujo. Así bien, sus celdas pueden ser compradas de forma independiente en paquetes de nueve y cuentan con un precio de $810 (53), (54).
Cuadro 2 Dispositivos de secuenciación de producción a escala productionscale de las tecnologías de segunda y tercera generación 51 53–55
Illumina | ONT | PacBio | |||
NextSeq 1000 & 2000 | NovaSeq X | NovaSeq 6000 | PromethION 2, 24 y 48 | Sequel II y IIe | |
Tiempo de corrida (h) | 11-48 | 13-48 | 13-44 | ~72 | 30 |
Longitud máxima (bp) | 150 | 150 | 250 | 10000 | 4000000 |
Lecturas totales (bill) | 1.2 | 1.6-52 | 20 | 0.110* | ~99 |
Output | 360 Gb | 165-16000 Gb | 6 Tb – 20 B | 7-14 Tb* | 30 Gb |
Costo | No disp. | No disp. | No disp. | $225000 | $495000 |
No disp. = No disponible. *Por celda, existen tres versiones de PromethION (2, 24 y 48), que difieren en la cantidad de celdas por ejecución (dos, 24 o 48 celdas).
En relación con PacBio, esta empresa posee una única línea desarrollada de secuenciadores a escala llamada Sequel, cuyos los principales dispositivos utilizados son: Sequel II y IIe (cuadro 2) (55). Estos permiten la secuenciación de todo tipo de genomas, transcriptomas y epigenomas. Un servicio de la secuenciación de 30 horas por medio de Sequel II presenta un valor mayor a los $3000 por muestra; esto según las cotizaciones generadas por la Universidad de Washington (University of Washington) (56).
Disponibilidad de servicios
Illumina Inc. cuenta con oficinas comerciales en Estados Unidos, Australia, Alemania, China, Francia, Japón, América Latina, Corea, Holanda, Singapur y el Reino Unido; paralelamente, tiene dos centros de manufactura, investigación y desarrollo en California (Estados Unidos) y Woodlands (Singapur) (57). Por su parte, Oxford Nanopore Technologies Inc. presenta sitios de contacto en Estados Unidos, Reino Unido, Singapur, China y Japón, así como una gran cantidad de distribuidoras a nivel mundial (58). Sin embargo, solamente existe una distribuidora encargada de la cobertura de los países centroamericanos y ciertos países de América Latina (Interprise) (59). Finalmente, PacBio posee diferentes sedes en Estados Unidos, Reino Unido, China, Singapur y Japón, con su principal ubicada en Menlo Park (California, Estados Unidos) (60). De la misma forma posee múltiples distribuidores ubicados a lo largo del pacífico de Asia, Europa, Medio Oriente y América. En este sentido, ninguna de las sedes actuales cubre a los países centroamericanos, y el único país latinoamericano con distribuidora para esta empresa es México (61).
Consideraciones futuras
La creación y actualización de programas bioinformáticos, añadiendo funciones prácticas para el estudio de las secuencias y evitando la polarización del tipo de datos (reads largos o cortos) para el análisis híbrido, representa otra área de desarrollo. Por ejemplo, Next Generation Sequencing Eclipse Plugin (NGSEP) agrega la función de “Estadísticas sobre poblaciones genotipadas”, útil en el análisis de la estructura poblacional, construcción de mapas genéticos, mapeo genético de rasgos complejos y predicción de fenotipos para la selección genómica, así complementando las posibilidades de análisis genómico (61). De la misma forma, los ensambladores híbridos de Unicycler (15) y SPAdes (62) son tecnologías emergentes que permiten la utilización de datos de distintas generaciones de secuenciación, favoreciendo a los ensamblajes en un solo contig de mayor calidad y completitud (63).
Asimismo, es relevante la expansión del uso de estas tecnologías por medio del aumento del soporte técnicos y la disponibilidad de servicios, especialmente a países latinoamericanos. Esto considerando los beneficios asociados en espacios científicos, clínicos y demás áreas (64), (65). Algunos obstáculos relacionados a la inequidad, el estado de desarrollo, la falta de cobertura de las empresas y la migración de profesionales, deben de ser abordados con la finalidad de permitir el fortalecimiento de dichas tecnologías (66)–(68).
Conclusiones
En conclusión, las tecnologías de secuenciación representan una herramienta importante para el desarrollo de la investigación, la industria y la clínica. Illumina, Oxford Nanopore Technologies y PacBio son las empresas de mayor auge a nivel mundial con tecnologías de secuenciación de segunda y tercera generación. Los fundamentos de estas secuenciaciones emplean la secuenciación por síntesis, nanoporos o una única molécula en tiempo real. Así bien, Illumina se concentra en lecturas de fragmentos cortos, mientras que ONT y PacBio, en lecturas de fragmentos largos. Cada una posee ciertas desventajas relacionadas, como baja calidad en las lecturas largas o complicaciones en el ensamblaje de lecturas cortas. Asimismo, estas empresas difieren en otros aspectos relacionados a los dispositivos disponibles, las posibles aplicaciones y su accesibilidad (cuadro 3).