Análisis de la variación genética en muestras de exomas asociadas a patologías en pacientes colombianos de la IPS Biotecgen S.A.S.

Resumen

La secuenciación de exomas humanos alrededor del mundo ha permitido establecer patrones de variación genética a escala global útiles para brindar una interpretación clínica de variantes. Sin embargo, las bases de datos públicas disponibles, actualmente no reflejan adecuadamente las frecuencias alélicas de poblaciones como la colombiana lo cual se convierte en una limitante importante a la hora de brindar una interpretación clínica de variantes apropiada al contexto específico de diagnóstico genético del país. Por este motivo, se propuso la identificación, la determinación de las frecuencias alélicas y el posterior análisis de variantes de 632 muestras de WES de Biotecgen S.A.S. mediante un flujo de trabajo de control de calidad, alineamiento y llamado de variantes. Se identificaron 1 881 670 SNVs bialélicos y 260 006 Indels . El conjunto presentó una mayor proporción de variantes raras (MAF<0,01). El 88% de las variantes fueron SNVs. Los Indel estuvieron mayormente representados (63%) por deleciones con un tamaño menor a 6 bases. En la clasificación por consecuencia funcional la mayor proporción estuvo representada por missense (55.4%), seguida de sinónimas (43.7%) y nonsense (0.9%). La mayor proporción de loci se encontró en equilibrio de Hardy-Weinberg (p>0.05). Finalmente, las frecuencias alélicas integradas a VarSeq se encuentran actualmente disponibles para los analistas de datos ómicos de Biotecgen S.A.S. proporcionando información relevante para la interpretación clínica de variantes y siendo potencialmente valiosas para futuros estudios de ascendencia genética y estructura poblacional en la cohorte de pacientes colombianos de Biotecgen S.A.S.

Descripción

Abstract

The sequencing of human exomes around the world has made it possible to establish patterns of genetic variation at a global level that are useful to provide a clinical interpretation of variants. However, the public databases currently available do not adequately reflect the allele frequencies of populations such as the Colombian population, which becomes an important limitation when it comes to providing a clinical interpretation of variants appropriate to the specific context of genetic diagnosis in the country. For this reason, we proposed the identification, determination of allele frequencies and subsequent variant analysis of 632 WES samples from Biotecgen S.A.S. through a workflow of quality control, alignment and variant calling. A total of 1 881 670 biallelic SNVs and 260 006 Indel were identified. The set presented a higher proportion of rare variants (MAF< 0,01). In the classification by functional consequence the highest proportion was represented by missense (55.4%), followed by sinónimas (43.7%) and nonsense (0.9%). Eighty-five percent of the variants were SNVs. Indels were mostly represented (63%) by deletions smaller than 6 bases in size and the highest proportion of loci was found in Hardy-Weinberg equilibrium (p>0.05). Finally, allele frequencies integrated to VarSeq are currently available to Biotecgen S.A.S. omics data analysts providing relevant information for the clinical interpretation of variants and being potentially valuable for future studies of genetic ancestry and Colombian population structure.

Palabras clave

Frecuencia-alélica, Variante, SNV, Indel

Keywords

Allele-frequency, Variant, SNV, Indel

Temáticas

Citación

Colecciones