Diseño e implementación de un algoritmo para la identificación de comunidades microbianas con potencial uso en la biorremediación de ríos contaminados con cromo (VI)

Resumen

El cromo (VI) es un compuesto altamente contaminante debido a su naturaleza mutagénica y cancerígena, genera efectos negativos en microorganismos y plantas. La industrialización ha provocado que la concentración de estos contaminantes aumente, afectando las fuentes de agua y los suelos. Se han desarrollado nuevos enfoques biotecnológicos para el tratamiento de aguas residuales, donde el uso de microorganismos ha generado resultados prometedores en términos de eliminación, sin embargo, estos tratamientos pueden mejorarse mediante el análisis de datos de microbiomas. El objetivo de este proyecto fue desarrollar un algoritmo para la identificación de comunidades microbianas, basado en perfiles taxonómicos y funcionales, con potencial uso para la biorremediación de ríos contaminados con cromo (VI). Para ello, se utilizó información de artículos y bases de datos que indicaban comunidades microbianas presentes en ríos contaminados con cromo (VI); luego se usaron estos datos para determinar los perfiles funcionales y taxonómicos de las comunidades microbianas. Se generaron mapas metabólicos para identificar las enzimas clave involucradas en la biorremediación del cromo. La información taxonómica y funcional se analizó en un algoritmo basado en aprendizaje automático para identificar características en comunidades microbianas con potencial para remediar el cromo (VI). Se encontraron 50 artículos donde, el 71.2% contenían datos de amplicón 16S rRNA, el 17.3% datos metagenómicos, el 7.7 % librerías de clones, el 1.9% datos de amplicón 18S rRNA y el 1.5% de proteínas. En el análisis taxonómico realizado a través de Kbase y QIIME 2 se observó predominancia de los phylum Proteobacteria, Firmicutes, Bacteroidetes y Acidobacteria y especies como Bacillus sp., Halomonas sp. y Comamonas sp. en las muestras provenientes de efluentes de curtiduría. Estas cepas bacterianas han sido estudiadas por su capacidad de remediar metales pesados e hidrocarburos. A partir del análisis funcional se encontró la importancia de los donadores de electrones y la fuente de carbono en los procesos de remediación. Se implementaron dos clasificadores (árbol de decisión y bosques aleatorios), donde se comparó el rendimiento de cada uno usando 5 características obtenidas a través un análisis a partir de Chi2 y 136 características obtenidas a partir de bosques aleatorios. Entre estos métodos se encontró que las características K02227, K02232, K02233 y K10617 estuvieron relacionadas en ambos resultados. El rendimiento en el modelo de bosques aleatorios (RF) usando las características seleccionadas a través de Chi2 fue: exactitud del 88% y 81% (set de entrenamiento; set de validación) a comparación del análisis realizado con las características a partir del modelo de bosques aleatorios donde se obtuvo una exactitud del 100% y 63% (set de entrenamiento; set de validación). La clasificación través del modelo de RF donde, Marinobacter hidrocarbonoclasticus y Bacillus paralicheniformisse consideraron como microorganismos con alto potencial de remediación, mientras que el orden Campylobacterales tiene bajo potencial de remediación. Con la implementación del proyecto en otros ámbitos, sería posible apoyar las investigaciones y brindar soluciones en áreas como biotecnología y / o bioprocesos.

Descripción

Abstract

Chromium (VI) is a highly polluting compound due to its mutagenic and carcinogenic nature, it generates negative effects on microorganisms and plants. Industrialization has caused the concentration of these pollutants to increase, affecting water sources and soils. New biotechnological approaches have been developed for wastewater treatment, where the use of microorganisms has generated promising results in terms of elimination, however, these treatments can be improved by analyzing microbiome data. The objective of this project was to develop an algorithm for the identification of microbial communities, based on taxonomic and functional profiles, with potential use for the bioremediation of rivers contaminated with chromium (VI). For this, information from articles and databases was used that indicated microbial communities present in rivers contaminated with chromium (VI); These data were then used to determine the functional and taxonomic profiles of the microbial communities. Metabolic maps were generated to identify the key enzymes involved in chromium bioremediation. Taxonomic and functional information was analyzed in an algorithm based on machine learning to identify characteristics in microbial communities with the potential to remediate chromium (VI). Fifty articles were found where 71.2% contained 16S rRNA amplicon data, 17.3% metagenomic data, 7.7% clone libraries, 1.9% 18S rRNA amplicon data and 1.5% proteins. In the taxonomic analysis carried out through Kbase and QIIME 2, a predominance of the phylum Proteobacteria, Firmicutes, Bacteroidetes and Acidobacteria and species such as Bacillus sp., Halomonas sp. and Comamonas sp. in samples from tannery effluents. These bacterial strains have been studied for their ability to remediate heavy metals and hydrocarbons. From the functional analysis, the importance of electron donors and the carbon source in remediation processes was found. Two classifiers were implemented (decision tree and random forests), where the performance of each one was compared using 5 characteristics obtained through an analysis from Chi2 and 136 characteristics obtained from random forests. Among these methods, it was found that the characteristics K02227, K02232, K02233 and K10617 were related in both results. The performance in the random forest (RF) model using the characteristics selected through Chi2 was: accuracy of 88% and 81% (training set; validation set) compared to the analysis performed with the characteristics from the model of Random forests where 100% and 63% accuracy was obtained (training set; validation set). The classification through the RF model where, Marinobacter hydrocarbonoclasticus and Bacillus paralicheniformis were considered as microorganisms with high remediation potential, while the Campylobacterales order has low remediation potential. With the implementation of the project in other areas, it would be possible to support research and provide solutions in areas such as biotechnology and / or bioprocesses.

Palabras clave

Aprendizaje automático, Perfil funcional, Perfil taxonómico, Comunidad microbiana, Biorremediación

Keywords

Machine learning, Functional profile, Taxonomic profile, Microbial community, Bioremediation

Temáticas

Contaminación del agua
Biodegradación ambiental

Citación

Colecciones