Los virus representan las formas de vida más abundantes en el planeta
Enviado por karenmendoza05 • 29 de Agosto de 2017 • Resumen • 3.210 Palabras (13 Páginas) • 227 Visitas
IMG / VR: una base de datos de ADN cultivado y sin cultivar Virus y retrovirus
ABSTRACTO
Los virus representan las formas de vida más abundantes en el planeta. Las recientes mejoras experimentales y computacionales han llevado a un aumento dramático en el número de secuencias del genoma viral identificadas principalmente a partir de muestras metagenómicas. Como resultado del catálogo en expansión de secuencias virales metagenómicas, existe una necesidad de una plataforma computacional completa que integre todas estas secuencias con metadatos asociados y herramientas analíticas. Aquí presentamos IMG / VR (https://img.jgi.doe.gov/vr/), la mayor base de datos pública disponible de 3908 virus aislados de ADN de referencia con 264 413 computacionalmente identificados contigs virales de> 6000 muestras metagenómicas ecológicamente diversas. Aproximadamente la mitad de los contigs virales se agrupan en racimos genéticamente distintos de cuasi-especies. Los hospedadores microbianos se pronostican para 20 000 secuencias virales, revelando nueve filamentos microbianos previamente no reportados para ser infectados por virus. Las secuencias virales pueden ser consultadas utilizando una variedad de metadatos asociados, incluyendo el tipo de hábitat y la ubicación geográfica de las muestras, o
Clasificación taxonómica según los genes virales de sello. IMG / VR tiene una interfaz fácil de usar que permite a los usuarios interrogar todos los datos integrados e interactuar comparando con secuencias externas, sirviendo así como un recurso esencial en la comunidad de genómica viral.
INTRODUCCIÓN
Los virus son actores clave en la naturaleza capaz de infectar a los organismos de los tres dominios de la vida y se encuentran a través de todos los nichos ecológicos conocidos (1) por lo tanto, afectan los ciclos biogeoquímicos y la dinámica de los ecosistemas (1-5). Sin embargo, debido a limitaciones relacionadas principalmente con su identificación y cultivo, la detección de virus ambientales permaneció muy limitada hasta el advenimiento de enfoques metagenómicos (6). Desde entonces, se ha examinado una serie de viromas ambientales que ofrecen una visión más amplia de la diversidad y distribución de los virus (7-13). Desafortunadamente, esta información suele permanecer dispersa en diferentes repositorios,
Como bases de datos generales de repositorios de datos (por ejemplo, GenBank (14) o EMBL (15)) o bases de datos específicas de virus (por ejemplo, recurso de patógeno de virus (16)), base de datos de virus recombinante (17) y hepatitis
B (18)). Además, los metadatos, como la fuente de aislamiento o el hábitat donde se identificó originalmente el virus, o la información sobre su huésped putativo, a menudo permanecen esquivos o no están disponibles en varias de estas bases de datos. Los trabajos más recientes están haciendo un gran progreso hacia un esfuerzo para proporcionar un recurso centralizado para datos virales y herramientas asociadas (19). Sin embargo, a pesar de los excelentes recursos existentes, todavía carecemos de un entorno de gestión y visualización de datos que integre los genes virales, los genomas, los conglomerados, las funciones, el huésped asociado y el hábitat con herramientas analíticas que permitan un análisis comparativo a gran escala del
Virome global Con el fin de aliviar algunas de las limitaciones de recursos existentes y permitir a la comunidad acceder y analizar una versión ampliada de los datos de genómica viral recientemente emergentes, hemos desarrollado IMG / VR, un sistema de análisis viral integrado dentro de las muestras de genomas microbiológicos integrados con microbiomas. IMG / M) sistema de gestión de datos
(20). IMG / VR proporciona la mayor integración de secuencias virales con los metadatos asociados y permite a los usuarios explorar estos datos para descifrar los patrones biogeográficos y de distribución del hábitat de las especies virales, así como viajar a través de todos los hosts identificados supuestamente infectados con secuencias virales. Además, los usuarios pueden comparar y analizar sus secuencias con respecto a los datos de IMG / VR (incluyendo modelos de familia de proteínas virales, información de clones virales y singleton, patrones de distribución de secuencias virales similares en todo el mundo, porcentaje de genes conocidos y desconocidos por secuencia e información sobre Taxonomía viral y putativo huésped-viral (s)), integrado con una variedad de herramientas analíticas. Anticipamos que IMG / VR se convertirá en un recurso de referencia para el análisis de secuencias de genomas virales y contigs virales derivados de muestras metagenómicas.
RESULTADOS
IMG / VR es un recurso de gestión de datos para la visualización y análisis de secuencias virales integradas con metadatos asociados dentro del sistema IMG / M (20). IMG / VR proporciona
Una integración única de secuencias virales con metadatos asociados, incluyendo la conexión a huéspedes putativos, y tipos de hábitat.
Datos integrados en IMG / VR
Secuencias virales. El sistema IMG / VR es un recurso integrado para la gestión de datos virales y metadatos asociados dentro del sistema IMG / M (20). En su primera publicación pública, IMG / VR contiene un total de 268 320 secuencias virales de los dos genomas aislados del virus (iVGs) y metagenomic viral
Contigs (mVCs). Los 264 413 mVCs actualmente proporcionados por el sistema se obtuvieron a partir de 2981 muestras metagenómicas (de una lista de más de 6000 muestras totales examinadas) geográficamente
Y hábitats ecológicamente diversos según el sistema de clasificación de la base de datos Genomes OnLine (GOLD) (21,22). MVCs se identificaron utilizando un enfoque computacional descrito en Paez-Espino et al. (11). Brevemente, se construyó un conjunto de más de 25 mil familias de proteínas virales (VPFs) a partir de mVCs identificados manualmente y aislaron genomas virales de virus dsDNA y retrovirus disponibles en NCBI (a partir de abril de 2015). Este conjunto de VPFs (vínculo de acceso en datos complementarios) se usó como cebo para identificar secuencias virales de contigs metagenómicos ensamblados mayores de 5 kb. En aproximadamente una cuarta parte de todos los mVCs la cobertura genética total por contig por VPFs fue muy alta (al menos 70%) aunque, curiosamente, en otro trimestre (que representa ~60.000 mVCs) la cobertura fue inferior al 35%, lo que indica que un gran volumen Del contenido de genes virales sigue siendo desconocido. En total, los 264 413 mVCs codifican 6,1 millones de proteínas, la mayoría de las cuales (94,9%) no tuvo hits a los genes de función conocida en el momento de la anotación. Agrupamiento de secuencias virales. Todas las secuencias virales en IMG / VR se agrupan en grupos de secuencias relacionadas, que van de 1 a 349 miembros por grupo. 122 665 secuencias (46% del total) pertenecen a un solo miembro de clusters o singletons (representado con un prefijo 'sg' y un identificador numérico), mientras que el resto 145 655 secuencias (143 532 mVCs y 2123 iVGs) se agruparon en 39 701 viral Clusters (representados con un prefijo 'vc' y un identificador numérico) de dos miembros o más. De ellos, la mayoría de los grupos (52%) tienen sólo dos miembros, mientras que el 4,5% tiene 10 o más miembros.
...