Datataxa: a new script to extract metadata sequence information from GenBank, the Flora of Bajío as a case study



Título del documento: Datataxa: a new script to extract metadata sequence information from GenBank, the Flora of Bajío as a case study
Revista: Botanical Sciences
Base de datos: PERIÓDICA
Número de sistema: 000436027
ISSN: 2007-4298
Autores: 1
2
3



4
Instituciones: 1Universidad de Guadalajara, Centro Universitario de Ciencias Biológicas y Agropecuarias, Zapopan, Jalisco. México
2Columbia University, Department of Ecology, Evolution, and Environmental Biology, Nueva York. Estados Unidos de América
3Universidad Autónoma de Querétaro, Facultad de Ciencias Naturales, Juriquilla, Querétaro. México
4Instituto de Ecología, A.C., Centro Regional del Bajío, Pátzcuaro, Michoacán. México
Año:
Periodo: Oct-Dic
Volumen: 97
Número: 4
País: México
Idioma: Inglés
Tipo de documento: Artículo
Enfoque: Descriptivo
Resumen en español GenBank es un repositorio público de millones de secuencias nucleotídicas. Se han desarrollado varios programas para extraer la información almacenada en GenBank. Ninguno de ellos es útil para extraer y organizar información de los metadatos de las entradas de GenBank. Desarrollamos un nuevo script llamado Datataxa, que extrae metainformación de Genbank. El listado de la Flora del Bajío y de Regiones Adyacentes (FBRA) fue utilizado como caso de estudio, para probar nuestro script. Pregunta: ¿Cuántas especies de la FBRA tienen registros en GenBank? y ¿Qué porcentaje de esos registros se han utilizado en estudios de filogenética, filogeografía, filogenómica, código de barras, diversidad genética y biogeografía?. Métodos: Datataxa está escrito en lenguaje AutoIt Scripting Language para facilitar la extracción de información de GenBank. La información extraída de GenBank fue clasificada en seis categorías. La lista preliminar de especies de la FBRA fue utilizada como caso de estudio para aplicar nuestro script. Estas categorías fueron aplicadas a la lista de especies de la FBRA. Resultados: El script nos permitió extraer y organizar la información de lo metadatos, como los títulos de publicación de 2,558 especies que están incluidas en la FBRA, 1,575 de esas especies tienen registros en GenBank. 1,322 fueron de estudios filogenéticos, seguido de código de barras (326) y biogeografía (298). Filogenómica (41), filogeografía (34) y diversidad genética (34), tuvieron menos representación. Conclusiones: Datataxa trabajó muy bien extrayendo los metadatos de las secuencias de Genbank. Datataxa puede ser utilizado en cualquier lista de especies para extraer los metadatos de GenBank
Resumen en inglés GenBank is a public repository that houses millions of nucleotide sequences. Several software have been developed to extract information stored in GenBank. However, none of them are useful to extract and organize GenBank accession based on metadata. We developed a new script called Datataxa, which works to mine GenBank information. The checklist of the Flora del Bajío y de Regiones Adyacentes (FBRA) was used as a case study to apply our script. Questions: How many species occurring in the FBRA have records in GenBank? What percentage of those records have been used for phylogenetic, phylogeographic, phylogenomic, barcoding, genetic diversity, and biogeographic studies? Methods: Datataxa was written in AutoIt Scripting Language in order to facilitate the extraction of information from GenBank. This information was classified in six study categories. A checklist of species published fascicles of FBRA was used as study case to apply our new script, and the previous categories were applied to the FBRA species list. Results: The script allowed us to search for meta information, like publication titles, for 2,558 species that were included in the FBRA. Of these, 1,575 had a least one record in GenBank. A total of 1,322 species were used in phylogenetic studies, followed by barcoding studies (326) and biogeographic studies (298). Phylogenomic (41), phylogeographic (34), and diversity studies (34) were the least represented. Conclusions: Datataxa was useful for mining metadata sequence information from GenBank and can be used with any list of species to get the GenBank accessions’ metadata
Disciplinas: Biología,
Ciencias de la computación
Palabras clave: Botánica,
Programación,
GenBank,
Metadatos,
Plantas vasculares
Keyword: Botany,
Programming,
GenBank,
Metadata,
Vascular plants
Texto completo: Texto completo (Ver HTML) Texto completo (Ver PDF)