Revue: | Computación y sistemas |
Base de datos: | PERIÓDICA |
Número de sistema: | 000372985 |
ISSN: | 1405-5546 |
Autores: | Millo Sánchez, Reinier1 Galpert Cañizares, Deborah1 Casa Cardoso, Gladys1 Grau Abalo, Ricardo1 Arco García, Leticia1 García Lorenzo, María Matilde1 Fernández Marin, Miguel Angel2 |
Instituciones: | 1Universidad Central "Marta Abreu" de Las Villas, Santa Clara, Villa Clara. Cuba 2Universidad de las Ciencias Informáticas, La Habana. Cuba |
Año: | 2014 |
Periodo: | Ene-Mar |
Volumen: | 18 |
Número: | 1 |
Paginación: | 19-35 |
País: | México |
Idioma: | Inglés |
Tipo de documento: | Artículo |
Enfoque: | Experimental, aplicado |
Resumen en español | En el presente trabajo se propone un algoritmo para la detección de ortólogos que utiliza la agregación de medidas de similitud para caracterizar la relación entre los pares de genes de dos genomas. Las medidas se basan en la puntuación del alineamiento, la longitud de las secuencias, la pertenencia a regiones conservadas y el perfil físico-químico de las proteínas. La fase de agrupamiento sobre el grafo bipartido de similitudes se realiza con el algoritmo de agrupamiento de Markov (MCL). Se define una política de asignación de ortólogos a partir de los grupos de homología obtenidos del agrupamiento. La clasificación se valida con los genomas de Saccharomyces Cerevisiae y de Schizosaccharomyces Pombe usando la lista de ortólogos del algoritmo INPARANOID 7.0, con la medida de validación externa ARI. También se aplican medidas de validación empleando la teoría de conjuntos aproximados para medir la calidad con manejo del desbalance de las clases |
Resumen en inglés | This paper presents a novel algorithm for ortholog detection that involves the aggregation of similarity measures characterizing the relationship between gene pairs of two genomes. The measures are based on the alignment score, the length of the sequences, the membership in the conserved regions as well as on the protein physicochemical profile. The clustering step over the similarity bipartite graph is performed by using the Markov clustering algorithm (MCL). A new ortholog assignment policy is applied over the homology groups obtained in the graph clustering. The classification results are validated with the Saccharomyces Cerevisiae and the Schizosaccharomyces Pombe genomes with the ortholog list of the INPARANOID 7.0 algorithm with the Adjusted Rand Index (ARI) external measure. Other validation measures based on the rough set theory are applied to calculate the quality of the classification dealing with class imbalance |
Disciplinas: | Ciencias de la computación, Biología |
Palabras clave: | Procesamiento de datos, Genética, Bioinformática, Genes ortólogos, Genoma, Medidas de similaridad, Teoría de conjuntos aproximados, Saccharomyces cerevisiae |
Keyword: | Computer science, Biology, Data processing, Genetics, Bioinformatics, Ortholog genes, Genome, Similarity measures, Rough set theory, Saccharomyces cerevisiae |
Texte intégral: | Texto completo (Ver HTML) |