Aggregation of Similarity Measures for Ortholog Detection: Validation with Measures Based on Rough Set Theory



Título del documento: Aggregation of Similarity Measures for Ortholog Detection: Validation with Measures Based on Rough Set Theory
Revue: Computación y sistemas
Base de datos: PERIÓDICA
Número de sistema: 000372985
ISSN: 1405-5546
Autores: 1
1
1
1
1
1
2
Instituciones: 1Universidad Central "Marta Abreu" de Las Villas, Santa Clara, Villa Clara. Cuba
2Universidad de las Ciencias Informáticas, La Habana. Cuba
Año:
Periodo: Ene-Mar
Volumen: 18
Número: 1
Paginación: 19-35
País: México
Idioma: Inglés
Tipo de documento: Artículo
Enfoque: Experimental, aplicado
Resumen en español En el presente trabajo se propone un algoritmo para la detección de ortólogos que utiliza la agregación de medidas de similitud para caracterizar la relación entre los pares de genes de dos genomas. Las medidas se basan en la puntuación del alineamiento, la longitud de las secuencias, la pertenencia a regiones conservadas y el perfil físico-químico de las proteínas. La fase de agrupamiento sobre el grafo bipartido de similitudes se realiza con el algoritmo de agrupamiento de Markov (MCL). Se define una política de asignación de ortólogos a partir de los grupos de homología obtenidos del agrupamiento. La clasificación se valida con los genomas de Saccharomyces Cerevisiae y de Schizosaccharomyces Pombe usando la lista de ortólogos del algoritmo INPARANOID 7.0, con la medida de validación externa ARI. También se aplican medidas de validación empleando la teoría de conjuntos aproximados para medir la calidad con manejo del desbalance de las clases
Resumen en inglés This paper presents a novel algorithm for ortholog detection that involves the aggregation of similarity measures characterizing the relationship between gene pairs of two genomes. The measures are based on the alignment score, the length of the sequences, the membership in the conserved regions as well as on the protein physicochemical profile. The clustering step over the similarity bipartite graph is performed by using the Markov clustering algorithm (MCL). A new ortholog assignment policy is applied over the homology groups obtained in the graph clustering. The classification results are validated with the Saccharomyces Cerevisiae and the Schizosaccharomyces Pombe genomes with the ortholog list of the INPARANOID 7.0 algorithm with the Adjusted Rand Index (ARI) external measure. Other validation measures based on the rough set theory are applied to calculate the quality of the classification dealing with class imbalance
Disciplinas: Ciencias de la computación,
Biología
Palabras clave: Procesamiento de datos,
Genética,
Bioinformática,
Genes ortólogos,
Genoma,
Medidas de similaridad,
Teoría de conjuntos aproximados,
Saccharomyces cerevisiae
Keyword: Computer science,
Biology,
Data processing,
Genetics,
Bioinformatics,
Ortholog genes,
Genome,
Similarity measures,
Rough set theory,
Saccharomyces cerevisiae
Texte intégral: Texto completo (Ver HTML)