Multi-class superfamily prediction using 3D models enriched with physicochemical properties



Título del documento: Multi-class superfamily prediction using 3D models enriched with physicochemical properties
Revista: Ingeniería y competitividad
Base de datos: PERIÓDICA
Número de sistema: 000420285
ISSN: 0123-3033
Autors: 1
1
Institucions: 1Universidad del Valle, Escuela de Ingeniería de Sistemas y Computación, Cali, Valle del Cauca. Colombia
Any:
Volum: 18
Número: 2
Paginació: 65-74
País: Colombia
Idioma: Inglés
Tipo de documento: Artículo
Enfoque: Aplicado, descriptivo
Resumen en español En este artículo se presenta dos nuevos métodos para la predicción de superfamilias. En el problema de la predicción de superfamilias cada secuencia de aminoácidos se debe clasificar en una de las clases estructurales conocidas (i.e., superfamilias). La mayoría de las estrategias que se han propuesto para predecir superfamilias se basan en usar los clasificadores binarios que detectan homólogos remotos. Detectar homólogos remotos está relacionado con encontrar un clasificador que es capaz de indicar si una proteína es, o no, un homólogo remoto de un conjuntos de proteínas. Los métodos actuales para detectar superfamilias toman las salidas de los clasificadores binarios para cada superfamilia y construyen un modelo de clasificación. A diferencia de los métodos actuales, los cuales representan a las proteínas considerando la composición de aminoácidos, nosotros usamos el número de veces que modelos 3D enriquecidos con propiedades fisicoquímicas ocurren tanto en el mapa de contacto predicho como en la matriz de interacción. Nuestra hipótesis es que al incluir los modelos 3D con las propiedades fisicoquímicas se puede tener un impacto en la exactitud obtenida durante la predicción de superfamilias. En este artículo se presenta dos nuevas estrategias para predecir superfamilias, los métodos single-MCS y hierarchical-MCS, los cuales alcanzan una exactitud del 74% y 76% en el conjunto SCOP 1.53, respectivamente. Además, se presentan otras pruebas realizadas en los conjuntos SCOP 1.55 y SCOP 1.61
Resumen en inglés In this paper, two new methods that address the multi-class superfamily prediction problem are presented. In the multi-class superfamily recognition problem each amino acid sequence has to be classified into one of the known structural classes (i.e., superfamilies). Most of the strategies that have been proposed to predict superfamilies are based on using the binary classifiers that detect remote homologs. The remote homology detection problem is about finding a classifier that is able to separate remote homologs from non-remote homologs. The current methods for multi-class superfamily recognition take the outputs of the binary classifier (i.e., the scores) for each SCOP superfamily in the data set and build a classification model (i.e., multi-class classifier). Unlike the current methods, which represent a protein considering the amino acids composition, in this research we use the number of times that 3D models enriched with physicochemical properties occur in both its predicted contact map and its interaction matrix. We hypothesize that including both 3D information and physicochemical properties might have an impact in the accuracy obtained during the superfamily prediction. In this paper, we present two new strategies for predicting superfamilies that use 3D models enriched with physicochemical properties, the single-MCS and the hierarchicalMCS methods, which reach an accuracy percentage of 74% and 76% on the SCOP 1.53 data set, respectively. In addition, tests on the SCOP 1.55 and the SCOP 1.61 are also presented
Disciplines Ciencias de la computación,
Química
Paraules clau: Bioquímica,
Ingeniería de sistemas,
Clasificador binario,
Modelos tridimensionales,
Prediccion de superfamilias,
Proteínas,
Propiedades fisicoquímicas
Keyword: Biochemistry,
Systems engineering,
Binary classifier,
Three-dimensional models,
Superfamily prediction,
Proteins,
Physicochemical properties
Text complet: Texto completo (Ver PDF)