Remote homology detection of proteins using 3D models enriched with physicochemical properties



Document title: Remote homology detection of proteins using 3D models enriched with physicochemical properties
Journal: Ingeniería y competitividad
Database: PERIÓDICA
System number: 000421245
ISSN: 0123-3033
Authors: 1
1
Institutions: 1Universidad del Valle, Escuela de Ingeniería de Sistemas y Computación, Cali, Valle del Cauca. Colombia
Year:
Volumen: 17
Number: 1
Pages: 73-84
Country: Colombia
Language: Inglés
Document type: Artículo
Approach: Aplicado, descriptivo
Spanish abstract En este artículo se presenta un nuevo método para la detección de homología remota llamado remote-3DP. El método remote 3DP se basa tanto en información 3D predicha como en las propiedades fisicoquímicas de los aminoácidos. El método considera tan sólo 10 modelos estructurales para representar una proteína y distinguir los homólogos remotos de los no remotos en 54 familias SCOP. La baja dimensionalidad de la representación permite usar diferentes técnicas de clasificación y descubrir cuál funciona mejor para cada familia. En este artículo, se muestra que al incluir una propiedad fisicoquímica junto con la información 3D en un elemento estructural local, de hecho mejora la exactitud de la detección de homología remota. El puntaje ROC para un conjunto de modelos que incluye el índice de hidropatía alcanza un puntaje de 0. 953 para el conjunto de datos SCOP 1.53. Además, se propone un modelo de ensamble que utiliza las salidas obtenidas para las 10 propiedades y así tomar una decisión consenso. La estrategia consenso alcanza un puntaje ROC de 0.963 sobre el conjunto de datos SCOP 1.53, sobrepasando los métodos actuales basados en la composición de la secuencia cuya exactitud varía de 0.87 a 0.92
English abstract In this paper, a new method for remote protein homology detection called remote-3DP, is presented. The remote-3DP method is based on both predicted 3D information and physiochemical properties of amino acids. The remote-3DP method considers only 10 structural models to represent a protein and to distinguish between remote homologues and non-remote homologues in 54 SCOP families. The low dimensionality of the protein representation allows us to use different classification techniques and discover which one works better for each SCOP family. In this paper, we show that including a physicochemical property along with predicted 3D information into a local structural element, actually improves the accuracy in remote homology detection. The highest ROC score for a set of models that includes 3D information and the Hydropathy index reaches 0.953 on the SCOP 1.53 dataset. In addition, a model that ensembles the outputs of 10 physicochemical properties is built to make a consensus decision. The consensus strategy reaches a ROC score of 0.963 on the SCOP 1.53 dataset, surpassing the current methods based on sequence composition which accuracy range from 0.87 to 0.92
Disciplines: Química,
Ciencias de la computación
Keyword: Bioquímica,
Procesamiento de datos,
Proteínas,
Homología remota,
Modelos tridimensionales,
Propiedades fisicoquímicas
Keyword: Biochemistry,
Data processing,
Proteins,
Remote homology,
Three-dimensional models,
Physicochemical properties
Full text: Texto completo (Ver PDF)