La separación en regresión logística, una solución y aplicación



Título del documento: La separación en regresión logística, una solución y aplicación
Revista: Revista Facultad Nacional de Salud Pública
Base de datos: PERIÓDICA
Número de sistema: 000347493
ISSN: 0120-386X
Autores: 1
2
Instituciones: 1Universidad Nacional de Colombia, Bogotá. Colombia
2Universidad Pontificia Bolivariana, Medellín, Antioquia. Colombia
Año:
Periodo: Sep-Dic
Volumen: 29
Número: 3
Paginación: 281-288
País: Colombia
Idioma: Español
Tipo de documento: Artículo
Enfoque: Aplicado, analítico
Resumen en español La regresión logística es una de las técnicas estadísticas más aplicadas cuando se busca explicar el comportamiento probabilístico de algún fenómeno. Un problema que aparece con frecuencia en estos modelos es la separación en los datos, mostrando los grupos de éxitos separados de los fracasos, lo que impide hallar los estimadores de máxima verosimilitud. OBJETIVO: Presentar una revisión y solución del problema, comparando con otras existentes. METODOLOGIA: Simulación del modelo logístico y estimación del sesgo de los parámetros, usando la solución propuesta con el método clásico. Bayesiano y observaciones ficticias y con el método de Firth. RESULTADOS: Los sesgos encontrados son menores al generar el par de observaciones ficticias con el método Bayesiano. Se muestra un ejemplo sobre la edad de la menarquia. DISCUSION: Se aporta una solución adecuada al problema de la separación usando simulación en un esquema de modelo logístico sencillo. Conclusiones: la generación de observaciones ficticias se recomienda dentro de la región de separación y el mejor método de solución está basado en la teoría bayesiana, donde se logra una convergencia en los parámetros del modelo logístico
Resumen en inglés Logistic regression is one of the most used statistical techniques for explaining the probabilistic behavior of a given phenomenon. Data separation is a frequent problem in this model, as successes appear separated from failures and make it impossible to find the maximum likelihood estimators. Objective: to present a revision and a solution to the problem, and to compare it with other solutions. METHODOLOGY: a simulation of the logistic model and an estimation of the parameters' bias using the proposed classical and Bayesian solution with fictitious observations, as well as the Firth method. Results: the bias found is lower when the pair of fictitious observations are generated using the Bayesian method. An example about the age at which menarche occurs is presented. DISCUSSION: an appropriate solution to the problem of separation is provided using a simulation in a simple logistic model. CONCLUSIONS: the generation of fictitious observations within the separation region is recommended, and the best solution method is based on Bayesian theory, which achieves convergence of the parameters of the logistic model
Disciplinas: Medicina
Palabras clave: Salud pública,
Matemáticas aplicadas,
Regresión logística,
Modelos logísticos,
Máxima verosimilitud,
Menarquia,
Separación,
Probabilidad
Keyword: Medicine,
Public health,
Applied mathematics,
Logistic regression,
Logistic models,
Maximum likelihood,
Menarche,
Separation,
Probability
Texto completo: Texto completo (Ver HTML)