Critical values for 33 discordancy test variants for outliers in normal samples of very large sizes from 1,000 to 30,000 and evaluation of different regression models for the interpolation and extrapolation of critical values



Document title: Critical values for 33 discordancy test variants for outliers in normal samples of very large sizes from 1,000 to 30,000 and evaluation of different regression models for the interpolation and extrapolation of critical values
Journal: Revista mexicana de ciencias geológicas
Database: PERIÓDICA
System number: 000322937
ISSN: 1026-8774
Authors: 1
1
Institutions: 1Universidad Nacional Autónoma de México, Centro de Investigación en Energía, México, Distrito Federal. México
Year:
Season: Dic
Volumen: 25
Number: 3
Pages: 369-381
Country: México
Language: Español
Document type: Artículo
Approach: Analítico, teórico
Spanish abstract En este trabajo final de una serie de cuatro, usando nuestro procedimiento de simulación bien establecido reportamos nuevos valores críticos o puntos porcentuales, precisos y exactos (con cuatro a ocho puntos decimales) de 15 pruebas de discordancia con 33 variantes y cada uno con siete niveles de signifi cancia α = 0.30, 0.20, 0.10, 0.05, 0.02, 0.01 y 0.005, para muestras normales de tamaños muy grandes n de 1,000 a 30,000, viz., 1,000(50)1,500(100)2,000(500)5,000(1,000)10,000(10,000)30,000, esto es, 1,000 (pasos de 50) 1,500 (pasos de 100) 2,000 (pasos de 500) 5,000 (pasos de 1,000) 10,000 (pasos de 10,000) 30,000. Se reporta también el error estándar de la media en forma explícita e individual para cada valor crítico. Como consecuencia, la aplicabilidad de estas pruebas de discordancia ha sido extendida a prácticamente cualquier tamaño de muestra estadística (hasta 30,000 observaciones o aún mayores). Este conjunto fi nal de valores críticos para tamaños muy grandes cubrirá cualquier necesidad presente o futura de aplicación de estas pruebas de discordancia en todos los campos de las ciencias e ingenierías. Dado que los valores críticos fueron simulados para pocos tamaños de muestra entre 1,000 y 30,000, seis modelos de regresión diferentes fueron evaluados para la interpolación y extrapolación de los datos y se demostró que un modelo combinado de logaritmo natural-cúbico es el más apropiado. Es la primera vez en la literatura mundial que se demuestra que una transformación logarítmica del tamaño de muestra n antes de un ajuste polinomial resulta mejor que los ajustes convencionales desde lineal hasta polinomial de tercer grado usados a la fecha
English abstract In this final paper of a series of four, using our well-tested simulation procedure we report new, precise, and accurate critical values or percentage points (with four to eight decimal places) of 15 discordancy tests with 33 test variants, and each with seven signifi cance levels α = 0.30, 0.20, 0.10, 0.05, 0.02, 0.01, and 0.005, for normal samples of very large sizes n from 1,000 to 30,000, viz., 1,000(50) 1,500(100)2,000(500)5,000(1,000)10,000(10,000)30,000, i.e., 1,000 (steps of 50) 1,500 (steps of 100) 2,000 (steps of 500) 5,000 (steps of 1,000) 10,000 (steps of 10,000) 30,000. The standard error of the mean is also reported explicitly and individually for each critical value. As a result, the applicability of these discordancy tests is now extended to practically all sample sizes (up to 30,000 observations or even greater). This fi nal set of critical values for very large sample sizes would cover any present or future needs for the application of these discordancy tests in all fi elds of science and engineering. Because the critical values were simulated for only a few sample sizes between 1,000 and 30,000, six different regression models were evaluated for the interpolation and extrapolation purposes, and a combined natural logarithm-cubic model was shown to be the most appropriate. This is the fi rst time in the literature that a log-transformation of the sample size n before a polynomial fi t is shown to perform better than the conventional linear to polynomial regressions hitherto used. We also use 1,402 unpublished datasets from quantitative proteomics to show that our multiple-test method works more effi ciently than the MAD_Z robust outlier method used for processing these data and to illustrate thus the usefulness of our fi nal work on these lines
Disciplines: Geociencias,
Matemáticas
Keyword: Geofísica,
Matemáticas aplicadas,
Métodos de valores desviados,
Simulación,
Método Monte Carlo,
Tabla de valores críticos,
Proteómica
Keyword: Earth sciences,
Mathematics,
Geophysics,
Applied mathematics,
Outlier methods,
Simulation,
Monte Carlo method,
Critical value tables,
Proteomics
Full text: Texto completo (Ver PDF)