Published
2015-07-01

Método gráfico usando vecindades para detectar outliers

Graphical method using neighborhoods for detecting outliers

DOI: https://doi.org/10.15332/s2027-3355.2015.0001.02
Juan Carlos Correa Morales
Víctor Ignacio López Ríos

Abstract (en)

We propose a new graphical method to help us to uncover  potential outliers in multivariate samples. The idea behind the method is to analyze the behavior of a growing neighborhood of each data point. This method is very robust and allows to find outliers in very complex structures.
Keywords (en): datos atípicos multivariables, método de la distancia de Mahalanobis, método de vecinos.

Abstract (es)

Se propone un nuevo método gráfico que ayuda a descubrir datos atípicos en muestras multivariables. La idea detrás del método es analizar el comportamiento de una vecindad creciente alrededor de cada observación en la muestra de datos. Este método es muy robusto y permite encontrar datos atípicos en estructuras muy complejas.

References

Abascal, E., Aguirre, K. & Landaluce, M. (2001), ‘Técnicas factoriales de análisis de tablas múltiples. nuevos desarrollos empíricos’, Universidad del País Vasco pp. 1–27.

Abascal, E. & García, I. (2003), ‘Una metodología para la evolución de variables latentes. análisis de las infraestructuras de carreteras de las comunidades autónomas (1975-2000)’, Estadística Española 45(153), 193–210.

Abascal, E., García, I. & Landaluce, M. (2006), ‘Trayectorias de las comunidades autónomas según sus tasas de paro por categorías de edad. un análisis de tablas tridimensionales’, Estadística Española 48(163), 225–250.

Abascal, E. & Landaluce, M. (2002), ‘Análisis factorial múltiple como técnica de estudio de la estabilidad de los resultados de un análisis en componentes principales’, Questiió 26, 109–122.

Barbary, O. (1996), Una aplicación del análisis cualitativo. La tipología de trayectorias individuales, in ‘Seminario de capacitación e investigación. Recolección y análisis de datos longitudinales’, PRESTAORSTOM- Universidad Nacional de Colombia, pp. 111–120.

Barbary, O. & Pinzón, L. (1998), ‘El análisis armónico cualitativo: Teoría y aplicación a la tipología de trayectorias individuales’, Revista Colombiana de Estadística 22(1), 27–51.

Bécue, M. & Pagès, J. (2007), ‘Multiple Factor Analysis and Clustering of a Mixture of Quantitative, Categorical and Frequency Data’, Computational Statistics and Data Analysis 10(1016), 72–79.

Chevenet, F., Dolédec, S. & Chessel, D. (1994), ‘A Fuzzy Coding Approach For The Analysis Of Long-Term Ecological Data’, Freshwater Biology 31, 295–309.

Deville, J. C. (1982), ‘Analyse des données chronologiques qualitatives: comment analyser les calendriers?’,Annales de l’Institut national de la statistique et des études économiques(INSEE) (45).

Deville, J. & Saporta, G. (1980), ‘Analyse harmonic qualitative’, Data Analysis and Informatics pp. 375–389.

Escofier, B. & Pagès, J. (1984), L’analyse factorielle multiple: une méthode de comparaison de groupes de variables, Data analysis and informatics, III, Diday E. edn, Elsevier Science, Amsterdam, pp. 41–56.

Escofier, B. & Pages, J. (1992), Análisis factoriales simples y múltiples. Objetivos, métodos e interpretación, Universidad del País Vasco, Bilbao.

Gamez, N. (2012), ‘Fundamentos y aplicaciones del análisis de correspondencias difuso’, Comunicaciones en Estadística 5(1), 7–32.

Landaluce, M. & Valencia, O. (2000), Estudio comparativo de la metodología STATIS y el análisis factorial múltiple (AFM): una aplicación, in Congresos de Economía Regional de Castilla y León, ed.,‘Departamento de Economía. Universidad de Burgos’, pp. 101–110.

Lebart, L., Piron, M. & Morineau, A. (1995), Statisitique exploratoire multidimensionnelle, Dunod, Paris.

Pagés, J. (2002), ‘Analyse factorielle multiple appliqueé aux variables qualitatives et aux données mixtes’,Revue de Estatistique Appliquée 50(4), 5–37.

Pagés, J. (2004), ‘Multiple Factor Analysis. Main Features and Application to Sensory Data’, Revista Colombiana de Estadística 27(1), 1–26.

Pinzón, L. M. (1998), Manejo del tiempo en el análisis armónico cualitativo. Movilidad residencial en las áreas urbanas de Bogotá, Tesis de grado para optar al título de Magister Ciencias-Estadística. Universidad Nacional de Colombia. Facultad de Ciencias. Departamento de Estadística, Bogotá.

Saporta, G. (1996), L’analyse harmonique qualitative, une sysnthése de la théorie, in ‘Seminario de capacitación e investigación. Recolección y análisis de datos longitudinales’, PRESTA-ORSTOM-Universidad Nacional de Colombia, Bogotá, pp. 111–120.

Bacon-Shone, J. & Fung, W. K. (1987), `A new graphical method for detecting single and multiple outliers in univariate and multivariate data',AppliedStatistics36(2), 153-162.

Barnett, V. & Lewis, T. (1994),Outliers in Statistical Data, 3era edn, John Wiley& Sons Ltd.: Chichester.

Boente, G., Pires, A., Rodrigues, I. M. & Campbell, N. A. (2002), `Influence functions and outlier detection under the common principal components model: A robust approach',Biometrika89(4), 861-875.

Campbell, N. A. (1978), `The in uence function as an aid in outlier detection indiscriminant analysis', Applied Statistics27(3), 251-258.

Caroni, C. & Prescott, P. (1992), `Sequential application of wilks's multivariate outlier test', Journal of the Royal Statistical Society. Series C (Applied Statis-tics)41(2), 355-364.

Cléroux, R., Helbling, J. M. & Ranger, N. (1986), `Some methods of detecting multivariate outliers', Computational Statistics Quaterly3, 177-195.

Dawkins, B. (1989), `Mutivariate analysis of national track records', The AmericanStatistician43(2), 110-115.

Everitt, B. S. & Nicholls, P. (1975), `Visual techniques for representing multivariate data', Journal of the Royal Statistical Society. Series D (The Statistician)24(1), 37-49.

Finney, D. J. (2006), `Calibration guidelines challenge outlier practices', The American Statistician60(4), 309-314.

Gillespie, E. S. (1993), `An application of multivariate outlier detection in assessing family characteristics for bank advertisements', Journal of the Royal Statistical Society. Series D42(3), 231-235.

Hadi, A. S. (1992), `Identifying multiple outliers in multivariate data', Journal of the Royal Statistical Society. Series B (Methodological)54(3), 761-771.

Hardin, J. & Rocke, D. M. (2005), `The distribution of robust distances', Journal of Computational and Graphical Statistics14(4), 928-946.

Hubert, M. & Rousseeuw, P. J. (2005), `Robpca: A new approach to robust principal component analysis', Technometrics47(1), 64-79.

Khattree, R. & Naik, D. N. (1995), Applied Multivariate Statistics with SAS Soft-ware, SAS Institute Inc: Cary NC.

Muruzabal & noz, M. (1997), `On the visualization of outliers via self-organizing maps',Journal of Computational and Graphical Statistics6(4), 355-382.

Peña, D. & Prieto, F. J. (2001), `Multivariate outlier detection and robust covariance matrix estimation',Technometrics43(3), 286{300.

Pison, G. & Van, S. (2004), `Diagnostic plots for robust multivariate methods', Journal of Computational and Graphical Statistics13(2), 310{329.

Rohlf, F. J. (1975), `Generalization of the gap test for the detection of multivariateoutliers',Biometrics31, 93{101.

Rousseeuw, P. J. & Van Driessen, K. (1999), `A fast algorithm for the minimum covariance determinant estimator',Technometrics41(3), 212{223.

Seber, G. A. F. (1984),Multivariate Observations, John Wiley & Sons Inc.: New York.

Wang, S., Woodward, W. A., Gray, H. L., Wiechecki, S. & Sain, S. R. (1997),`A new test for outlier detection from a multivariate mixture distribution', Journal of Computational and Graphical Statistics6(3), 285{299.

Wilks, S. S. (1963), `Multivariate statistical outliers', Sankhya: The Indian Journal of Statistics, Series A (1961-2002)25(4), 407{426.

Dimensions

PlumX

Visitas

704

Downloads

Download data is not yet available.

How to Cite

Correa Morales, J. C., & López Ríos, V. I. (2015). Graphical method using neighborhoods for detecting outliers. Comunicaciones En Estadística, 8(1), 33-43. https://doi.org/10.15332/s2027-3355.2015.0001.02