Método gráfico usando vecindades para detectar outliers
Graphical method using neighborhoods for detecting outliers
Abstract (en)
We propose a new graphical method to help us to uncover potential outliers in multivariate samples. The idea behind the method is to analyze the behavior of a growing neighborhood of each data point. This method is very robust and allows to find outliers in very complex structures.Abstract (es)
References
Abascal, E., Aguirre, K. & Landaluce, M. (2001), ‘Técnicas factoriales de análisis de tablas múltiples. nuevos desarrollos empíricos’, Universidad del País Vasco pp. 1–27.
Abascal, E. & García, I. (2003), ‘Una metodología para la evolución de variables latentes. análisis de las infraestructuras de carreteras de las comunidades autónomas (1975-2000)’, Estadística Española 45(153), 193–210.
Abascal, E., García, I. & Landaluce, M. (2006), ‘Trayectorias de las comunidades autónomas según sus tasas de paro por categorías de edad. un análisis de tablas tridimensionales’, Estadística Española 48(163), 225–250.
Abascal, E. & Landaluce, M. (2002), ‘Análisis factorial múltiple como técnica de estudio de la estabilidad de los resultados de un análisis en componentes principales’, Questiió 26, 109–122.
Barbary, O. (1996), Una aplicación del análisis cualitativo. La tipología de trayectorias individuales, in ‘Seminario de capacitación e investigación. Recolección y análisis de datos longitudinales’, PRESTAORSTOM- Universidad Nacional de Colombia, pp. 111–120.
Barbary, O. & Pinzón, L. (1998), ‘El análisis armónico cualitativo: Teoría y aplicación a la tipología de trayectorias individuales’, Revista Colombiana de Estadística 22(1), 27–51.
Bécue, M. & Pagès, J. (2007), ‘Multiple Factor Analysis and Clustering of a Mixture of Quantitative, Categorical and Frequency Data’, Computational Statistics and Data Analysis 10(1016), 72–79.
Chevenet, F., Dolédec, S. & Chessel, D. (1994), ‘A Fuzzy Coding Approach For The Analysis Of Long-Term Ecological Data’, Freshwater Biology 31, 295–309.
Deville, J. C. (1982), ‘Analyse des données chronologiques qualitatives: comment analyser les calendriers?’,Annales de l’Institut national de la statistique et des études économiques(INSEE) (45).
Deville, J. & Saporta, G. (1980), ‘Analyse harmonic qualitative’, Data Analysis and Informatics pp. 375–389.
Escofier, B. & Pagès, J. (1984), L’analyse factorielle multiple: une méthode de comparaison de groupes de variables, Data analysis and informatics, III, Diday E. edn, Elsevier Science, Amsterdam, pp. 41–56.
Escofier, B. & Pages, J. (1992), Análisis factoriales simples y múltiples. Objetivos, métodos e interpretación, Universidad del País Vasco, Bilbao.
Gamez, N. (2012), ‘Fundamentos y aplicaciones del análisis de correspondencias difuso’, Comunicaciones en Estadística 5(1), 7–32.
Landaluce, M. & Valencia, O. (2000), Estudio comparativo de la metodología STATIS y el análisis factorial múltiple (AFM): una aplicación, in Congresos de Economía Regional de Castilla y León, ed.,‘Departamento de Economía. Universidad de Burgos’, pp. 101–110.
Lebart, L., Piron, M. & Morineau, A. (1995), Statisitique exploratoire multidimensionnelle, Dunod, Paris.
Pagés, J. (2002), ‘Analyse factorielle multiple appliqueé aux variables qualitatives et aux données mixtes’,Revue de Estatistique Appliquée 50(4), 5–37.
Pagés, J. (2004), ‘Multiple Factor Analysis. Main Features and Application to Sensory Data’, Revista Colombiana de Estadística 27(1), 1–26.
Pinzón, L. M. (1998), Manejo del tiempo en el análisis armónico cualitativo. Movilidad residencial en las áreas urbanas de Bogotá, Tesis de grado para optar al título de Magister Ciencias-Estadística. Universidad Nacional de Colombia. Facultad de Ciencias. Departamento de Estadística, Bogotá.
Saporta, G. (1996), L’analyse harmonique qualitative, une sysnthése de la théorie, in ‘Seminario de capacitación e investigación. Recolección y análisis de datos longitudinales’, PRESTA-ORSTOM-Universidad Nacional de Colombia, Bogotá, pp. 111–120.
Bacon-Shone, J. & Fung, W. K. (1987), `A new graphical method for detecting single and multiple outliers in univariate and multivariate data',AppliedStatistics36(2), 153-162.
Barnett, V. & Lewis, T. (1994),Outliers in Statistical Data, 3era edn, John Wiley& Sons Ltd.: Chichester.
Boente, G., Pires, A., Rodrigues, I. M. & Campbell, N. A. (2002), `Influence functions and outlier detection under the common principal components model: A robust approach',Biometrika89(4), 861-875.
Campbell, N. A. (1978), `The in uence function as an aid in outlier detection indiscriminant analysis', Applied Statistics27(3), 251-258.
Caroni, C. & Prescott, P. (1992), `Sequential application of wilks's multivariate outlier test', Journal of the Royal Statistical Society. Series C (Applied Statis-tics)41(2), 355-364.
Cléroux, R., Helbling, J. M. & Ranger, N. (1986), `Some methods of detecting multivariate outliers', Computational Statistics Quaterly3, 177-195.
Dawkins, B. (1989), `Mutivariate analysis of national track records', The AmericanStatistician43(2), 110-115.
Everitt, B. S. & Nicholls, P. (1975), `Visual techniques for representing multivariate data', Journal of the Royal Statistical Society. Series D (The Statistician)24(1), 37-49.
Finney, D. J. (2006), `Calibration guidelines challenge outlier practices', The American Statistician60(4), 309-314.
Gillespie, E. S. (1993), `An application of multivariate outlier detection in assessing family characteristics for bank advertisements', Journal of the Royal Statistical Society. Series D42(3), 231-235.
Hadi, A. S. (1992), `Identifying multiple outliers in multivariate data', Journal of the Royal Statistical Society. Series B (Methodological)54(3), 761-771.
Hardin, J. & Rocke, D. M. (2005), `The distribution of robust distances', Journal of Computational and Graphical Statistics14(4), 928-946.
Hubert, M. & Rousseeuw, P. J. (2005), `Robpca: A new approach to robust principal component analysis', Technometrics47(1), 64-79.
Khattree, R. & Naik, D. N. (1995), Applied Multivariate Statistics with SAS Soft-ware, SAS Institute Inc: Cary NC.
Muruzabal & noz, M. (1997), `On the visualization of outliers via self-organizing maps',Journal of Computational and Graphical Statistics6(4), 355-382.
Peña, D. & Prieto, F. J. (2001), `Multivariate outlier detection and robust covariance matrix estimation',Technometrics43(3), 286{300.
Pison, G. & Van, S. (2004), `Diagnostic plots for robust multivariate methods', Journal of Computational and Graphical Statistics13(2), 310{329.
Rohlf, F. J. (1975), `Generalization of the gap test for the detection of multivariateoutliers',Biometrics31, 93{101.
Rousseeuw, P. J. & Van Driessen, K. (1999), `A fast algorithm for the minimum covariance determinant estimator',Technometrics41(3), 212{223.
Seber, G. A. F. (1984),Multivariate Observations, John Wiley & Sons Inc.: New York.
Wang, S., Woodward, W. A., Gray, H. L., Wiechecki, S. & Sain, S. R. (1997),`A new test for outlier detection from a multivariate mixture distribution', Journal of Computational and Graphical Statistics6(3), 285{299.
Wilks, S. S. (1963), `Multivariate statistical outliers', Sankhya: The Indian Journal of Statistics, Series A (1961-2002)25(4), 407{426.
How to Cite
License
The authors maintain the rights to the articles and therefore they are free to share, copy, distribute, execute and publicly communicate the work under the following conditions:
Recognize the credits of the work in the manner specified by the author or licensor (but not in a way that suggests that, you have their support or that they support your use of their work).
Comunicaciones en Estadística is licensed under Creative Commons Atribución-NoComercial-CompartirIgual 4.0 Internacional (CC BY-NC-SA 4.0)
Universidad Santo Tomás preserves the patrimonial rights (copyright) of the published works, and favors and allows the reuse of them under the aforementioned license.