Validación Cruzada: una herramienta crucial para mejorar la eficiencia de modelos de clasificación con datos biomédicos
Cross-Validation: A Crucial Tool to Enhance the Efficiency of Classification Models in the Medical Field
Abstract (en)
This study focuses on the implementation of cross-validation techniques to compare various classification models in different scenarios related to biomedical data. These robust classification methods are essential to ensure accurate diagnoses and effective treatments. However, the inherent variability of real-world data in the biomedical field and the complexity of datasets require robust validation approaches.
As an investigative proposal, the study addresses the application of cross-validation techniques, including k-fold, Leave-One-Out, StratifiedKFold, and Shuffle Split. These techniques, widely used, aim to enhance the accuracy and generalization of classification models, as well as to identify and mitigate potential biases and overfitting issues.
Additionally, various classification algorithms are presented, such as the K-Nearest Neighbors, KNN, Logistic Regression, Random Forest and Decision Tree, to address the challenges posed by the heterogeneous nature of biomedical data collected from four municipalities in Colombia under exposure to heavy metals.
Finally, this study analyzes how cross-validation can help increase the robustness of models, enabling a more effective application in clinical environments. This article aims to provide a clear and meaningful overview of cross-validation methods applied to classification algorithms for this type of data, with the goal of adopting models tailored to the specific context.
Abstract (es)
El presente trabajo se centra en la implementación de técnicas de validación cruzada para comparar diversos modelos de clasificación en distintos escenarios relacionados con datos biomédicos. Estos métodos robustos de clasificación son esenciales para garantizar diagnósticos precisos y tratamientos efectivos. Sin embargo, la variabilidad inherente en los datos reales del ámbito biomédico y la complejidad de los conjuntos de datos requieren enfoques sólidos de validación.
Como propuesta investigativa, el estudio aborda la aplicación de técnicas de validación cruzada, incluyendo k-fold (validación cruzada con partición en k subconjuntos), Leave-One-Out (validación excluyendo una observación por iteración), StratifiedKFold (validación estratificada en k subconjuntos) y Shuffle Split (validación cruzada basada en particiones aleatorias). Estas técnicas, comúnmente utilizadas, buscan mejorar la precisión y generalización de los modelos de clasificación, así como identificar y mitigar posibles sesgos y problemas de sobreajuste.
Además, se presentan diversos algoritmos de clasificación, como el método de los k vecinos más cercanos (K-Nearest Neighbors, KNN), la regresión logística (Logistic Regression), bosques aleatorios (Random Forest) y los árboles de decisión (Decision Tree), para enfrentar los retos asociados a la naturaleza heterogénea de los datos biomédicos recolectados en cuatro municipios de Colombia bajo exposición a metales pesados.
Finalmente, se analiza cómo la validación cruzada puede contribuir a incrementar la robustez de los modelos, favoreciendo una aplicación más efectiva en entornos clínicos. Este artículo busca proporcionar una visión clara y significativa de los métodos de validación cruzada aplicados a algoritmos de clasificación en este tipo de datos, con el objetivo de adoptar modelos que se ajusten a las particularidades del contexto.
References
Amazon. (2014). AWS Amazon. https://aws.amazon.com/es/what-is/logistic-regression/
AWS. (2024). Amazon Web Services. https://docs.aws.amazon.com/es_es/machine-learning/latest/dg/cross-validation.html
Datacamp. (2024). Random forests classifier in Python. https://www.datacamp.com/tutorial/random-forests-classifier-python
Emura, T., & Hsu, J.-H. (2020). Estimation of the Mann–Whitney effect in the two-sample problem under dependent censoring. Computational Statistics & Data Analysis, 152, 106990. https://doi.org/10.1016/j.csda.2020.106990
Geron, A. (2019). Hands-on machine learning with Scikit-Learn, Keras, and TensorFlow (2nd ed.). O’Reilly Media.
Guido, A. C. (2016). Introduction to Python. O’Reilly Media, Inc.
Huertas Mora, A. (2020). Algoritmos de aprendizaje supervisado utilizando datos de monitoreo de condiciones: un estudio para el pronóstico de fallas en máquinas [Tesis de maestría, Universidad Santo Tomás Colombia]. https://repository.usta.edu.co/handle/11634/29886?show=full
IBM. (2024). Logistic regression. https://www.ibm.com/docs/es/spss-statistics/saas?topic=regression-logistic
Japkowicz, N. (2011). Evaluating learning algorithms: A classification perspective. Cambridge University Press.
Kuhn, M., & Johnson, K. (2013). Applied predictive modeling. Springer.
McCarthy, J. (2007). What is artificial intelligence? https://www-formal.stanford.edu/jmc/whatisai/whatisai.html
Narkhede, S. (2024). Understanding logistic regression. https://towardsdatascience.com/understanding-logistic-regression-9b02c2aec102
Nefrología. (2024). La regresión logística, una herramienta. https://www.revistanefrologia.com/es-la-regresion-logistica-una-herramienta-articulo-X0211699500035664
Norvig, S. J. (2022). Instructor’s solution manual artificial intelligence. Pearson Education.
Nti, I. K., Nyarko-Boateng, O., & Aning, J. (2021). Performance of machine learning algorithms with different K values in K-fold cross-validation. International Journal of Information Technology and Computer Science, 6, 61–71. https://doi.org/10.5815/ijitcs.2021.06.05
Parra, F. (2019). Estadística y machine learning con R. ICANE.
Pastor, … (2023). Micronuclei frequency and exposure to chemical mixtures in three Colombian mining populations. Science of the Total Environment, 889, 165789. https://doi.org/10.1016/j.scitotenv.2023.165789
Raschka, S. (2024). STAT 479: Machine learning. Department of Statistics, University of Wisconsin–Madison.
scikit-learn. (2024). Decision trees (DTs). https://scikit-learn.org/stable/modules/tree.html
Simeone, O. (2018). arXiv preprint. https://arxiv.org/pdf/1808.02342
Tougui, I., Jilbab, A., & El Mhamdi, J. (2021). Impact of the choice of cross-validation techniques on the results of machine learning-based diagnostic applications. Healthcare Informatics Research, 27(3), 189–199. https://doi.org/10.4258/hir.2021.27.3.189
How to Cite
License
Copyright (c) 2025 Comunicaciones en Estadística

This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
The authors maintain the rights to the articles and therefore they are free to share, copy, distribute, execute and publicly communicate the work under the following conditions:
Recognize the credits of the work in the manner specified by the author or licensor (but not in a way that suggests that, you have their support or that they support your use of their work).
Comunicaciones en Estadística is licensed under Creative Commons Atribución-NoComercial-CompartirIgual 4.0 Internacional (CC BY-NC-SA 4.0)

Universidad Santo Tomás preserves the patrimonial rights (copyright) of the published works, and favors and allows the reuse of them under the aforementioned license.




