Published
2025-08-02

Validación Cruzada: una herramienta crucial para mejorar la eficiencia de modelos de clasificación con datos biomédicos

Cross-Validation: A Crucial Tool to Enhance the Efficiency of Classification Models in the Medical Field

DOI: https://doi.org/10.15332/23393076.11214
Daniel Felipe Zuleta Fuerte
Osnamir Elias Bru Cordero
Karina Susana Pastor Sierra

Abstract (en)

This study focuses on the implementation of cross-validation techniques to compare various classification models in different scenarios related to biomedical data. These robust classification methods are essential to ensure accurate diagnoses and effective treatments. However, the inherent variability of real-world data in the biomedical field and the complexity of datasets require robust validation approaches.

As an investigative proposal, the study addresses the application of cross-validation techniques, including k-fold, Leave-One-Out, StratifiedKFold, and Shuffle Split. These techniques, widely used, aim to enhance the accuracy and generalization of classification models, as well as to identify and mitigate potential biases and overfitting issues.

Additionally, various classification algorithms are presented, such as the  K-Nearest Neighbors, KNN, Logistic Regression, Random Forest and Decision Tree, to address the challenges posed by the heterogeneous nature of biomedical data collected from four municipalities in Colombia under exposure to heavy metals.

Finally, this study analyzes how cross-validation can help increase the robustness of models, enabling a more effective application in clinical environments. This article aims to provide a clear and meaningful overview of cross-validation methods applied to classification algorithms for this type of data, with the goal of adopting models tailored to the specific context.

Keywords (en): Cross-validation, Classification Methods, Machine learning, supervised learning

Abstract (es)

El presente trabajo se centra en la implementación de técnicas de validación cruzada para comparar diversos modelos de clasificación en distintos escenarios relacionados con datos biomédicos. Estos métodos robustos de clasificación son esenciales para garantizar diagnósticos precisos y tratamientos efectivos. Sin embargo, la variabilidad inherente en los datos reales del ámbito biomédico y la complejidad de los conjuntos de datos requieren enfoques sólidos de validación.

Como propuesta investigativa, el estudio aborda la aplicación de técnicas de validación cruzada, incluyendo k-fold (validación cruzada con partición en k subconjuntos), Leave-One-Out (validación excluyendo una observación por iteración), StratifiedKFold (validación estratificada en k subconjuntos) y Shuffle Split (validación cruzada basada en particiones aleatorias). Estas técnicas, comúnmente utilizadas, buscan mejorar la precisión y generalización de los modelos de clasificación, así como identificar y mitigar posibles sesgos y problemas de sobreajuste.

Además, se presentan diversos algoritmos de clasificación, como el método de los k vecinos más cercanos (K-Nearest Neighbors, KNN), la regresión logística (Logistic Regression), bosques aleatorios (Random Forest) y los árboles de decisión (Decision Tree), para enfrentar los retos asociados a la naturaleza heterogénea de los datos biomédicos recolectados en cuatro municipios de Colombia bajo exposición a metales pesados.

Finalmente, se analiza cómo la validación cruzada puede contribuir a incrementar la robustez de los modelos, favoreciendo una aplicación más efectiva en entornos clínicos. Este artículo busca proporcionar una visión clara y significativa de los métodos de validación cruzada aplicados a algoritmos de clasificación en este tipo de datos, con el objetivo de adoptar modelos que se ajusten a las particularidades del contexto.

Keywords (es): Cross-validation, Classification Methods, Machine learning, supervised learning

References

Amazon. (2014). AWS Amazon. https://aws.amazon.com/es/what-is/logistic-regression/

AWS. (2024). Amazon Web Services. https://docs.aws.amazon.com/es_es/machine-learning/latest/dg/cross-validation.html

Datacamp. (2024). Random forests classifier in Python. https://www.datacamp.com/tutorial/random-forests-classifier-python

Emura, T., & Hsu, J.-H. (2020). Estimation of the Mann–Whitney effect in the two-sample problem under dependent censoring. Computational Statistics & Data Analysis, 152, 106990. https://doi.org/10.1016/j.csda.2020.106990

Geron, A. (2019). Hands-on machine learning with Scikit-Learn, Keras, and TensorFlow (2nd ed.). O’Reilly Media.

Guido, A. C. (2016). Introduction to Python. O’Reilly Media, Inc.

Huertas Mora, A. (2020). Algoritmos de aprendizaje supervisado utilizando datos de monitoreo de condiciones: un estudio para el pronóstico de fallas en máquinas [Tesis de maestría, Universidad Santo Tomás Colombia]. https://repository.usta.edu.co/handle/11634/29886?show=full

IBM. (2024). Logistic regression. https://www.ibm.com/docs/es/spss-statistics/saas?topic=regression-logistic

Japkowicz, N. (2011). Evaluating learning algorithms: A classification perspective. Cambridge University Press.

Kuhn, M., & Johnson, K. (2013). Applied predictive modeling. Springer.

McCarthy, J. (2007). What is artificial intelligence? https://www-formal.stanford.edu/jmc/whatisai/whatisai.html

Narkhede, S. (2024). Understanding logistic regression. https://towardsdatascience.com/understanding-logistic-regression-9b02c2aec102

Nefrología. (2024). La regresión logística, una herramienta. https://www.revistanefrologia.com/es-la-regresion-logistica-una-herramienta-articulo-X0211699500035664

Norvig, S. J. (2022). Instructor’s solution manual artificial intelligence. Pearson Education.

Nti, I. K., Nyarko-Boateng, O., & Aning, J. (2021). Performance of machine learning algorithms with different K values in K-fold cross-validation. International Journal of Information Technology and Computer Science, 6, 61–71. https://doi.org/10.5815/ijitcs.2021.06.05

Parra, F. (2019). Estadística y machine learning con R. ICANE.

Pastor, … (2023). Micronuclei frequency and exposure to chemical mixtures in three Colombian mining populations. Science of the Total Environment, 889, 165789. https://doi.org/10.1016/j.scitotenv.2023.165789

Raschka, S. (2024). STAT 479: Machine learning. Department of Statistics, University of Wisconsin–Madison.

scikit-learn. (2024). Decision trees (DTs). https://scikit-learn.org/stable/modules/tree.html

Simeone, O. (2018). arXiv preprint. https://arxiv.org/pdf/1808.02342

Tougui, I., Jilbab, A., & El Mhamdi, J. (2021). Impact of the choice of cross-validation techniques on the results of machine learning-based diagnostic applications. Healthcare Informatics Research, 27(3), 189–199. https://doi.org/10.4258/hir.2021.27.3.189

Dimensions

PlumX

Visitas

227

Downloads

Download data is not yet available.

How to Cite

Zuleta Fuerte, D. F., Bru Cordero, O. E., & Pastor Sierra, K. S. (2025). Cross-Validation: A Crucial Tool to Enhance the Efficiency of Classification Models in the Medical Field. Comunicaciones En Estadística, 18(1). https://doi.org/10.15332/23393076.11214