Validación Cruzada: una herramienta crucial para mejorar la eficiencia de modelos de clasificación con datos biomédicos

Daniel Felipe Zuleta Fuerte; Osnamir Elias Bru Cordero; Karina Susana Pastor Sierra

doi:10.15332/23393076.11214

Publicado

2025-08-02

Validación Cruzada: una herramienta crucial para mejorar la eficiencia de modelos de clasificación con datos biomédicos

Cross-Validation: A Crucial Tool to Enhance the Efficiency of Classification Models in the Medical Field

DOI: https://doi.org/10.15332/23393076.11214

Daniel Felipe Zuleta Fuerte

Osnamir Elias Bru Cordero

Karina Susana Pastor Sierra

Validación Cruzada, herramienta crucial para mejorar la eficiencia de modelos de clasificación

Resumen (es)

El presente trabajo se centra en la implementación de técnicas de validación cruzada para comparar diversos modelos de clasificación en distintos escenarios relacionados con datos biomédicos. Estos métodos robustos de clasificación son esenciales para garantizar diagnósticos precisos y tratamientos efectivos. Sin embargo, la variabilidad inherente en los datos reales del ámbito biomédico y la complejidad de los conjuntos de datos requieren enfoques sólidos de validación.

Como propuesta investigativa, el estudio aborda la aplicación de técnicas de validación cruzada, incluyendo k-fold (validación cruzada con partición en k subconjuntos), Leave-One-Out (validación excluyendo una observación por iteración), StratifiedKFold (validación estratificada en k subconjuntos) y Shuffle Split (validación cruzada basada en particiones aleatorias). Estas técnicas, comúnmente utilizadas, buscan mejorar la precisión y generalización de los modelos de clasificación, así como identificar y mitigar posibles sesgos y problemas de sobreajuste.

Además, se presentan diversos algoritmos de clasificación, como el método de los k vecinos más cercanos (K-Nearest Neighbors, KNN), la regresión logística (Logistic Regression), bosques aleatorios (Random Forest) y los árboles de decisión (Decision Tree), para enfrentar los retos asociados a la naturaleza heterogénea de los datos biomédicos recolectados en cuatro municipios de Colombia bajo exposición a metales pesados.

Finalmente, se analiza cómo la validación cruzada puede contribuir a incrementar la robustez de los modelos, favoreciendo una aplicación más efectiva en entornos clínicos. Este artículo busca proporcionar una visión clara y significativa de los métodos de validación cruzada aplicados a algoritmos de clasificación en este tipo de datos, con el objetivo de adoptar modelos que se ajusten a las particularidades del contexto.

Palabras clave (es): Cross-validation, Classification Methods, Machine learning, supervised learning

Resumen (en)

This study focuses on the implementation of cross-validation techniques to compare various classification models in different scenarios related to biomedical data. These robust classification methods are essential to ensure accurate diagnoses and effective treatments. However, the inherent variability of real-world data in the biomedical field and the complexity of datasets require robust validation approaches.

As an investigative proposal, the study addresses the application of cross-validation techniques, including k-fold, Leave-One-Out, StratifiedKFold, and Shuffle Split. These techniques, widely used, aim to enhance the accuracy and generalization of classification models, as well as to identify and mitigate potential biases and overfitting issues.

Additionally, various classification algorithms are presented, such as the K-Nearest Neighbors, KNN, Logistic Regression, Random Forest and Decision Tree, to address the challenges posed by the heterogeneous nature of biomedical data collected from four municipalities in Colombia under exposure to heavy metals.

Finally, this study analyzes how cross-validation can help increase the robustness of models, enabling a more effective application in clinical environments. This article aims to provide a clear and meaningful overview of cross-validation methods applied to classification algorithms for this type of data, with the goal of adopting models tailored to the specific context.

Referencias

Amazon. (2014). AWS Amazon. https://aws.amazon.com/es/what-is/logistic-regression/

AWS. (2024). Amazon Web Services. https://docs.aws.amazon.com/es_es/machine-learning/latest/dg/cross-validation.html

Datacamp. (2024). Random forests classifier in Python. https://www.datacamp.com/tutorial/random-forests-classifier-python

Emura, T., & Hsu, J.-H. (2020). Estimation of the Mann–Whitney effect in the two-sample problem under dependent censoring. Computational Statistics & Data Analysis, 152, 106990. https://doi.org/10.1016/j.csda.2020.106990

Geron, A. (2019). Hands-on machine learning with Scikit-Learn, Keras, and TensorFlow (2nd ed.). O’Reilly Media.

Guido, A. C. (2016). Introduction to Python. O’Reilly Media, Inc.

Huertas Mora, A. (2020). Algoritmos de aprendizaje supervisado utilizando datos de monitoreo de condiciones: un estudio para el pronóstico de fallas en máquinas [Tesis de maestría, Universidad Santo Tomás Colombia]. https://repository.usta.edu.co/handle/11634/29886?show=full

IBM. (2024). Logistic regression. https://www.ibm.com/docs/es/spss-statistics/saas?topic=regression-logistic

Japkowicz, N. (2011). Evaluating learning algorithms: A classification perspective. Cambridge University Press.

Kuhn, M., & Johnson, K. (2013). Applied predictive modeling. Springer.

McCarthy, J. (2007). What is artificial intelligence? https://www-formal.stanford.edu/jmc/whatisai/whatisai.html

Narkhede, S. (2024). Understanding logistic regression. https://towardsdatascience.com/understanding-logistic-regression-9b02c2aec102

Nefrología. (2024). La regresión logística, una herramienta. https://www.revistanefrologia.com/es-la-regresion-logistica-una-herramienta-articulo-X0211699500035664

Norvig, S. J. (2022). Instructor’s solution manual artificial intelligence. Pearson Education.

Nti, I. K., Nyarko-Boateng, O., & Aning, J. (2021). Performance of machine learning algorithms with different K values in K-fold cross-validation. International Journal of Information Technology and Computer Science, 6, 61–71. https://doi.org/10.5815/ijitcs.2021.06.05

Parra, F. (2019). Estadística y machine learning con R. ICANE.

Pastor, … (2023). Micronuclei frequency and exposure to chemical mixtures in three Colombian mining populations. Science of the Total Environment, 889, 165789. https://doi.org/10.1016/j.scitotenv.2023.165789

Raschka, S. (2024). STAT 479: Machine learning. Department of Statistics, University of Wisconsin–Madison.

scikit-learn. (2024). Decision trees (DTs). https://scikit-learn.org/stable/modules/tree.html

Simeone, O. (2018). arXiv preprint. https://arxiv.org/pdf/1808.02342

Tougui, I., Jilbab, A., & El Mhamdi, J. (2021). Impact of the choice of cross-validation techniques on the results of machine learning-based diagnostic applications. Healthcare Informatics Research, 27(3), 189–199. https://doi.org/10.4258/hir.2021.27.3.189

Dimensions

PlumX

Visitas

303

Descargas

Los datos de descarga aún no están disponibles.

Cómo citar

Zuleta Fuerte, D. F., Bru Cordero, O. E., & Pastor Sierra, K. S. (2025). Validación Cruzada: una herramienta crucial para mejorar la eficiencia de modelos de clasificación con datos biomédicos. Comunicaciones En Estadística, 18(1). https://doi.org/10.15332/23393076.11214

Descargar cita

Licencia

Derechos de autor 2025 Comunicaciones en Estadística

Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial-CompartirIgual 4.0.

Los autores mantienen los derechos sobre los artículos y por tanto son libres de compartir, copiar, distribuir, ejecutar y comunicar públicamente la obra bajo las condiciones siguientes:

Reconocer los créditos de la obra de la manera especificada por el autor o el licenciante (pero no de una manera que sugiera que tiene su apoyo o que apoyan el uso que hace de su obra).

Comunicaciones en Estadística está bajo una licencia Creative Commons Atribución-NoComercial-CompartirIgual 4.0 Internacional (CC BY-NC-SA 4.0)

La Universidad Santo Tomás conserva los derechos patrimoniales (copyright) de las obras publicadas, y favorece y permite la reutilización de las mismas bajo la licencia anteriormente mencionada.