Publicado
2024-07-01

Análisis exploratorio y selección de atributos relevantes sobre el dataset de las pruebas saber 11 para la ciudad de Cartagena

Exploratory analysis and selection of relevant attributes on the saber 11 test dataset for the city of Cartagena

Análise exploratória e seleção de atributos relevantes no dataset dos exames Saber 11 para a cidade de Cartagena

DOI: https://doi.org/10.15332/25005421.9999
Gabriel Elías Chanchí Golondrino
Dayana Alejandra Barrera Buitrago
Nidia Danigza Lugo López

Resumen (es)

Este trabajo tiene como objetivo el desarrollo de un estudio basado tanto en el análisis exploratorio de datos como en la selección de los mejores atributos que inciden en el rendimiento académico, utilizando el conjunto de datos de las pruebas Saber 11 de 2019 de la ciudad de Cartagena. Para el desarrollo del estudio se hizo uso de una adaptación de la metodología de minería de datos SEMMA, definiendo cuatro fases metodológicas, a saber: F1. Muestreo de los datos; F2. Exploración y modificación de los datos; F3. Aplicación del método de selección de atributos; y F4. Análisis de los resultados obtenidos. Como resultados relevantes del estudio, se obtuvo que las áreas con medias más altas fueron lectura crítica y matemáticas. Asimismo, se evidenció que la formación de los padres a nivel posgradual tiene una influencia representativa en el rendimiento del estudiante. Finalmente, se identificó un conjunto de atributos del dataset que inciden en el rendimiento de las cinco áreas de la prueba. Este estudio pretende servir de referencia a nivel investigativo para la caracterización del rendimiento académico en diferentes regiones, con el fin de contribuir al desarrollo de estrategias enfocadas en el fortalecimiento de la calidad.

Palabras clave (es): análisis estadístico, análisis de correlación, rendimiento escolar, examen, estado, habilidades

Resumen (en)

This work aims to develop a study based on both exploratory data analysis and the selection of the best attributes that affect academic performance, using the data set of the 2019 Saber 11 tests from the city of Cartagena. To develop the study, an adaptation of the SEMMA data mining methodology was used, defining four methodological phases, namely: F1. Data sampling; F2. Exploration and modification of data; F3. Application of attribute selection method; and F4. Analysis of the obtained results. As relevant results of the study, it was obtained that the areas with the highest averages were critical reading and mathematics. Likewise, it was evidenced that parent training at the postgraduate level has a representative influence on student performance. Finally, a set of dataset attributes that affect the performance of the five areas of the test were identified. This study aims to serve as a reference at a research level for the characterization of academic performance in different regions, to contribute to the development of strategies focused on strengthening educational quality.

Palabras clave (en): statistical analysis, correlation analysis, school performance, exam, state, skills

Resumen (pt)

Este trabalho tem como objetivo desenvolver um estudo baseado tanto na análise exploratória de dados quanto na seleção dos melhores atributos que afetam o desempenho acadêmico, utilizando o conjunto de dados das provas Sabre 11 2019 da cidade de Cartagena. Para desenvolver o estudo foi utilizada uma adaptação da metodologia de mineração de dados SEMMA, definindo quatro fases metodológicas, a saber: F1. Amostragem de dados; F2. Exploração e modificação de dados; F3. Aplicação de método de seleção de atributos; e F4. Análise dos resultados obtidos. Como resultados relevantes do estudo, obteve-se que as áreas com maiores médias foram leitura crítica e matemática. Da mesma forma, evidenciou-se que a formação dos pais em nível de pós-graduação tem influência representativa no desempenho dos alunos. Por fim, foi identificado um conjunto de atributos do conjunto de dados que afetam o desempenho das cinco áreas do teste. Este estudo pretende servir de referência a nível de investigação para a caracterização do desempenho académico em diferentes regiões, de forma a contribuir para o desenvolvimento de estratégias focadas no fortalecimento da qualidade educativa.

Palabras clave (pt): análise estatística, análise de correlação, desempenho escolar, exame, estado, habilidades

Referencias

Acero, W., Sánchez, J. F., Suárez, D., & Téllez, C. (2016). Modelo de recalificación para la prueba Saber 11. Comunicaciones En Estadística, 9(1), 43–54.

Acevedo, D., Torres, J. D., & Jiménez, M. J. (2015). Factores asociados a la repetición de cursos y retraso en la graduación en programas de ingeniería de la Universidad de Cartagena, en Colombia. Formación Universitaria, 8(2), 35–42. https://doi.org/10.4067/S0718-50062015000200006

Alonso, J. C., Casasbuenas, P., Gallo, B., & Torres, G. (2012). Bilinguismo en Santiago de Cali: Análisis de los resultados de las Pruebas SABER 11 y SABER PRO. Universidad ICESI. https://www.icesi.edu.co/centros-academicos/images/Centros/cienfi/libros/Bilinguismo_en_Santiago_de_Cali.pdf

Arboleda-Posada, G. I., García-Arango, D. A., Vasco-Ospina, A. M., Garizabal, S. R., & Sastoque-Zapata, J. A. (2022). Saber Pro en programas de formación militar y policial: minería de datos para la identificación de factores asociados a los resultados. Revista Ibérica de Sistemas e Tecnologias de Informação, E19, 508–516.

Ayala-García, J., & Meisel-Roca, A. (2016). La exclusión en los tiempos del auge: el caso de Cartagena. https://repositorio.banrep.gov.co/bitstream/handle/20.500.12134/6947/dtser_246.pdf

Chanchí-Golondrino, G.-E., Ospino-Pinedo, M.-E., & Muñoz-Sanabria, L.-F. (2021). Application of Spatial Data Science on Results of the Saber 5 Test. Revista Facultad de Ingeniería, 30(58), e13823. https://doi.org/10.19053/01211129.v30.n58.2021.13823

Devasia, T., Vinushree T. P., & Hegde, V. (2016). Prediction of students performance using educational data mining. 2016 International Conference on Data Mining and Advanced Computing (SAPIENCE), 91–95. https://doi.org/10.1109/SAPIENCE.2016.7684167

Díaz Pinzón, J. E. (2020). Evaluación de la incidencia de un curso preicfes en los resultados de la prueba Saber 11. Actualidades Pedagógicas, 1(75), 33–52. https://doi.org/10.19052/ap.vol1.iss75.3

García-González, J. R., Sánchez-Sánchez, P. A., Orozco, M., & Obredor, S. (2019). Extracción de conocimiento para la predicción y análisis de los resultados de la prueba de calidad de la educación superior en Colombia. Formación Universitaria, 12(4), 55–62. https://doi.org/10.4067/S0718-50062019000400055

Garizabalo Dávila, C. M. (2012). Estilos de aprendizaje en estudiantes de enfermería y su relación con el desempeño en las pruebas Saber Pro. Revista Estilos de Aprendizaje, 9(9), 1–18. https://redined.educacion.gob.es/xmlui/handle/11162/94536

Gorostiaga, A., & Rojo-Álvarez, J. L. (2016). On the use of conventional and statistical-learning techniques for the analysis of PISA results in Spain. Neurocomputing, 171, 625–637. https://doi.org/10.1016/j.neucom.2015.07.001

Iguarán Jiménez, A. M., Cabas-Manjarrés, M. F., Paba Barbosa, C., & Diazgranados Rincones, P. (2023). Relación de la prueba Saber 11, examen de admisión, promedio académico, prueba saber pro de estudiantes del programa de psicología de la Universidad del Magdalena. Revista Digital de Investigación En Docencia Universitaria, 17(2), e1421. https://doi.org/10.19083/ridu.2023.1421

Morales-Piñero, J. C., Cote-Sánchez, M. C., Molina-Bernal, I. A., & Rodríguez-Jerez, S. A. (2019). Incidencia de las TIC en el mejoramiento de las pruebas saber 11 a partir del modelo TPACK. Encuentro Internacional de Educación En Ingeniería 2019. https://acofipapers.org/index.php/eiei/article/view/40/35

[Narváez Zúñiga, A. F. (2022). Modelo estadístico para determinar los factores académicos en los resultados de las pruebas Saber Pro. Investigación e Innovación En Ingenierías, 11(1), 3–21. https://doi.org/10.17081/invinno.11.1.6255]

Nasiri, M., Minaei, B., & Vafaei, F. (2012). Predicting GPA and academic dismissal in LMS using educational data mining: A case mining. 6th National and 3rd International Conference of E-Learning and E-Teaching, 53–58. https://doi.org/10.1109/ICELET.2012.6333365

Oviedo Carrascal, A. I., & Jiménez Giraldo, J. (2019). Minería de datos educativos: análisis del desempeño de estudiantes de ingeniería en las pruebas SABER-PRO. Revista Politécnica, 15(29), 128–140. https://doi.org/10.33571/rpolitec.v15n29a10

Palacios-Gómez, H. J., Pantoja-Hernández, G. A., Navarro-Martínez, A. A., Puetaman, I. M. A., & Toledo Jimenez, R. A. (2016). Comparativa entre CRISP-DM y SEMMA para la limpieza de datos en productos MODIS en un estudio de cambio de cobertura y uso del suelo: Comparative between CRISP-DM and SEMMA for data cleaning of MODIS products in a study of land use and land cover change. 2016 IEEE 11th Colombian Computing Conference (CCC), 1–9. https://doi.org/10.1109/ColumbianCC.2016.7750789

Palacios-Mena, N. (2018). El currículo de ciencias sociales y las pruebas Saber 11 en Colombia: consonancias y disonancias. Voces y Silencios. Revista Latinoamericana de Educación, 9(2), 80–106. https://doi.org/10.18175/vys9.2.2018.06

Palacios-Mena, N., & Rodríguez-Márquez, M. A. (2019). Los resultados de la prueba Saber 11 de ciencias sociales y las opiniones de los estudiantes: convergencias y divergencias. Revista Electrónica de Investigación Educativa, 21, 1–17. https://doi.org/10.24320/redie.2019.21.e28.2116

Pathan, A. A., Hasan, M., Ahmed, M. F., & Farid, D. M. (2014). Educational data mining: A mining model for developing students’ programming skills. The 8th International Conference on Software, Knowledge, Information Management and Applications (SKIMA 2014), 1–5. https://doi.org/10.1109/SKIMA.2014.7083552

Romero, C., & Ventura, S. (2010). Educational data mining: A review of the state of the art. IEEE Transactions on Systems, Man, and Cybernetics, Part C (Applications and Reviews), 40(6), 601–618. https://doi.org/10.1109/TSMCC.2010.2053532

Ruiz-Escorcia, R. R., Arévalo-Medrano, J. B., & Morillo, G.-P. (2017). Análisis de componentes principales aplicado a la prueba estatal Colombiana Saber 11. Revista Espacios, 39(10).

Sanabria James, L. A., Pérez Almagro, M. C., & Riascos Hinestroza, L. E. (2020). Pruebas de evaluación Saber y PISA en la educación obligatoria de Colombia. Educatio Siglo XXI, 38(3 Nov-Feb), 231–254. https://doi.org/10.6018/educatio.452891

Tariq, H. I., Sohail, A., Aslam, U., & Batcha, N. K. (2019). Loan default prediction model using sample, explore, modify, model, and assess (SEMMA). Journal of Computational and Theoretical Nanoscience, 16(8), 3489–3503.

Timarán-Pereira, R., Caicedo-Zambrano, J., & Hidalgo-Troya, A. (2019). Árboles de decisión para predecir factores asociados al desempeño académico de estudiantes de bachillerato en las pruebas Saber 11°. Revista de Investigación, Desarrollo e Innovación, 9(2), 363–378. https://doi.org/10.19053/20278306.v9.n2.2019.9184

Timarán-Pereira, R., Caicedo-Zambrano, J., & Hidalgo-Troya, A. (2023). Detección de patrones de desempeño académico en la competencia de matemáticas en las pruebas Saber 5o. Revista Científica, 47(2), 127–137. https://doi.org/10.14483/23448350.20908

Timarán Buchely, A., & Timarán Pereira, R. (2023). Minería de datos educativa para descubrir patrones asociados al desempeño académico en competencias genéricas. Revista Colombiana de Tecnologías de Avanzada (RCTA), 2(38), 87–95. https://doi.org/10.24054/rcta.v2i38.1282

Timarán Pereira, R., Hidalgo Troya, A., & Caicedo Zambrano, J. (2020). Factores asociados al desempeño académico en lectura crítica en las pruebas Saber 11° con árboles de decisión. Investigación e Innovación En Ingenierías, 8(3), 29–37. https://doi.org/10.17081/invinno.8.3.4701

Dimensions

PlumX

Visitas

193

Descargas

Los datos de descarga aún no están disponibles.

Cómo citar

Chanchí Golondrino, G. E., Barrera Buitrago, D. A., & Lugo López, N. D. (2024). Análisis exploratorio y selección de atributos relevantes sobre el dataset de las pruebas saber 11 para la ciudad de Cartagena. Revista Interamericana De Investigación Educación Y Pedagogía RIIEP, 17(2), 201-237. https://doi.org/10.15332/25005421.9999