Análisis exploratorio y selección de atributos relevantes sobre el dataset de las pruebas saber 11 para la ciudad de Cartagena
Exploratory analysis and selection of relevant attributes on the saber 11 test dataset for the city of Cartagena
Análise exploratória e seleção de atributos relevantes no dataset dos exames Saber 11 para a cidade de Cartagena
Resumen (es)
Este trabajo tiene como objetivo el desarrollo de un estudio basado tanto en el análisis exploratorio de datos como en la selección de los mejores atributos que inciden en el rendimiento académico, utilizando el conjunto de datos de las pruebas Saber 11 de 2019 de la ciudad de Cartagena. Para el desarrollo del estudio se hizo uso de una adaptación de la metodología de minería de datos SEMMA, definiendo cuatro fases metodológicas, a saber: F1. Muestreo de los datos; F2. Exploración y modificación de los datos; F3. Aplicación del método de selección de atributos; y F4. Análisis de los resultados obtenidos. Como resultados relevantes del estudio, se obtuvo que las áreas con medias más altas fueron lectura crítica y matemáticas. Asimismo, se evidenció que la formación de los padres a nivel posgradual tiene una influencia representativa en el rendimiento del estudiante. Finalmente, se identificó un conjunto de atributos del dataset que inciden en el rendimiento de las cinco áreas de la prueba. Este estudio pretende servir de referencia a nivel investigativo para la caracterización del rendimiento académico en diferentes regiones, con el fin de contribuir al desarrollo de estrategias enfocadas en el fortalecimiento de la calidad.
Resumen (en)
This work aims to develop a study based on both exploratory data analysis and the selection of the best attributes that affect academic performance, using the data set of the 2019 Saber 11 tests from the city of Cartagena. To develop the study, an adaptation of the SEMMA data mining methodology was used, defining four methodological phases, namely: F1. Data sampling; F2. Exploration and modification of data; F3. Application of attribute selection method; and F4. Analysis of the obtained results. As relevant results of the study, it was obtained that the areas with the highest averages were critical reading and mathematics. Likewise, it was evidenced that parent training at the postgraduate level has a representative influence on student performance. Finally, a set of dataset attributes that affect the performance of the five areas of the test were identified. This study aims to serve as a reference at a research level for the characterization of academic performance in different regions, to contribute to the development of strategies focused on strengthening educational quality.
Resumen (pt)
Este trabalho tem como objetivo desenvolver um estudo baseado tanto na análise exploratória de dados quanto na seleção dos melhores atributos que afetam o desempenho acadêmico, utilizando o conjunto de dados das provas Sabre 11 2019 da cidade de Cartagena. Para desenvolver o estudo foi utilizada uma adaptação da metodologia de mineração de dados SEMMA, definindo quatro fases metodológicas, a saber: F1. Amostragem de dados; F2. Exploração e modificação de dados; F3. Aplicação de método de seleção de atributos; e F4. Análise dos resultados obtidos. Como resultados relevantes do estudo, obteve-se que as áreas com maiores médias foram leitura crítica e matemática. Da mesma forma, evidenciou-se que a formação dos pais em nível de pós-graduação tem influência representativa no desempenho dos alunos. Por fim, foi identificado um conjunto de atributos do conjunto de dados que afetam o desempenho das cinco áreas do teste. Este estudo pretende servir de referência a nível de investigação para a caracterização do desempenho académico em diferentes regiões, de forma a contribuir para o desenvolvimento de estratégias focadas no fortalecimento da qualidade educativa.
Referencias
Acero, W., Sánchez, J. F., Suárez, D., & Téllez, C. (2016). Modelo de recalificación para la prueba Saber 11. Comunicaciones En Estadística, 9(1), 43–54.
Acevedo, D., Torres, J. D., & Jiménez, M. J. (2015). Factores asociados a la repetición de cursos y retraso en la graduación en programas de ingeniería de la Universidad de Cartagena, en Colombia. Formación Universitaria, 8(2), 35–42. https://doi.org/10.4067/S0718-50062015000200006
Alonso, J. C., Casasbuenas, P., Gallo, B., & Torres, G. (2012). Bilinguismo en Santiago de Cali: Análisis de los resultados de las Pruebas SABER 11 y SABER PRO. Universidad ICESI. https://www.icesi.edu.co/centros-academicos/images/Centros/cienfi/libros/Bilinguismo_en_Santiago_de_Cali.pdf
Arboleda-Posada, G. I., García-Arango, D. A., Vasco-Ospina, A. M., Garizabal, S. R., & Sastoque-Zapata, J. A. (2022). Saber Pro en programas de formación militar y policial: minería de datos para la identificación de factores asociados a los resultados. Revista Ibérica de Sistemas e Tecnologias de Informação, E19, 508–516.
Ayala-García, J., & Meisel-Roca, A. (2016). La exclusión en los tiempos del auge: el caso de Cartagena. https://repositorio.banrep.gov.co/bitstream/handle/20.500.12134/6947/dtser_246.pdf
Chanchí-Golondrino, G.-E., Ospino-Pinedo, M.-E., & Muñoz-Sanabria, L.-F. (2021). Application of Spatial Data Science on Results of the Saber 5 Test. Revista Facultad de Ingeniería, 30(58), e13823. https://doi.org/10.19053/01211129.v30.n58.2021.13823
Devasia, T., Vinushree T. P., & Hegde, V. (2016). Prediction of students performance using educational data mining. 2016 International Conference on Data Mining and Advanced Computing (SAPIENCE), 91–95. https://doi.org/10.1109/SAPIENCE.2016.7684167
Díaz Pinzón, J. E. (2020). Evaluación de la incidencia de un curso preicfes en los resultados de la prueba Saber 11. Actualidades Pedagógicas, 1(75), 33–52. https://doi.org/10.19052/ap.vol1.iss75.3
García-González, J. R., Sánchez-Sánchez, P. A., Orozco, M., & Obredor, S. (2019). Extracción de conocimiento para la predicción y análisis de los resultados de la prueba de calidad de la educación superior en Colombia. Formación Universitaria, 12(4), 55–62. https://doi.org/10.4067/S0718-50062019000400055
Garizabalo Dávila, C. M. (2012). Estilos de aprendizaje en estudiantes de enfermería y su relación con el desempeño en las pruebas Saber Pro. Revista Estilos de Aprendizaje, 9(9), 1–18. https://redined.educacion.gob.es/xmlui/handle/11162/94536
Gorostiaga, A., & Rojo-Álvarez, J. L. (2016). On the use of conventional and statistical-learning techniques for the analysis of PISA results in Spain. Neurocomputing, 171, 625–637. https://doi.org/10.1016/j.neucom.2015.07.001
Iguarán Jiménez, A. M., Cabas-Manjarrés, M. F., Paba Barbosa, C., & Diazgranados Rincones, P. (2023). Relación de la prueba Saber 11, examen de admisión, promedio académico, prueba saber pro de estudiantes del programa de psicología de la Universidad del Magdalena. Revista Digital de Investigación En Docencia Universitaria, 17(2), e1421. https://doi.org/10.19083/ridu.2023.1421
Morales-Piñero, J. C., Cote-Sánchez, M. C., Molina-Bernal, I. A., & Rodríguez-Jerez, S. A. (2019). Incidencia de las TIC en el mejoramiento de las pruebas saber 11 a partir del modelo TPACK. Encuentro Internacional de Educación En Ingeniería 2019. https://acofipapers.org/index.php/eiei/article/view/40/35
[Narváez Zúñiga, A. F. (2022). Modelo estadístico para determinar los factores académicos en los resultados de las pruebas Saber Pro. Investigación e Innovación En Ingenierías, 11(1), 3–21. https://doi.org/10.17081/invinno.11.1.6255]
Nasiri, M., Minaei, B., & Vafaei, F. (2012). Predicting GPA and academic dismissal in LMS using educational data mining: A case mining. 6th National and 3rd International Conference of E-Learning and E-Teaching, 53–58. https://doi.org/10.1109/ICELET.2012.6333365
Oviedo Carrascal, A. I., & Jiménez Giraldo, J. (2019). Minería de datos educativos: análisis del desempeño de estudiantes de ingeniería en las pruebas SABER-PRO. Revista Politécnica, 15(29), 128–140. https://doi.org/10.33571/rpolitec.v15n29a10
Palacios-Gómez, H. J., Pantoja-Hernández, G. A., Navarro-Martínez, A. A., Puetaman, I. M. A., & Toledo Jimenez, R. A. (2016). Comparativa entre CRISP-DM y SEMMA para la limpieza de datos en productos MODIS en un estudio de cambio de cobertura y uso del suelo: Comparative between CRISP-DM and SEMMA for data cleaning of MODIS products in a study of land use and land cover change. 2016 IEEE 11th Colombian Computing Conference (CCC), 1–9. https://doi.org/10.1109/ColumbianCC.2016.7750789
Palacios-Mena, N. (2018). El currículo de ciencias sociales y las pruebas Saber 11 en Colombia: consonancias y disonancias. Voces y Silencios. Revista Latinoamericana de Educación, 9(2), 80–106. https://doi.org/10.18175/vys9.2.2018.06
Palacios-Mena, N., & Rodríguez-Márquez, M. A. (2019). Los resultados de la prueba Saber 11 de ciencias sociales y las opiniones de los estudiantes: convergencias y divergencias. Revista Electrónica de Investigación Educativa, 21, 1–17. https://doi.org/10.24320/redie.2019.21.e28.2116
Pathan, A. A., Hasan, M., Ahmed, M. F., & Farid, D. M. (2014). Educational data mining: A mining model for developing students’ programming skills. The 8th International Conference on Software, Knowledge, Information Management and Applications (SKIMA 2014), 1–5. https://doi.org/10.1109/SKIMA.2014.7083552
Romero, C., & Ventura, S. (2010). Educational data mining: A review of the state of the art. IEEE Transactions on Systems, Man, and Cybernetics, Part C (Applications and Reviews), 40(6), 601–618. https://doi.org/10.1109/TSMCC.2010.2053532
Ruiz-Escorcia, R. R., Arévalo-Medrano, J. B., & Morillo, G.-P. (2017). Análisis de componentes principales aplicado a la prueba estatal Colombiana Saber 11. Revista Espacios, 39(10).
Sanabria James, L. A., Pérez Almagro, M. C., & Riascos Hinestroza, L. E. (2020). Pruebas de evaluación Saber y PISA en la educación obligatoria de Colombia. Educatio Siglo XXI, 38(3 Nov-Feb), 231–254. https://doi.org/10.6018/educatio.452891
Tariq, H. I., Sohail, A., Aslam, U., & Batcha, N. K. (2019). Loan default prediction model using sample, explore, modify, model, and assess (SEMMA). Journal of Computational and Theoretical Nanoscience, 16(8), 3489–3503.
Timarán-Pereira, R., Caicedo-Zambrano, J., & Hidalgo-Troya, A. (2019). Árboles de decisión para predecir factores asociados al desempeño académico de estudiantes de bachillerato en las pruebas Saber 11°. Revista de Investigación, Desarrollo e Innovación, 9(2), 363–378. https://doi.org/10.19053/20278306.v9.n2.2019.9184
Timarán-Pereira, R., Caicedo-Zambrano, J., & Hidalgo-Troya, A. (2023). Detección de patrones de desempeño académico en la competencia de matemáticas en las pruebas Saber 5o. Revista Científica, 47(2), 127–137. https://doi.org/10.14483/23448350.20908
Timarán Buchely, A., & Timarán Pereira, R. (2023). Minería de datos educativa para descubrir patrones asociados al desempeño académico en competencias genéricas. Revista Colombiana de Tecnologías de Avanzada (RCTA), 2(38), 87–95. https://doi.org/10.24054/rcta.v2i38.1282
Timarán Pereira, R., Hidalgo Troya, A., & Caicedo Zambrano, J. (2020). Factores asociados al desempeño académico en lectura crítica en las pruebas Saber 11° con árboles de decisión. Investigación e Innovación En Ingenierías, 8(3), 29–37. https://doi.org/10.17081/invinno.8.3.4701
Cómo citar
Licencia
Derechos de autor 2024 Revista Interamericana de Investigación Educación y Pedagogía RIIEP
Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial-CompartirIgual 4.0.
Los autores mantienen los derechos sobre los artículos y por tanto son libres de compartir, copiar, distribuir, ejecutar y comunicar públicamente la obra bajo las condiciones siguientes:
Reconocer los créditos de la obra de la manera especificada por el autor o el licenciante (pero no de una manera que sugiera que tiene su apoyo o que apoyan el uso que hace de su obra).
RIIEP está bajo una licencia Creative Commons Atribución-NoComercial-CompartirIgual 4.0 Internacional (CC BY-NC-SA 4.0)
La Universidad Santo Tomás conserva los derechos patrimoniales de las obras publicadas, y favorece y permite la reutilización de las mismas bajo la licencia anteriormente mencionada.