Filtro de SPAM basado en aprendizaje profundo

Danna Lesley Cruz Reyes; Juan Camilo Camargo Prieto; Andres David Leon Hernandez; Felipe Algarra

doi:10.15332/23393076.11818

Publicado

2025-12-02

Filtro de SPAM basado en aprendizaje profundo

Deep learning-based SPAM filter

DOI: https://doi.org/10.15332/23393076.11818

Danna Cruz-Reyes

Universidad Nacional de Colombia

https://orcid.org/0000-0002-5977-8162

Juan Camilo Camargo Prieto

Departamento de Estadística, Universidad Nacional de Colombia

Andres David Leon Hernandez

Departamento de Estadística, Universidad Nacional de Colombia, Bogotá, Colombia

Felipe Algarra

Departamento de Estadística, Universidad Nacional de Colombia

PDF

Resumen (es)

La clasificación de correos electrónicos como spam o no spam es un problema clásico en el procesamiento de lenguaje natural. En este trabajo se implementan dos enfoques de aprendizaje profundo para abordar esta tarea: un modelo basado en BERT y una red neuronal recurrente LSTM. Se comparan sus rendimientos en términos de precisión, recall, F1 score y eficiencia computacional. Ambos modelos se entrenaron y evaluaron sobre el Enron Email Corpus, alcanzando una exactitud global del 97% y un F1 score equilibrado para ham y spam. El modelo BERT presenta una leve mejora en métricas de robustez, aunque implica mayores tiempos de entrenamiento e inferencia; por su parte, LSTM sigue siendo una solución efectiva cuando se diseña y entrena adecuadamente con un consumo de recursos sensiblemente menor. Estos hallazgos evidencian que, según los requisitos de latencia y capacidad de cómputo, es posible optar por un enfoque transformer de alto rendimiento o una implementación recurrente más ligera.

Palabras clave (es): aprendizaje profundo, clasificación de texto, spam, BERT, LSTM, PLN, redes neuronales

Resumen (en)

The classification of emails into spam or ham is a classic problem in natural language processing. In this study, we implement two deep learning approaches for tackling this task: a BERT-based model and a recurrent neural network using LSTM. Their performance is compared in terms of precision, recall, F1-score, and computational efficiency. Both models were trained and evaluated on the Enron Email Corpus, achieving an overall accuracy of 97% and a balanced F1-score for both spam and ham. While the BERT model shows slightly improved robustness metrics, it also requires significantly more computational resources. Meanwhile, LSTM remains an effective solution when properly designed and trained with lower computational demand. These findings suggest that depending on latency and computing constraints, one may choose between a high-performance transformer-based approach or a more lightweight recurrent implementation.

Palabras clave (en): spam detection, Natural Language Processing, BERT, LSTM, Deep Learning, Text Classification

Andres David Leon Hernandez, Departamento de Estadística, Universidad Nacional de Colombia, Bogotá, Colombia

-

Dimensions

PlumX

Visitas

174

Descargas

Los datos de descarga aún no están disponibles.

Cómo citar

Cruz Reyes, D. L., Camargo Prieto, J. C., Leon Hernandez, A. D., & Algarra, F. (2025). Filtro de SPAM basado en aprendizaje profundo. Comunicaciones En Estadística, 18(2), 1-9. https://doi.org/10.15332/23393076.11818

Descargar cita

Licencia

Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial-CompartirIgual 4.0.

Los autores mantienen los derechos sobre los artículos y por tanto son libres de compartir, copiar, distribuir, ejecutar y comunicar públicamente la obra bajo las condiciones siguientes:

Reconocer los créditos de la obra de la manera especificada por el autor o el licenciante (pero no de una manera que sugiera que tiene su apoyo o que apoyan el uso que hace de su obra).

Comunicaciones en Estadística está bajo una licencia Creative Commons Atribución-NoComercial-CompartirIgual 4.0 Internacional (CC BY-NC-SA 4.0)

La Universidad Santo Tomás conserva los derechos patrimoniales (copyright) de las obras publicadas, y favorece y permite la reutilización de las mismas bajo la licencia anteriormente mencionada.

Filtro de SPAM basado en aprendizaje profundo

Deep learning-based SPAM filter

Resumen (es)

Resumen (en)

Dimensions

PlumX

Visitas

Descargas

Cómo citar

Licencia

Artículos más leídos del mismo autor/a