Publicado
2026-03-09

Filtro de SPAM basado en aprendizaje profundo

Deep learning-based SPAM filter

DOI: https://doi.org/10.15332/23393076.11818
Danna Cruz-Reyes
Juan Camilo Camargo Prieto
Andres David Leon Hernandez
Felipe Algarra

Resumen (es)

La clasificación de correos electrónicos como spam o no spam es un problema clásico en el procesamiento de lenguaje natural. En este trabajo se implementan dos enfoques de aprendizaje profundo para abordar esta tarea: un modelo basado en BERT y una red neuronal recurrente LSTM. Se comparan sus rendimientos en términos de precisión, recall, F1 score y eficiencia computacional. Ambos modelos se entrenaron y evaluaron sobre el Enron Email Corpus, alcanzando una exactitud global del 97% y un F1 score equilibrado para ham y spam. El modelo BERT presenta una leve mejora en métricas de robustez, aunque implica mayores tiempos de entrenamiento e inferencia; por su parte, LSTM sigue siendo una solución efectiva cuando se diseña y entrena adecuadamente con un consumo de recursos sensiblemente menor. Estos hallazgos evidencian que, según los requisitos de latencia y capacidad de cómputo, es posible optar por un enfoque transformer de alto rendimiento o una implementación recurrente más ligera.

Palabras clave (es): aprendizaje profundo, clasificación de texto, spam, BERT, LSTM, PLN, redes neuronales

Resumen (en)

The classification of emails into spam or ham is a classic problem in natural language processing. In this study, we implement two deep learning approaches for tackling this task: a BERT-based model and a recurrent neural network using LSTM. Their performance is compared in terms of precision, recall, F1-score, and computational efficiency. Both models were trained and evaluated on the Enron Email Corpus, achieving an overall accuracy of 97% and a balanced F1-score for both spam and ham. While the BERT model shows slightly improved robustness metrics, it also requires significantly more computational resources. Meanwhile, LSTM remains an effective solution when properly designed and trained with lower computational demand. These findings suggest that depending on latency and computing constraints, one may choose between a high-performance transformer-based approach or a more lightweight recurrent implementation.

Palabras clave (en): spam detection, Natural Language Processing, BERT, LSTM, Deep Learning, Text Classification
Andres David Leon Hernandez, Departamento de Estadística, Universidad Nacional de Colombia, Bogotá, Colombia

-

Dimensions

PlumX

Visitas

20

Descargas

Los datos de descarga aún no están disponibles.

Cómo citar

Cruz Reyes, D. L., Camargo Prieto, J. C., Leon Hernandez, A. D., & Algarra, F. (2026). Filtro de SPAM basado en aprendizaje profundo. Comunicaciones En Estadística, 18(2), 1-9. https://doi.org/10.15332/23393076.11818