Filtro de SPAM basado en aprendizaje profundo
Deep learning-based SPAM filter
Resumen (es)
La clasificación de correos electrónicos como spam o no spam es un problema clásico en el procesamiento de lenguaje natural. En este trabajo se implementan dos enfoques de aprendizaje profundo para abordar esta tarea: un modelo basado en BERT y una red neuronal recurrente LSTM. Se comparan sus rendimientos en términos de precisión, recall, F1 score y eficiencia computacional. Ambos modelos se entrenaron y evaluaron sobre el Enron Email Corpus, alcanzando una exactitud global del 97% y un F1 score equilibrado para ham y spam. El modelo BERT presenta una leve mejora en métricas de robustez, aunque implica mayores tiempos de entrenamiento e inferencia; por su parte, LSTM sigue siendo una solución efectiva cuando se diseña y entrena adecuadamente con un consumo de recursos sensiblemente menor. Estos hallazgos evidencian que, según los requisitos de latencia y capacidad de cómputo, es posible optar por un enfoque transformer de alto rendimiento o una implementación recurrente más ligera.
Resumen (en)
The classification of emails into spam or ham is a classic problem in natural language processing. In this study, we implement two deep learning approaches for tackling this task: a BERT-based model and a recurrent neural network using LSTM. Their performance is compared in terms of precision, recall, F1-score, and computational efficiency. Both models were trained and evaluated on the Enron Email Corpus, achieving an overall accuracy of 97% and a balanced F1-score for both spam and ham. While the BERT model shows slightly improved robustness metrics, it also requires significantly more computational resources. Meanwhile, LSTM remains an effective solution when properly designed and trained with lower computational demand. These findings suggest that depending on latency and computing constraints, one may choose between a high-performance transformer-based approach or a more lightweight recurrent implementation.
Cómo citar
Licencia

Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial-CompartirIgual 4.0.
Los autores mantienen los derechos sobre los artículos y por tanto son libres de compartir, copiar, distribuir, ejecutar y comunicar públicamente la obra bajo las condiciones siguientes:
Reconocer los créditos de la obra de la manera especificada por el autor o el licenciante (pero no de una manera que sugiera que tiene su apoyo o que apoyan el uso que hace de su obra).
Comunicaciones en Estadística está bajo una licencia Creative Commons Atribución-NoComercial-CompartirIgual 4.0 Internacional (CC BY-NC-SA 4.0)





