Spam filtering using integrated distribution-based balancing approach and regularized deep neural networks

Barushka, Aliaksandr; Hájek, Petr

Digitální knihovna UPCE
→
Univerzita Pardubice
→
Publikační činnost akademických pracovníků UPCE / UPCE Research Outputs
→
Zobrazit záznam

dc.contributor.author	Barushka, Aliaksandr	cze
dc.contributor.author	Hájek, Petr	cze
dc.date.accessioned	2019-05-22T08:34:02Z
dc.date.available	2019-05-22T08:34:02Z
dc.date.issued	2018	eng
dc.identifier.issn	0924-669X	eng
dc.identifier.uri	https://hdl.handle.net/10195/72756
dc.description.abstract	Rapid growth in the volume of unsolicited and unwanted messages has inspired the development of many anti-spam methods. Supervised anti-spam filters using machine-learning methods have been particularly effective in categorizing spam and non-spam messages. These automatically integrate spam corpora pre-processing, appropriate word lists selection, and the calculation of word weights, usually in a bag-of-words fashion. To develop an accurate spam filter is challenging because spammers attempt to decrease the probability of spam detection by using legitimate words. Complex models are therefore needed to solve such a problem. However, existing spam filtering methods usually converge to a poor local minimum, cannot effectively handle high-dimensional data and suffer from overfitting issues. To overcome these problems, we propose a novel spam filter integrating an N-gram tf.idf feature selection, modified distribution-based balancing algorithm and a regularized deep multi-layer perceptron NN model with rectified linear units (DBB-RDNN-ReL). As demonstrated on four benchmark spam datasets (Enron, SpamAssassin, SMS spam collection and Social networking), the proposed approach enables capturing more complex features from high-dimensional data by additional layers of neurons. Another advantage of this approach is that no additional dimensionality reduction is necessary and spam dataset imbalance is addressed using a modified distribution-based algorithm. We compare the performance of the approach with that of state-of-the-art spam filters (Minimum Description Length, Factorial Design using SVM and NB, Incremental Learning C4.5, and Random Forest, Voting and Convolutional Neural Network) and several machine learning algorithms commonly used to classify text. We show that the proposed model outperforms these other methods in terms of classification accuracy, with fewer false negatives and false positives. Notably, the proposed spam filter classifies both major (legitimate) and minor (spam) classes well on personalized / non-personalized and balanced / imbalanced spam datasets. In addition, we show that the proposed model performs better than the results reported by previous studies in terms of accuracy. However, the high computational expenses related to additional hidden layers limit its application as an online spam filter and make it difficult to overcome the problem of concept drift.	eng
dc.format	p. 3538-3556	eng
dc.language.iso	eng	eng
dc.publisher	Springer	eng
dc.relation.ispartof	Applied Intelligence, volume 48, issue: 10	eng
dc.rights	embargoed access	eng
dc.subject	Spam filter	eng
dc.subject	Email	eng
dc.subject	SMS	eng
dc.subject	Social network	eng
dc.subject	Deep neural network	eng
dc.subject	Regularization	eng
dc.subject	Imbalanced data	eng
dc.title	Spam filtering using integrated distribution-based balancing approach and regularized deep neural networks	eng
dc.title.alternative	Filtrování spamu pomocí integrace balancování na základě rozdělení a regularizovaných neuronových sítí	cze
dc.type	article	eng
dc.description.abstract-translated	Rychlý nárůst objemu nevyžádaných a nežádoucích zpráv inspiroval vývoj mnoha metod proti spamu. Antispamové filtry používající metody učení stroje byly obzvláště účinné při kategorizaci nevyžádaných a spamových zpráv. Ty automaticky integrují předzpracování spamových korpusů, výběr vhodných seznamů slov a výpočet slovních vah, obvykle ve svazku slov. Vytvoření přesného filtru nevyžádané pošty je náročné, protože osoby rozesílající spam se pokoušejí snižovat pravděpodobnost rozpoznání spamu pomocí legitimních slov. Proto jsou potřebné k vyřešení tohoto problému potřeba komplexní systémy. Existující metody filtrování nevyžádané pošty se však většinou vyznačují konvergencí ke špatným lokálním minimům, nemohou efektivně zpracovávat data o vysokých dimenzích a trpí problémy s přeučením. K překonání těchto problémů navrhujeme nový spamový filtr integrující výběr slovních N-gramů pomocí tf.idf, upravený algoritmus balancování založený na distribuci dat a regularizovaný hluboký vícevrstvý model perceptronové neuronové sítě s rektifikovanými lineárními jednotkami (DBB-RDNN-ReL). Jak bylo demonstrováno na čtyřech databázích nevyžádané pošty (Enron, SpamAssassin, SMS spam collection a Social networking), navrhovaný přístup umožňuje zachytit složitější znaky z vysoce dimenzionálních dat pomocí dalších vrstev neuronů. Další výhodou tohoto přístupu je, že není nutné žádné další snižování dimenze a nevyváženost nevyžádané datové sady je řešena pomocí modifikovaného algoritmu založeného na distribuci dat. Porovnáváme výkonnost přístupu s nejmodernějšími spamovými filtry (Minimální délka popisu, Faktorový návrh pomocí SVM a NB, Inkrementální učení C4.5 a Náhodný les, Voting a konvoluční neuronová síť) a několik algoritmů strojového učení běžně používaných pro klasifikaci textu. Ukazujeme, že navrhovaný model překonává tyto další metody z hlediska přesnosti klasifikace, s méně falešnými negativními a falešnými pozitivními výsledky. Navrhovaný spamový filtr klasifikuje jak důležité (legitimní), tak minoritní (nevyžádané) třídy na personalizovaných / ne personalizovaných a vyvážených / nevyvážených datových souborech spamu. Navíc ukazujeme, že navrhovaný model je lepší než výsledky předcházejících studií z hlediska přesnosti. Vysoké výpočetní náklady spojené s dodatečnými skrytými vrstvami však omezují jeho použití jako online filtru pro nevyžádanou poštu a ztěžují překonání problému konceptu.	cze
dc.peerreviewed	yes	eng
dc.publicationstatus	postprint	eng
dc.identifier.doi	10.1007/s10489-018-1161-y	eng
dc.relation.publisherversion	https://link.springer.com/content/pdf/10.1007/s10489-018-1161-y.pdf	eng
dc.project.ID	SGS_2017_017/Podpora rozvoje chytrých měst a regionů	eng
dc.identifier.wos	000443262400021	eng
dc.identifier.scopus	2-s2.0-85044370954
dc.identifier.obd	39881878	eng