Digitální knihovna UPCE přechází na novou verzi. Omluvte prosím případné komplikace. / The UPCE Digital Library is migrating to a new version. We apologize for any inconvenience.

Publikace:
Machine Learning Techniques in Spam Filtering

Disertační práceopen access
dc.contributor.authorBarushka, Aliaksandr
dc.contributor.refereeBureš, Vladimír
dc.contributor.refereePokorný, Miroslav
dc.date.accepted2020-06-02
dc.date.accessioned2020-07-08T10:45:37Z
dc.date.available2020-07-08T10:45:37Z
dc.date.issued2020
dc.date.submitted2020-03-31
dc.description.abstractThe rapid growth of unsolicited and unwanted messages has inspired the development of many anti-spam methods. Machine-learning methods such as Naive Bayes, support vector machines or neural networks have been particularly effective in categorizing spam/non-spam messages. In order to further enhance the performance of review spam detection, I propose a novel contentbased approach that considers both bag-of-words and word context. More precisely, the proposed approach utilizes n-grams and the Skip-Gram word embedding method to build a vector model. As a result, high-dimensional eature representation is generated. To handle the representation and classify the spam accurately, ensemble learning techniques with regularized deep feed-forward neural networks as base learners are used in order to overcome slow optimization convergence to a poor local minimum and overfitting ssues. In order to verify the proposed approach, I use seven different types of datasets from different spam filtering domains. I show that the proposed spam filtering model outperforms existing methods in terms of classification accuracy, false negative and false positive rates, F-score, area under ROC and misclassification cost. The only drawback of the proposed algorithm is its higher computation complexity.eng
dc.description.defenceDoktorand se ve své disertační práci věnoval definici problému se spamem a pokročilými metodami jeho rozpoznání a filtrací, v čemž mohu vidět společenský přínos disertační práce. V diskusi zodpověděl všechny dotazy členů komise s přehledem a hlubokou znalostní problematiky.cze
dc.description.departmentFakulta ekonomicko-správnícze
dc.description.gradeDokončená práce s úspěšnou obhajoboucze
dc.format116 s.
dc.identifierUniverzitní knihovna (studovna)cze
dc.identifier.signatureD40321
dc.identifier.stag40602
dc.identifier.urihttps://hdl.handle.net/10195/75560
dc.language.isoeng
dc.publisherUniverzita Pardubicecze
dc.rightsBez omezení
dc.subjectneural networkseng
dc.subjectensemble learningeng
dc.subjectword embeddingeng
dc.subjectspameng
dc.subjectmachine learningeng
dc.thesis.degree-disciplineApplied Informaticscze
dc.thesis.degree-grantorUniverzita Pardubice. Fakulta ekonomicko-správnícze
dc.thesis.degree-namePh.D.
dc.thesis.degree-programApplied Informaticscze
dc.titleMachine Learning Techniques in Spam Filteringeng
dc.typedisertační prácecze
dspace.entity.typePublication

Soubory

Původní svazek

Nyní se zobrazuje 1 - 3 z 3
Načítá se...
Náhled
Název:
Disertacni_prace_Ing_Barushka.pdf
Velikost:
2.47 MB
Formát:
Adobe Portable Document Format
Popis:
Plný text práce
Načítá se...
Náhled
Název:
Posudek_skolitele_Ing_Barushka.pdf
Velikost:
626.68 KB
Formát:
Adobe Portable Document Format
Popis:
Posudek vedoucího práce
Načítá se...
Náhled
Název:
Posudky_oponentu_Ing_Barushka.pdf
Velikost:
1.42 MB
Formát:
Adobe Portable Document Format
Popis:
Posudek oponenta práce