Spam detection on social networks using cost-sensitive feature selection and ensemble-based regularized deep neural networks

Barushka, Aliaksandr; Hájek, Petr

Digitální knihovna UPCE
→
Univerzita Pardubice
→
Publikační činnost akademických pracovníků UPCE / UPCE Research Outputs
→
Zobrazit záznam

dc.contributor.author	Barushka, Aliaksandr	cze
dc.contributor.author	Hájek, Petr	cze
dc.date.accessioned	2021-05-15T18:34:22Z
dc.date.available	2021-05-15T18:34:22Z
dc.date.issued	2020
dc.identifier.issn	0941-0643
dc.identifier.uri	https://hdl.handle.net/10195/77216
dc.description.abstract	Spam detection on social networks is increasingly important owing to the rapid growth of social network user base. Sophisticated spam filters must be developed to deal with this complex problem. Traditional machine learning approaches such as neural networks, support vector machines and Naive Bayes classifiers are not effective enough to process and utilize complex features present in high-dimensional data on social network spam. Moreover, the traditional objective criteria of social network spam filters cannot cope with different costs assigned to type I and type II errors. To overcome these problems, here we propose a novel cost-sensitive approach to social network spam filtering. The proposed approach is composed of two stages. In the first stage, multi-objective evolutionary feature selection is used to minimize both the misclassification cost of the proposed model and the number of attributes necessary for spam filtering. Then, the approach uses cost-sensitive ensemble learning techniques with regularized deep neural networks as base learners. We demonstrate that this approach is effective for social network spam filtering on two benchmark datasets. We also show that the proposed approach outperforms other popular algorithms used in social network spam filtering, such as random forest, Naive Bayes or support vector machines.	eng
dc.format	p. 4239-4257
dc.language.iso	eng	eng
dc.publisher	Springer	eng
dc.relation.ispartof	Neural Computing and Applications, volume 32, issue: 9	eng
dc.rights	bez omezení	cze
dc.subject	neural network	eng
dc.subject	social networks	eng
dc.subject	regularization	eng
dc.subject	ensemble learning	eng
dc.subject	misclassification cost	eng
dc.title	Spam detection on social networks using cost-sensitive feature selection and ensemble-based regularized deep neural networks	eng
dc.title.alternative	Detekce spamu na sociálních sítích pomocí selekce atributů a souborů regularizovaných hlubokých neuronových sítí	cze
dc.type	article	eng
dc.description.abstract-translated	Detekce spamu na sociálních sítích je stále důležitější díky rychlému růstu uživatelské základny sociálních sítí. K řešení tohoto složitého problému je třeba vyvinout sofistikované filtry nevyžádané příspěvky. Tradiční přístupy ke strojovému učení, jako jsou neuronové sítě, podpůrné vektorové stroje a Naive Bayes, nejsou dostatečně účinné ke zpracování a využití komplexních atributů přítomných ve vysokodimenzionálních datech o spamu v sociální síti. Tradiční účelové funkce filtrů nevyžádaných příspěvků na sociálních sítích navíc nemohou zvládnout různé náklady spojené s chybami typu I a typu II. K překonání těchto problémů zde navrhujeme nový nákladově citlivý přístup k filtrování spamu na sociálních sítích. Navrhovaný přístup se skládá ze dvou fází. V první fázi se používá víceúčelová evoluční selekce atributů, aby se minimalizovaly jak náklady na nesprávnou klasifikaci navrhovaného modelu, tak počet atributů nezbytných pro filtrování spamu. Poté přístup využívá nákladově citlivé techniky učení pomocí souboru regularizovaných hlubokých neuronových sítí jako základních klasifikátorů. Ukazujeme, že tento přístup je efektivní pro filtrování spamu na sociálních sítích na dvou srovnávacích souborech dat. Ukážeme také, že navrhovaný přístup překonává jiné populární algoritmy používané při filtrování spamu v sociálních sítích, jako je náhodný les, Naive Bayes nebo podpůrné vektorové stroje.	cze
dc.peerreviewed	yes	eng
dc.publicationstatus	postprint	eng
dc.identifier.doi	10.1007/s00521-019-04331-5
dc.relation.publisherversion	https://link.springer.com/article/10.1007/s00521-019-04331-5	eng
dc.project.ID	GA16-19590S/Analýza témat a sentimentu vícenásobných textových zdrojů pro finanční rozhodování	eng
dc.identifier.wos	000527419900009
dc.identifier.scopus	2-s2.0-85068790680
dc.identifier.obd	39884638