Digitální knihovna UPCE přechází na novou verzi. Omluvte prosím případné komplikace. / The UPCE Digital Library is migrating to a new version. We apologize for any inconvenience.

Publikace:
Review Spam Detection Using Word Embeddings and Deep Neural Networks

Konferenční objektopen accesspeer-reviewedpostprint
dc.contributor.authorBarushka, Aliaksandrcze
dc.contributor.authorHájek, Petrcze
dc.date.accessioned2020-03-19T13:06:39Z
dc.date.available2020-03-19T13:06:39Z
dc.date.issued2019eng
dc.description.abstractReview spam (fake review) detection is increasingly important taking into consideration the rapid growth of internet purchases. Therefore, sophisticated spam filters must be designed to tackle the problem. Traditional machine learning algorithms use review content and other features to detect review spam. However, as demonstrated in related studies, the linguistic context of words may be of particular importance for text categorization. In order to enhance the performance of review spam detection, we propose a novel content-based approach that considers both bag-of-words and word context. More precisely, our approach utilizes n-grams and the skip-gram word embedding method to build a vector model. As a result, high-dimensional feature representation is generated. To handle the representation and classify the review spam accurately, a deep feed-forward neural network is used in the second step. To verify our approach, we use two hotel review datasets, including positive and negative reviews. We show that the proposed detection system outperforms other popular algorithms for review spam detection in terms of accuracy and area under ROC. Importantly, the system provides balanced performance on both classes, legitimate and spam, irrespective of review polarity.eng
dc.description.abstract-translatedSpam v recenzích (fejková recenze) je stále důležitější s ohledem na rychlý růst internetových nákupů. Proto musí být navrženy sofistikované filtry spamu, aby tento problém vyřešily. Tradiční algoritmy strojového učení používají k detekci spamu v recenzi obsah recenze a další atributy. Jak je však prokázáno v souvisejících studiích, jazykový kontext slov může mít pro kategorizaci textu zvláštní význam. Abychom zvýšili výkon detekce spamu v recenzích, navrhujeme nový přístup založený na obsahu, který zohledňuje jak slova, tak slovní kontext. Přesněji řečeno, náš přístup využívá k vytvoření vektorového modelu n-gramy a metodu vnořených slov se skip-gramy. Výsledkem je, že se generuje reprezentace atributů ve vysoké dimenzionalitě. Ke zpracování reprezentace a přesné klasifikaci spamu v recenzi se ve druhém kroku používá hluboká dopředná neuronová síť. K ověření našeho přístupu používáme dva soubory dat o recenzích hotelů, včetně kladných a záporných recenzí. Ukazujeme, že navrhovaný detekční systém překonává další populární algoritmy pro kontrolu detekce spamu z hlediska přesnosti a plochou pod ROC. Důležité je, že systém poskytuje vyvážený výkon na obou třídách, legitimní i spamové, bez ohledu na polaritu recenze.cze
dc.event15th IFIP WG 12.5 International Conference on Artificial Intelligence Applications and Innovations, AIAI 2019 (24.05.2019 - 26.05.2019, Hersonissos)eng
dc.formatp. 340-350eng
dc.identifier.doi10.1007/978-3-030-19823-7_28eng
dc.identifier.isbn978-3-030-19822-0eng
dc.identifier.issn1868-4238eng
dc.identifier.obd39883421eng
dc.identifier.urihttps://hdl.handle.net/10195/75038
dc.language.isoengeng
dc.peerreviewedyeseng
dc.publicationstatuspostprinteng
dc.publisherSpringereng
dc.relation.ispartofIFIP Advances in Information and Communication Technology. Vol. 559eng
dc.relation.publisherversionhttps://link.springer.com/chapter/10.1007/978-3-030-19823-7_28eng
dc.rightsopen accesseng
dc.subjectNeural networkeng
dc.subjectReview spameng
dc.subjectSkip-grameng
dc.subjectWord embeddingeng
dc.subjectWord2veceng
dc.subjectneuronová síťcze
dc.subjectrecenzní spamcze
dc.subjectskip-gramcze
dc.subjectslovní vnořenícze
dc.subjectword2veccze
dc.titleReview Spam Detection Using Word Embeddings and Deep Neural Networkseng
dc.title.alternativeDetekci spamu v recenzích pomocí slovních vnoření a hlubokých neuronových sítícze
dc.typeConferenceObjecteng
dspace.entity.typePublication

Soubory

Původní svazek

Nyní se zobrazuje 1 - 1 z 1
Načítá se...
Náhled
Název:
Conference_article_draft.pdf
Velikost:
876.09 KB
Formát:
Adobe Portable Document Format