Digitální knihovna UPCE přechází na novou verzi. Omluvte prosím případné komplikace. / The UPCE Digital Library is migrating to a new version. We apologize for any inconvenience.

Publikace:
The Effect of Text Preprocessing Strategies on Detecting Fake Consumer Reviews

Konferenční objektOmezený přístuppeer-reviewedpostprint
dc.contributor.authorBarushka, Aliaksandrcze
dc.contributor.authorHájek, Petrcze
dc.date.accessioned2021-05-15T18:13:55Z
dc.date.available2021-05-15T18:13:55Z
dc.date.issued2019eng
dc.description.abstractFake review detection is getting crucial due to rapid growth of internet purchases. Obviously, it is important to choose the most efficient algorithm in order to detect fake (deceptive, spam) reviews either positive or negative. On the other hand, it is also important to pre-process the textual content of the reviews for training and later for production environment. A number of text preprocessing methods are examined in this study, such as feature dimensionality, tokenization, removal of stop words, stemming and different term weighting schemes. Three well-known machine learning algorithms are used as benchmark classifiers, including Naïve Bayes, neural network and support vector machine. Here we show that text preprocessing strategies are important determinants of the classifiers' performance. We find that the classifiers perform better for high-dimensional datasets represented by bigrams or trigrams selected according to the non-binary weighting scheme. Stemming and stopword removal seem to be less important.eng
dc.description.abstract-translatedDetekce falešných recenzí získává na důležitosti díky rychlému růstu nákupů přes internet. Je zřejmé, že je důležité zvolit nejúčinnější algoritmus, aby bylo možné detekovat falešné (klamné, spamové) recenze, ať už pozitivní nebo negativní. Na druhou stranu je také důležité předběžně zpracovat textový obsah recenzí pro učení a později pro produkční prostředí. V této studii je zkoumána řada metod předzpracování textu, například dimenze atributů, tokenizace, odstranění častých slov, ořezávání a různá schémata vážení termů. Jako srovnávací klasifikátory se používají tři známé algoritmy strojového učení, včetně Naïve Bayes, neuronové sítě a podpůrného vektorového stroje. Zde ukazujeme, že strategie předzpracování textu jsou důležitými determinanty výkonu klasifikátorů. Zjistili jsme, že klasifikátory fungují lépe pro vysoko-dimenzionální datové sady reprezentované bigramy nebo trigramy vybranými podle ne-binárního váhového schématu. Ořezávání a odstranění častých slov se zdají být méně důležité.cze
dc.event3rd International Conference on E-Business and Internet, ICEBI 2019 (09.11.2019 - 11.11.2019, Praha)eng
dc.formatp. 13-17eng
dc.identifier.doi10.1145/3383902.3383908eng
dc.identifier.isbn978-1-4503-7170-4eng
dc.identifier.obd39885186eng
dc.identifier.scopus2-s2.0-85096087042
dc.identifier.urihttps://hdl.handle.net/10195/77006
dc.language.isoengeng
dc.peerreviewedyeseng
dc.publicationstatuspostprinteng
dc.publisherACM (Association for Computing Machinery)eng
dc.relation.ispartofICEBI 2019 : proceedings of the 2019 3rd International Conference on E-Business and Interneteng
dc.relation.publisherversionhttps://dl.acm.org/doi/abs/10.1145/3383902.3383908#sec-termseng
dc.rightspouze v rámci univerzitycze
dc.subjectfakeeng
dc.subjectreviewseng
dc.subjecttext preprocessingeng
dc.subjectbag of wordseng
dc.subjectmachine learningeng
dc.titleThe Effect of Text Preprocessing Strategies on Detecting Fake Consumer Reviewseng
dc.title.alternativeVliv strategie předzpracování textu na detekci falešných spotřebitelských recenzícze
dc.typeConferenceObjecteng
dspace.entity.typePublication

Soubory

Původní svazek

Nyní se zobrazuje 1 - 1 z 1
Načítá se...
Náhled
Název:
The_effect_of_preprocessing_strategies_on_detecting_fake_reviews_-revised.pdf
Velikost:
317.7 KB
Formát:
Adobe Portable Document Format