Digitální knihovna UPCE přechází na novou verzi. Omluvte prosím případné komplikace. / The UPCE Digital Library is migrating to a new version. We apologize for any inconvenience.

Publikace:
Feature extraction from unstructured texts as a combination of the morphological and the syntactic analysis and its usage in fake news classification tasks

Článekopen accesspeer-reviewedpublished
dc.contributor.authorSzabo Nagy, Kitti
dc.contributor.authorKapusta, Jozef
dc.contributor.authorMunk, Michal
dc.date.accessioned2024-08-25T15:17:54Z
dc.date.available2024-08-25T15:17:54Z
dc.date.issued2023
dc.description.abstractIn this paper, a new technique of feature extraction is proposed, which is considered an essential part of natural language processing. Feature extraction is the process of transformation of the unstructured text to a format which is recognizable by computers. This means a transformation to a vector of numbers. The study evaluates and compares the performance of three methods: M1, which is the baseline method TfIdf; M2, which combines TfIdf with POS tags; and M3, a novel technique called MDgwPosF that incorporates weighted TfIdf values based on word depths and the relative frequency of POS tags. The primary focus of the study is to assess and compare the performance of these methods, with particular emphasis on evaluating how M3 performs in comparison with M1 and M2. Two different datasets and feed-forward, LSTM and GRU neural networks were used in this study. The results showed that the feed-forward model with the proposed method MDgwPosF in moderate topology achieved the best performance across various measures. The dataset created automatically performed better than the manual dataset. The differences between methods and topologies were not statistically significant. Statistically significant differences between the classification models were proven. The MDgwPosF method achieved higher accuracy compared to the baseline TfIdf, indicating that incorporating additional information into the vector can enhance the performance of TfIdf.eng
dc.description.abstract-translatedV tomto článku je navržena nová technika extrakce příznaků, která je považována za nezbytnou součást zpracování přirozeného jazyka. Extrakce rysů je proces transformace nestrukturovaného textu do formátu, který je počítačově rozpoznatelný. To znamená transformaci na vektor čísel. Studie hodnotí a porovnává výkon tří metod: M1, což je základní metoda TfIdf; M2, který kombinuje TfIdf s POS tagy; a M3, nová technika nazvaná MDgwPosF, která zahrnuje vážené hodnoty TfIdf založené na hloubkách slov a relativní frekvenci POS tagů. Primárním cílem studie je posoudit a porovnat výkonnost těchto metod, se zvláštním důrazem na hodnocení výkonnosti M3 ve srovnání s M1 a M2. V této studii byly použity dva různé datové soubory a dopředné neuronové sítě LSTM a GRU. Výsledky ukázaly, že dopředný model s navrženou metodou MDgwPosF v mírné topologii dosáhl nejlepšího výkonu napříč různými opatřeními. Automaticky vytvořená datová sada fungovala lépe než ruční datová sada. Rozdíly mezi metodami a topologiemi nebyly statisticky významné. Byly prokázány statisticky významné rozdíly mezi klasifikačními modely. Metoda MDgwPosF dosáhla vyšší přesnosti ve srovnání se základní linií TfIdf, což naznačuje, že začlenění dalších informací do vektoru může zvýšit výkon TfIdf.cze
dc.formatp. 22055-22067
dc.identifier.doi10.1007/s00521-023-08967-2
dc.identifier.issn0941-0643
dc.identifier.obd39889247
dc.identifier.scopus2-s2.0-85170046366
dc.identifier.urihttps://hdl.handle.net/10195/83930
dc.identifier.wos001066965500041
dc.language.isoeng
dc.peerreviewedyeseng
dc.publicationstatuspublishedeng
dc.publisherSpringereng
dc.relation.ispartofNeural Computing and Applications, volume 35, issue: 29eng
dc.relation.publisherversionhttps://link.springer.com/article/10.1007/s00521-023-08967-2
dc.rightsopen accesseng
dc.rights.licenceCC BY 4.0
dc.rights.urihttps://creativecommons.org/licenses/by/4.0/
dc.subjectSyntactic analysiseng
dc.subjectMorphological analysiseng
dc.subjectFeature extractioneng
dc.subjectFake news classificationeng
dc.subjectNeural networkseng
dc.subjectSyntaktická analýzacze
dc.subjectMorfologická analýzacze
dc.subjectExtrakce funkcícze
dc.subjectKlasifikace falešných zprávcze
dc.subjectNeuronové sítěcze
dc.titleFeature extraction from unstructured texts as a combination of the morphological and the syntactic analysis and its usage in fake news classification taskseng
dc.title.alternativeExtrakce rysů z nestrukturovaných textů jako kombinace morfologické a syntaktické analýzy a její využití v úkolech klasifikace fake newscze
dc.typeArticleeng
dspace.entity.typePublication

Soubory

Původní svazek

Nyní se zobrazuje 1 - 1 z 1
Načítá se...
Náhled
Název:
s00521-023-08967-2.pdf
Velikost:
834.56 KB
Formát:
Adobe Portable Document Format