Publikace: Feature extraction from unstructured texts as a combination of the morphological and the syntactic analysis and its usage in fake news classification tasks
Článekopen accesspeer-reviewedpublished| dc.contributor.author | Szabo Nagy, Kitti | |
| dc.contributor.author | Kapusta, Jozef | |
| dc.contributor.author | Munk, Michal | |
| dc.date.accessioned | 2024-08-25T15:17:54Z | |
| dc.date.available | 2024-08-25T15:17:54Z | |
| dc.date.issued | 2023 | |
| dc.description.abstract | In this paper, a new technique of feature extraction is proposed, which is considered an essential part of natural language processing. Feature extraction is the process of transformation of the unstructured text to a format which is recognizable by computers. This means a transformation to a vector of numbers. The study evaluates and compares the performance of three methods: M1, which is the baseline method TfIdf; M2, which combines TfIdf with POS tags; and M3, a novel technique called MDgwPosF that incorporates weighted TfIdf values based on word depths and the relative frequency of POS tags. The primary focus of the study is to assess and compare the performance of these methods, with particular emphasis on evaluating how M3 performs in comparison with M1 and M2. Two different datasets and feed-forward, LSTM and GRU neural networks were used in this study. The results showed that the feed-forward model with the proposed method MDgwPosF in moderate topology achieved the best performance across various measures. The dataset created automatically performed better than the manual dataset. The differences between methods and topologies were not statistically significant. Statistically significant differences between the classification models were proven. The MDgwPosF method achieved higher accuracy compared to the baseline TfIdf, indicating that incorporating additional information into the vector can enhance the performance of TfIdf. | eng |
| dc.description.abstract-translated | V tomto článku je navržena nová technika extrakce příznaků, která je považována za nezbytnou součást zpracování přirozeného jazyka. Extrakce rysů je proces transformace nestrukturovaného textu do formátu, který je počítačově rozpoznatelný. To znamená transformaci na vektor čísel. Studie hodnotí a porovnává výkon tří metod: M1, což je základní metoda TfIdf; M2, který kombinuje TfIdf s POS tagy; a M3, nová technika nazvaná MDgwPosF, která zahrnuje vážené hodnoty TfIdf založené na hloubkách slov a relativní frekvenci POS tagů. Primárním cílem studie je posoudit a porovnat výkonnost těchto metod, se zvláštním důrazem na hodnocení výkonnosti M3 ve srovnání s M1 a M2. V této studii byly použity dva různé datové soubory a dopředné neuronové sítě LSTM a GRU. Výsledky ukázaly, že dopředný model s navrženou metodou MDgwPosF v mírné topologii dosáhl nejlepšího výkonu napříč různými opatřeními. Automaticky vytvořená datová sada fungovala lépe než ruční datová sada. Rozdíly mezi metodami a topologiemi nebyly statisticky významné. Byly prokázány statisticky významné rozdíly mezi klasifikačními modely. Metoda MDgwPosF dosáhla vyšší přesnosti ve srovnání se základní linií TfIdf, což naznačuje, že začlenění dalších informací do vektoru může zvýšit výkon TfIdf. | cze |
| dc.format | p. 22055-22067 | |
| dc.identifier.doi | 10.1007/s00521-023-08967-2 | |
| dc.identifier.issn | 0941-0643 | |
| dc.identifier.obd | 39889247 | |
| dc.identifier.scopus | 2-s2.0-85170046366 | |
| dc.identifier.uri | https://hdl.handle.net/10195/83930 | |
| dc.identifier.wos | 001066965500041 | |
| dc.language.iso | eng | |
| dc.peerreviewed | yes | eng |
| dc.publicationstatus | published | eng |
| dc.publisher | Springer | eng |
| dc.relation.ispartof | Neural Computing and Applications, volume 35, issue: 29 | eng |
| dc.relation.publisherversion | https://link.springer.com/article/10.1007/s00521-023-08967-2 | |
| dc.rights | open access | eng |
| dc.rights.licence | CC BY 4.0 | |
| dc.rights.uri | https://creativecommons.org/licenses/by/4.0/ | |
| dc.subject | Syntactic analysis | eng |
| dc.subject | Morphological analysis | eng |
| dc.subject | Feature extraction | eng |
| dc.subject | Fake news classification | eng |
| dc.subject | Neural networks | eng |
| dc.subject | Syntaktická analýza | cze |
| dc.subject | Morfologická analýza | cze |
| dc.subject | Extrakce funkcí | cze |
| dc.subject | Klasifikace falešných zpráv | cze |
| dc.subject | Neuronové sítě | cze |
| dc.title | Feature extraction from unstructured texts as a combination of the morphological and the syntactic analysis and its usage in fake news classification tasks | eng |
| dc.title.alternative | Extrakce rysů z nestrukturovaných textů jako kombinace morfologické a syntaktické analýzy a její využití v úkolech klasifikace fake news | cze |
| dc.type | Article | eng |
| dspace.entity.type | Publication |
Soubory
Původní svazek
1 - 1 z 1
Načítá se...
- Název:
- s00521-023-08967-2.pdf
- Velikost:
- 834.56 KB
- Formát:
- Adobe Portable Document Format