Digitální knihovna UPCE přechází na novou verzi. Omluvte prosím případné komplikace. / The UPCE Digital Library is migrating to a new version. We apologize for any inconvenience.

Publikace:
Evaluating automatic sentence alignment approaches on English-Slovak sentences

Článekopen accesspeer-reviewedpublished
dc.contributor.authorForgac, Frantisek
dc.contributor.authorMunkova, Dasa
dc.contributor.authorMunk, Michal
dc.contributor.authorKelebercova, Livia
dc.date.accessioned2024-08-24T07:22:01Z
dc.date.available2024-08-24T07:22:01Z
dc.date.issued2023
dc.description.abstractParallel texts represent a very valuable resource in many applications of natural language processing. The fundamental step in creating parallel corpus is the alignment. Sentence alignment is the issue of finding correspondence between source sentences and their equivalent translations in the target text. A number of automatic sentence alignment approaches were proposed including neural networks, which can be divided into length-based, lexicon-based, and translation-based. In our study, we used five different aligners, namely Bilingual sentence aligner (BSA), Hunalign, Bleualign, Vecalign, and Bertalign. We evaluated both, the performance of the Bertalign in terms of accuracy against the up to now employed aligners as well as among each other in the language pair English-Sovak. We created our custom corpus consisting of texts collected in 2021 and 2022. Vecalign and Bertalign performed statistically significantly best and BSA the worst. Hunalign and Bleualign achieved the same performance in terms of F1 score. However, Bleualign achieved the most diverse results in terms of performance.eng
dc.description.abstract-translatedParalelní texty představují velmi cenný zdroj v mnoha aplikacích zpracování přirozeného jazyka. Základním krokem při vytváření paralelního korpusu je zarovnání. Zarovnání vět je problém nalezení korespondence mezi zdrojovými větami a jejich ekvivalentními překlady v cílovém textu. Byla navržena řada přístupů k automatickému zarovnání vět, včetně neuronových sítí, které lze rozdělit na založené na délce, na lexikonu a na překladu. V naší studii jsme použili pět různých zarovnávačů, jmenovitě zarovnávač dvojjazyčných vět (BSA), Hunalign, Bleualign, Vecalign a Bertalign. Hodnotili jsme oba, výkon Bertalignu z hlediska přesnosti vůči dosud používaným zarovnávačům i mezi sebou navzájem v jazykovém páru angličtina-Sovak. Vytvořili jsme náš vlastní korpus složený z textů sesbíraných v letech 2021 a 2022. Statisticky významně nejlépe si vedly Vecalign a Bertalign a nejhůře BSA. Hunalign a Bleualign dosáhli stejného výkonu, pokud jde o skóre F1. Bleualign však dosáhl nejrozmanitějších výsledků z hlediska výkonu.cze
dc.formatp. 20123eng
dc.identifier.doi10.1038/s41598-023-47479-w
dc.identifier.issn2045-2322
dc.identifier.obd39889249
dc.identifier.scopus2-s2.0-85177092385
dc.identifier.urihttps://hdl.handle.net/10195/83733
dc.identifier.wos001125371600054
dc.language.isoeng
dc.peerreviewedyeseng
dc.publicationstatuspublishedeng
dc.relation.ispartofScientific Reports, volume 13, issue: 1eng
dc.relation.publisherversionhttps://www.nature.com/articles/s41598-023-47479-w
dc.rightsopen accesseng
dc.rights.licenceCC BY 4.0
dc.rights.urihttps://creativecommons.org/licenses/by/4.0/
dc.subjectLanguageeng
dc.subjectNatural Language Processingeng
dc.subjectNeural Networks, Computereng
dc.subjectSlovakiaeng
dc.subjectJazykcze
dc.subjectZpracování přirozeného jazykacze
dc.subjectNeuronové sítě, počítačecze
dc.subjectSlovenskocze
dc.titleEvaluating automatic sentence alignment approaches on English-Slovak sentenceseng
dc.title.alternativeVyhodnocování přístupů automatického zarovnání vět na anglicko-slovenských větáchcze
dc.typeArticleeng
dspace.entity.typePublication

Soubory

Původní svazek

Nyní se zobrazuje 1 - 1 z 1
Načítá se...
Náhled
Název:
s41598-023-47479-w.pdf
Velikost:
2.52 MB
Formát:
Adobe Portable Document Format