Digitální knihovna UPCE přechází na novou verzi. Omluvte prosím případné komplikace. / The UPCE Digital Library is migrating to a new version. We apologize for any inconvenience.

Publikace:
Application of POS Tagging in Machine Translation Evaluation

Konferenční objektOmezený přístuppeer-reviewedpostprint
dc.contributor.authorBenko, Ľubomírcze
dc.contributor.authorMunkova, Dasacze
dc.date.accessioned2017-05-11T10:56:18Z
dc.date.available2017-05-11T10:56:18Z
dc.date.issued2016eng
dc.description.abstractThe aim of the paper is to present a process of natural language processing in its full extent as well as in machine translation from English language into Slovak as a representative of inflectional language. We aim at the data preparation phase for automatic evaluation of machine translation through POS tagging. The preparation phase for MT evaluation consists of several steps, but only the first step - creation of dataset-parallel corpus is deeply described. We focus on the source text collection of various styles and genres-dataset creation and machine translation collection. Two machine translation systems are used-web SMT Google translator API and MT@EC. As a morphology analyzing tool-TreeTagger is used. The process of dataset creation, which covers not only parallel corpora creation, but also creation of errors' database of Slovak words with morphological annotation, is analyzed. The main contribution consists of a novel approach to research of MT evaluation given by the POS tagging (machine learning methods), to identify differences between MT output and post-edited machine translation output. The ground essential of the research is machine translation errors analysis, their identification and classification, from English language into Slovak.eng
dc.description.abstract-translatedCílem papíru je představit proces zpracování v plném rozsahu také v strojového překladu z angličtiny do slovenštiny jako zástupce flektivní jazyk přirozeného jazyka. Naším cílem je ve fázi přípravy dat pro automatické hodnocení strojového překladu přes POS značkování. Se skládá z několika kroků, ale jen prvním krokem přípravné fáze pro hodnocení způsobilosti MT - vytvoření dataset paralelní korpus je hluboce popsán. Zaměřujeme se na zdrojové kolekce text různých stylů a žánrů dataset strojového překladu a vytváření kolekce. Jsou dva systémy strojového překladu používají webové SMT Google translator API a MT@EC. Jako morfologii se používá analýza nástroj TreeTagger. Proces vytvoření dataset, který zahrnuje nejen vytváření paralelních korpusů, ale i vznik chyby databáze slovenských slov morfologická anotace, je analyzován. Hlavním přínosem je tvořena nový přístup k výzkumu MT hodnocení od POS značkování (stroj metody učení), k identifikaci rozdílů mezi MT výstup a po upraveného strojového překladu. Essential zem výzkumu je analýza chyby strojového překladu, jejich identifikace a klasifikace, z angličtiny do slovenštiny.cze
dc.eventDIVAI 2016 ‐ 11th International Scientific Conference on Distance Learning in Applied Informatics (02.05.2016 - 04.05.2016)eng
dc.formatp. 471-479eng
dc.identifier.isbn978-80-7552-249-8eng
dc.identifier.issn2464-7470eng
dc.identifier.obd39878533eng
dc.identifier.urihttps://hdl.handle.net/10195/67401
dc.identifier.wos000386971000040eng
dc.language.isoengeng
dc.peerreviewedyeseng
dc.project.IDSGS_2016_023/Ekonomický a sociální rozvoj v soukromém a veřejném sektorueng
dc.publicationstatuspostprinteng
dc.publisherWolters Kluwer ČR, a. s.eng
dc.relation.ispartofDIVAI 2016 ‐ 11th International Scientific Conference on Distance Learning in Applied Informaticseng
dc.rightsPouze v rámci univerzityeng
dc.subjectNatural language processingeng
dc.subjectEvaluationeng
dc.subjectMachine Translation qualityeng
dc.subjectSentence alignmenteng
dc.subjectTokenizationeng
dc.subjectPOS taggingeng
dc.subjectEvaluacecze
dc.subjectKvalita strojového překladucze
dc.subjectPOS taggingcze
dc.subjectTokenizacecze
dc.titleApplication of POS Tagging in Machine Translation Evaluationeng
dc.title.alternativeAplikace POS tagů v evaluaci strojových překladůcze
dc.typeConferenceObjecteng
dspace.entity.typePublication

Soubory

Původní svazek

Nyní se zobrazuje 1 - 1 z 1
Načítá se...
Náhled
Název:
divai_benko.pdf
Velikost:
7.85 MB
Formát:
Adobe Portable Document Format