Digitální knihovna UPCE přechází na novou verzi. Omluvte prosím případné komplikace. / The UPCE Digital Library is migrating to a new version. We apologize for any inconvenience.

Publikace:
Deduplikace dat a jejich využití

Diplomová práceopen access
dc.contributor.advisorBorkovcová, Monika
dc.contributor.authorKlečanský, Pavel
dc.contributor.refereePozdílek, Martin
dc.date.accepted2024-06-11
dc.date.accessioned2024-07-08T11:43:20Z
dc.date.available2024-07-08T11:43:20Z
dc.date.issued2024
dc.date.submitted2024-05-17
dc.description.abstractDiplomová práce se zabývá popisem problematiky deduplikace a spojování záznamu. Teoretická část zahrnuje celý proces deduplikace, od čištění dat až po klasifikaci. Práce také popisuje algoritmy, jako jsou Jaro-Winklerova vzdálenost, Levenshteinova vzdálenost, Damerau-Levenshteinova vzdálenost, Jaccardův index a podobnost Q-gramů. V praktické části práce je vytvořena knihovna, která umožňuje provádění spojování záznamů mezi dvěma zdroji dat a deduplikaci jednoho zdroje dat. Knihovna je implementována v jazyce Java a realizuje celý proces deduplikace a spojování záznamů pomocí vybraných algoritmů popsaných v teoretické části.cze
dc.description.abstract-translatedThe thesis deals with the description of deduplication and record linkage. The theoretical part covers the whole workflow of deduplication, from data cleaning to classification. The thesis also describes algorithms such as Jaro-Winkler distance, Levenshtein distance, DamerauLevenshtein distance, Jaccard index and Q-gram similarity. In the practical part of the thesis, a library is developed to perform record linkage between two data sources and deduplication of one data source. The library is implemented in Java and implements the entire workflow of deduplication and record linkage using the selected algorithms described in the theoretical part.eng
dc.description.defenceObhajoba diplomové práce se zabývá podrobným popisem algoritmů a problematiky deduplikace a spojování záznamů. Praktickým výstupem je vytvoření knihovny, která umožní provádět spojování záznamů mezi dvěma zdroji dat a deduplikaci jednoho zdroje dat. Dle vedoucí byly cíle práce splněny, výstup práce byl vytvořen podle zadání, a ačkoliv se jednalo o novou oblast, diplomant splnil vše dle zadání a dle domluvy. Při tvorbě a prezentaci diplomové práce byl patrný zájem autora o řešenou problematiku. Student výborně reagoval na dotazy a připomínky vedoucí práce, oponenta i členů komise pro státní závěrečné zkoušky.cze
dc.description.departmentFakulta elektrotechniky a informatikycze
dc.description.gradeDokončená práce s úspěšnou obhajoboucze
dc.format79 s.
dc.identifier.stag47622
dc.identifier.urihttps://hdl.handle.net/10195/83053
dc.language.isocze
dc.publisherUniverzita Pardubicecze
dc.rightsBez omezení
dc.subjectdeduplikacecze
dc.subjectspojování záznamůcze
dc.subjectporovnávání datcze
dc.subjectklasifikacecze
dc.subjectkvalita datcze
dc.subjectdeduplicationeng
dc.subjectrecord linkageeng
dc.subjectdata matchingeng
dc.subjectclassificationeng
dc.subjectdata qualityeng
dc.thesis.degree-disciplineInformační technologiecze
dc.thesis.degree-grantorUniverzita Pardubice. Fakulta elektrotechniky a informatikycze
dc.thesis.degree-nameIng.
dc.thesis.degree-programInformační technologiecze
dc.titleDeduplikace dat a jejich využitícze
dc.title.alternativeData deduplication and usage optionseng
dc.typediplomová prácecze
dspace.entity.typePublication

Soubory

Původní svazek

Nyní se zobrazuje 1 - 4 z 4
Načítá se...
Náhled
Název:
KlecanskyP_DeduplikaceDat_MB_2024.pdf
Velikost:
2.05 MB
Formát:
Adobe Portable Document Format
Popis:
Plný text práce
Načítá se...
Náhled
Název:
BorkovcovaM_Deduplikace_dat_a_jejich_vyuziti_PK_2024.pdf
Velikost:
280.93 KB
Formát:
Adobe Portable Document Format
Popis:
Posudek vedoucího práce
Načítá se...
Náhled
Název:
PosudekOponent_PozdilekM_AplikaceStrojoveho_DS_2023.pdf
Velikost:
210.43 KB
Formát:
Adobe Portable Document Format
Popis:
Posudek oponenta práce
Načítá se...
Náhled
Název:
KlecanskyP_DeduplikaceDat_MB_2024.zip
Velikost:
1.69 MB
Formát:
Unknown data format
Popis:
VŠKP - příloha