Zobrazit minimální záznam
dc.contributor.advisor |
Borkovcová, Monika |
|
dc.contributor.author |
Klečanský, Pavel
|
|
dc.date.accessioned |
2024-07-08T11:43:20Z |
|
dc.date.available |
2024-07-08T11:43:20Z |
|
dc.date.issued |
2024 |
|
dc.date.submitted |
2024-05-17 |
|
dc.identifier.uri |
https://hdl.handle.net/10195/83053 |
|
dc.description.abstract |
Diplomová práce se zabývá popisem problematiky deduplikace a spojování záznamu. Teoretická část zahrnuje celý proces deduplikace, od čištění dat až po klasifikaci. Práce také popisuje algoritmy, jako jsou Jaro-Winklerova vzdálenost, Levenshteinova vzdálenost, Damerau-Levenshteinova vzdálenost, Jaccardův index a podobnost Q-gramů. V praktické části práce je vytvořena knihovna, která umožňuje provádění spojování záznamů mezi dvěma zdroji dat a deduplikaci jednoho zdroje dat. Knihovna je implementována v jazyce Java a realizuje celý proces deduplikace a spojování záznamů pomocí vybraných algoritmů popsaných v teoretické části. |
cze |
dc.format |
79 s. |
|
dc.format |
79 s. |
|
dc.language.iso |
cze |
|
dc.publisher |
Univerzita Pardubice |
cze |
dc.rights |
Bez omezení |
|
dc.subject |
deduplikace |
cze |
dc.subject |
spojování záznamů |
cze |
dc.subject |
porovnávání dat |
cze |
dc.subject |
klasifikace |
cze |
dc.subject |
kvalita dat |
cze |
dc.subject |
deduplication |
eng |
dc.subject |
record linkage |
eng |
dc.subject |
data matching |
eng |
dc.subject |
classification |
eng |
dc.subject |
data quality |
eng |
dc.title |
Deduplikace dat a jejich využití |
cze |
dc.title.alternative |
Data deduplication and usage options |
eng |
dc.type |
diplomová práce |
cze |
dc.contributor.referee |
Pozdílek, Martin |
|
dc.date.accepted |
2024-06-11 |
|
dc.description.abstract-translated |
The thesis deals with the description of deduplication and record linkage. The theoretical part covers the whole workflow of deduplication, from data cleaning to classification. The thesis also describes algorithms such as Jaro-Winkler distance, Levenshtein distance, DamerauLevenshtein distance, Jaccard index and Q-gram similarity. In the practical part of the thesis, a library is developed to perform record linkage between two data sources and deduplication of one data source. The library is implemented in Java and implements the entire workflow of deduplication and record linkage using the selected algorithms described in the theoretical part. |
eng |
dc.description.department |
Fakulta elektrotechniky a informatiky |
cze |
dc.thesis.degree-discipline |
Informační technologie |
cze |
dc.thesis.degree-name |
Ing. |
|
dc.thesis.degree-grantor |
Univerzita Pardubice. Fakulta elektrotechniky a informatiky |
cze |
dc.thesis.degree-program |
Informační technologie |
cze |
dc.description.defence |
<p>Obhajoba diplomové práce se zabývá podrobným popisem algoritmů a problematiky deduplikace a spojování záznamů. Praktickým výstupem je vytvoření knihovny, která umožní provádět spojování záznamů mezi dvěma zdroji dat a deduplikaci jednoho zdroje dat.</p>
<p>Dle vedoucí byly cíle práce splněny, výstup práce byl vytvořen podle zadání, a ačkoliv se jednalo o novou oblast, diplomant splnil vše dle zadání a dle domluvy. Při tvorbě a prezentaci diplomové práce byl patrný zájem autora o řešenou problematiku.</p>
<p>Student výborně reagoval na dotazy a připomínky vedoucí práce, oponenta i členů komise pro státní závěrečné zkoušky.</p> |
cze |
dc.identifier.stag |
47622 |
|
dc.description.grade |
Dokončená práce s úspěšnou obhajobou |
cze |
Tento záznam se objevuje v následujících kolekcích
Zobrazit minimální záznam
|
Vyhledávání
Procházet
-
Vše v Digitální knihovně
-
Tato kolekce
Můj účet
|