Deduplikace dat a jejich využití

Zobrazit minimální záznam

dc.contributor.advisor Borkovcová, Monika
dc.contributor.author Klečanský, Pavel
dc.date.accessioned 2024-07-08T11:43:20Z
dc.date.available 2024-07-08T11:43:20Z
dc.date.issued 2024
dc.date.submitted 2024-05-17
dc.identifier.uri https://hdl.handle.net/10195/83053
dc.description.abstract Diplomová práce se zabývá popisem problematiky deduplikace a spojování záznamu. Teoretická část zahrnuje celý proces deduplikace, od čištění dat až po klasifikaci. Práce také popisuje algoritmy, jako jsou Jaro-Winklerova vzdálenost, Levenshteinova vzdálenost, Damerau-Levenshteinova vzdálenost, Jaccardův index a podobnost Q-gramů. V praktické části práce je vytvořena knihovna, která umožňuje provádění spojování záznamů mezi dvěma zdroji dat a deduplikaci jednoho zdroje dat. Knihovna je implementována v jazyce Java a realizuje celý proces deduplikace a spojování záznamů pomocí vybraných algoritmů popsaných v teoretické části. cze
dc.format 79 s.
dc.format 79 s.
dc.language.iso cze
dc.publisher Univerzita Pardubice cze
dc.rights Bez omezení
dc.subject deduplikace cze
dc.subject spojování záznamů cze
dc.subject porovnávání dat cze
dc.subject klasifikace cze
dc.subject kvalita dat cze
dc.subject deduplication eng
dc.subject record linkage eng
dc.subject data matching eng
dc.subject classification eng
dc.subject data quality eng
dc.title Deduplikace dat a jejich využití cze
dc.title.alternative Data deduplication and usage options eng
dc.type diplomová práce cze
dc.contributor.referee Pozdílek, Martin
dc.date.accepted 2024-06-11
dc.description.abstract-translated The thesis deals with the description of deduplication and record linkage. The theoretical part covers the whole workflow of deduplication, from data cleaning to classification. The thesis also describes algorithms such as Jaro-Winkler distance, Levenshtein distance, DamerauLevenshtein distance, Jaccard index and Q-gram similarity. In the practical part of the thesis, a library is developed to perform record linkage between two data sources and deduplication of one data source. The library is implemented in Java and implements the entire workflow of deduplication and record linkage using the selected algorithms described in the theoretical part. eng
dc.description.department Fakulta elektrotechniky a informatiky cze
dc.thesis.degree-discipline Informační technologie cze
dc.thesis.degree-name Ing.
dc.thesis.degree-grantor Univerzita Pardubice. Fakulta elektrotechniky a informatiky cze
dc.thesis.degree-program Informační technologie cze
dc.description.defence <p>Obhajoba diplomové práce se zabývá podrobným popisem algoritmů a problematiky deduplikace a spojování záznamů. Praktickým výstupem je vytvoření knihovny, která umožní provádět spojování záznamů mezi dvěma zdroji dat a deduplikaci jednoho zdroje dat.</p> <p>Dle vedoucí byly cíle práce splněny, výstup práce byl vytvořen podle zadání, a ačkoliv se jednalo o novou oblast, diplomant splnil vše dle zadání a dle domluvy. Při tvorbě a prezentaci diplomové práce byl patrný zájem autora o řešenou problematiku.</p> <p>Student výborně reagoval na dotazy a připomínky vedoucí práce, oponenta i členů komise pro státní závěrečné zkoušky.</p> cze
dc.identifier.stag 47622
dc.description.grade Dokončená práce s úspěšnou obhajobou cze


Tento záznam se objevuje v následujících kolekcích

Zobrazit minimální záznam

Vyhledávání


Rozšířené hledání

Procházet

Můj účet