Publikace: Deduplikace dat a jejich využití
Diplomová práceopen accessNačítá se...
Datum
Autoři
Klečanský, Pavel
Název časopisu
ISSN časopisu
Název svazku
Nakladatel
Univerzita Pardubice
Abstrakt
Diplomová práce se zabývá popisem problematiky deduplikace a spojování záznamu. Teoretická část zahrnuje celý proces deduplikace, od čištění dat až po klasifikaci. Práce také popisuje algoritmy, jako jsou Jaro-Winklerova vzdálenost, Levenshteinova vzdálenost, Damerau-Levenshteinova vzdálenost, Jaccardův index a podobnost Q-gramů. V praktické části práce je vytvořena knihovna, která umožňuje provádění spojování záznamů mezi dvěma zdroji dat a deduplikaci jednoho zdroje dat. Knihovna je implementována v jazyce Java a realizuje celý proces deduplikace a spojování záznamů pomocí vybraných algoritmů popsaných v teoretické části.
Popis
Klíčová slova
deduplikace, spojování záznamů, porovnávání dat, klasifikace, kvalita dat, deduplication, record linkage, data matching, classification, data quality