Digitální knihovna UPCE přechází na novou verzi. Omluvte prosím případné komplikace. / The UPCE Digital Library is migrating to a new version. We apologize for any inconvenience.

Publikace:
Deduplikace dat a jejich využití

Diplomová práceopen access
Načítá se...
Náhled

Datum

Autoři

Klečanský, Pavel

Název časopisu

ISSN časopisu

Název svazku

Nakladatel

Univerzita Pardubice

Výzkumné projekty

Organizační jednotky

Číslo časopisu

Abstrakt

Diplomová práce se zabývá popisem problematiky deduplikace a spojování záznamu. Teoretická část zahrnuje celý proces deduplikace, od čištění dat až po klasifikaci. Práce také popisuje algoritmy, jako jsou Jaro-Winklerova vzdálenost, Levenshteinova vzdálenost, Damerau-Levenshteinova vzdálenost, Jaccardův index a podobnost Q-gramů. V praktické části práce je vytvořena knihovna, která umožňuje provádění spojování záznamů mezi dvěma zdroji dat a deduplikaci jednoho zdroje dat. Knihovna je implementována v jazyce Java a realizuje celý proces deduplikace a spojování záznamů pomocí vybraných algoritmů popsaných v teoretické části.

Popis

Klíčová slova

deduplikace, spojování záznamů, porovnávání dat, klasifikace, kvalita dat, deduplication, record linkage, data matching, classification, data quality

Citace

Permanentní identifikátor

Endorsement

Review

Supplemented By

Referenced By