Publikace: Deduplikace dat a jejich využití
Diplomová práceopen access| dc.contributor.advisor | Borkovcová, Monika | |
| dc.contributor.author | Klečanský, Pavel | |
| dc.contributor.referee | Pozdílek, Martin | |
| dc.date.accepted | 2024-06-11 | |
| dc.date.accessioned | 2024-07-08T11:43:20Z | |
| dc.date.available | 2024-07-08T11:43:20Z | |
| dc.date.issued | 2024 | |
| dc.date.submitted | 2024-05-17 | |
| dc.description.abstract | Diplomová práce se zabývá popisem problematiky deduplikace a spojování záznamu. Teoretická část zahrnuje celý proces deduplikace, od čištění dat až po klasifikaci. Práce také popisuje algoritmy, jako jsou Jaro-Winklerova vzdálenost, Levenshteinova vzdálenost, Damerau-Levenshteinova vzdálenost, Jaccardův index a podobnost Q-gramů. V praktické části práce je vytvořena knihovna, která umožňuje provádění spojování záznamů mezi dvěma zdroji dat a deduplikaci jednoho zdroje dat. Knihovna je implementována v jazyce Java a realizuje celý proces deduplikace a spojování záznamů pomocí vybraných algoritmů popsaných v teoretické části. | cze |
| dc.description.abstract-translated | The thesis deals with the description of deduplication and record linkage. The theoretical part covers the whole workflow of deduplication, from data cleaning to classification. The thesis also describes algorithms such as Jaro-Winkler distance, Levenshtein distance, DamerauLevenshtein distance, Jaccard index and Q-gram similarity. In the practical part of the thesis, a library is developed to perform record linkage between two data sources and deduplication of one data source. The library is implemented in Java and implements the entire workflow of deduplication and record linkage using the selected algorithms described in the theoretical part. | eng |
| dc.description.defence | Obhajoba diplomové práce se zabývá podrobným popisem algoritmů a problematiky deduplikace a spojování záznamů. Praktickým výstupem je vytvoření knihovny, která umožní provádět spojování záznamů mezi dvěma zdroji dat a deduplikaci jednoho zdroje dat. Dle vedoucí byly cíle práce splněny, výstup práce byl vytvořen podle zadání, a ačkoliv se jednalo o novou oblast, diplomant splnil vše dle zadání a dle domluvy. Při tvorbě a prezentaci diplomové práce byl patrný zájem autora o řešenou problematiku. Student výborně reagoval na dotazy a připomínky vedoucí práce, oponenta i členů komise pro státní závěrečné zkoušky. | cze |
| dc.description.department | Fakulta elektrotechniky a informatiky | cze |
| dc.description.grade | Dokončená práce s úspěšnou obhajobou | cze |
| dc.format | 79 s. | |
| dc.identifier.stag | 47622 | |
| dc.identifier.uri | https://hdl.handle.net/10195/83053 | |
| dc.language.iso | cze | |
| dc.publisher | Univerzita Pardubice | cze |
| dc.rights | Bez omezení | |
| dc.subject | deduplikace | cze |
| dc.subject | spojování záznamů | cze |
| dc.subject | porovnávání dat | cze |
| dc.subject | klasifikace | cze |
| dc.subject | kvalita dat | cze |
| dc.subject | deduplication | eng |
| dc.subject | record linkage | eng |
| dc.subject | data matching | eng |
| dc.subject | classification | eng |
| dc.subject | data quality | eng |
| dc.thesis.degree-discipline | Informační technologie | cze |
| dc.thesis.degree-grantor | Univerzita Pardubice. Fakulta elektrotechniky a informatiky | cze |
| dc.thesis.degree-name | Ing. | |
| dc.thesis.degree-program | Informační technologie | cze |
| dc.title | Deduplikace dat a jejich využití | cze |
| dc.title.alternative | Data deduplication and usage options | eng |
| dc.type | diplomová práce | cze |
| dspace.entity.type | Publication |
Soubory
Původní svazek
1 - 4 z 4
Načítá se...
- Název:
- KlecanskyP_DeduplikaceDat_MB_2024.pdf
- Velikost:
- 2.05 MB
- Formát:
- Adobe Portable Document Format
- Popis:
- Plný text práce
Načítá se...
- Název:
- BorkovcovaM_Deduplikace_dat_a_jejich_vyuziti_PK_2024.pdf
- Velikost:
- 280.93 KB
- Formát:
- Adobe Portable Document Format
- Popis:
- Posudek vedoucího práce
Načítá se...
- Název:
- PosudekOponent_PozdilekM_AplikaceStrojoveho_DS_2023.pdf
- Velikost:
- 210.43 KB
- Formát:
- Adobe Portable Document Format
- Popis:
- Posudek oponenta práce
Načítá se...
- Název:
- KlecanskyP_DeduplikaceDat_MB_2024.zip
- Velikost:
- 1.69 MB
- Formát:
- Unknown data format
- Popis:
- VŠKP - příloha