Digitální knihovna UPCE přechází na novou verzi. Omluvte prosím případné komplikace. / The UPCE Digital Library is migrating to a new version. We apologize for any inconvenience.

Publikace:
Scalable Similarity Joins for Fast and Accurate Record Deduplication in Big Data

Konferenční objektopen accesspeer-reviewedpostprint
dc.contributor.authorRozinek, Ondřejcze
dc.contributor.authorBorkovcová, Monikacze
dc.contributor.authorMareš, Jancze
dc.date.accessioned2025-10-07T09:58:23Z
dc.date.issued2024eng
dc.description.abstractRecord linkage is the process of matching records from multiple data sources that refer to the same entities. When applied to a single data source, this process is known as deduplication. With the increasing size of data source, recently referred to as big data, the complexity of the matching process becomes one of the major challenges for record linkage and deduplication. In recent decades, several blocking, indexing and filtering techniques have been developed. Their purpose is to reduce the number of record pairs to be compared by removing obvious non-matching pairs in the deduplication process, while maintaining high quality of matching. Currently developed algorithms and traditional techniques are not efficient, using methods that still lose significant proportion of true matches when removing comparison pairs. This paper proposes more efficient algorithms for removing non-matching pairs, with an explicitly proven mathematical lower bound on recently used stateof-the-art approximate string matching method - Fuzzy Jaccard Similarity. The algorithm is also much more efficient in classification using Density-based spatial clustering of applications with noise (DBSCAN) in log-linear time complexity O(|E| log(|E|)).eng
dc.description.abstract-translatedPropojení záznamů je proces porovnávání záznamů z více zdrojů dat, které odkazují na stejné entity. Při použití na jeden zdroj dat se tento proces nazývá deduplikace. S rostoucí velikostí datových zdrojů, nedávno označovaných jako velká data, se složitost procesu párování stává jednou z hlavních výzev pro propojení záznamů a deduplikaci. V posledních desetiletích bylo vyvinuto několik technik blokování, indexování a filtrování. Jejich účelem je snížit počet porovnávaných párů záznamů odstraněním zjevně neodpovídajících párů v procesu deduplikace při zachování vysoké kvality párování. V současnosti vyvinuté algoritmy a tradiční techniky nejsou účinné, používají metody, které při odstraňování srovnávacích párů stále ztrácejí významnou část skutečných shod. Tento článek navrhuje efektivnější algoritmy pro odstraňování neshodných párů s explicitně osvědčenou matematickou spodní hranicí nedávno používané nejmodernější metody přibližného porovnávání řetězců - Fuzzy Jaccard Similarity. Algoritmus je také mnohem efektivnější v klasifikaci využívající prostorové shlukování aplikací se šumem (DBSCAN) založené na hustotě v log-lineární časové složitosti O(|E| log(|E|)).cze
dc.event12th World Conference on Information Systems and Technologies, WorldCIST 2024 (26.03.2024 - 28.03.2024, Lodž)eng
dc.formatp. 181 - 191eng
dc.identifier.doi10.1007/978-3-031-60328-0_18
dc.identifier.isbn978-3-031-60327-3
dc.identifier.issn2367-3370
dc.identifier.obd39889610
dc.identifier.scopus2-s2.0-85194274274
dc.identifier.urihttps://hdl.handle.net/10195/85970
dc.identifier.wos001267244400018
dc.language.isoeng
dc.peerreviewedyeseng
dc.project.IDSGS_2024_011/Aplikovaný výzkum a experimentální vývoj metod, algoritmů a přístupů pro detekci, lokalizaci a klasifikaci objektů a extrakci jejich vlastnostíeng
dc.publicationstatuspostprinteng
dc.publisherSpringer Nature Switzerland AGeng
dc.relation.ispartofGood Practices and New Perspectives in Information Systems and Technologies : WorldCIST 2024, Volume 6eng
dc.relation.publisherversionhttps://link.springer.com/chapter/10.1007/978-3-031-60328-0_18
dc.rightsopen accesseng
dc.subjectrecord deduplication, Q-gram filter, record linkage, entity resolution, similarity space, bipartite matching, similarity joineng
dc.subjectdeduplikace záznamů, filtr Q-gramů, propojení záznamů, entita rozlišení, podobnostní prostor, bipartitní párování, podobnostní spojenícze
dc.titleScalable Similarity Joins for Fast and Accurate Record Deduplication in Big Dataeng
dc.title.alternativeŠkálovatelné podobnostní spojení pro rychlou a přesnou deduplikaci záznamů ve velkých datechcze
dc.typeConferenceObjecteng
dspace.entity.typePublication

Soubory

Původní svazek

Nyní se zobrazuje 1 - 1 z 1
Načítá se...
Náhled
Název:
Scalable_Similarity_Joins_for_Fast_and_Accurate_Record_Deduplication_in_Big_Data_FINAL_(3).pdf
Velikost:
341.01 KB
Formát:
Adobe Portable Document Format