Digitální knihovna UPCE přechází na novou verzi. Omluvte prosím případné komplikace. / The UPCE Digital Library is migrating to a new version. We apologize for any inconvenience.

Publikace:
BipartiteJoin: Optimal Similarity Join for Fuzzy Bipartite Matching

Konferenční objektopen accesspeer-reviewedpostprint
dc.contributor.authorRozinek, Ondřejcze
dc.contributor.authorBorkovcová, Monikacze
dc.contributor.authorMareš, Jancze
dc.date.accessioned2025-10-07T09:58:33Z
dc.date.issued2024eng
dc.description.abstractSet similarity join, crucial for data cleaning, integration, and recommendation systems, identifies set pairs exceeding a similarity threshold. Our approach combines a count Q-gram filter with maximum weighted bipartite matching, balancing accuracy and efficiency. The Qgram filter, based on the relationship between Q-gram similarity and edit distance, reduces the number of comparisons, operating in constant time on a pre-built index. This enables real-time processing, as only a minimal number of pairs are verified through Fuzzy Bipartite Matching, significantly enhancing the efficiency of similarity joins.eng
dc.description.abstract-translatedSpojení podobnosti množin, klíčové pro čištění dat, integraci a systémy doporučení, identifikuje dvojice množin přesahující podobnost práh. Náš přístup kombinuje filtr počtu Q-gramů s maximem vážené bipartitní párování, přesnost a účinnost vyvážení. Filtr Qgram, založený na vztahu mezi podobností Q-gramů a editační vzdálenost, snižuje počet srovnání, pracuje v konstantním čase na předem vytvořeném indexu. To umožňuje zpracování v reálném čase, protože pomocí Fuzzy Bipartite Matching je ověřen pouze minimální počet párů, což výrazně zvyšuje efektivitu podobnostních spojení.cze
dc.event12th World Conference on Information Systems and Technologies, WorldCIST 2024 (26.03.2024 - 28.03.2024, Lodž)eng
dc.formatp. 171-180eng
dc.identifier.doi10.1007/978-3-031-60328-0_17
dc.identifier.isbn978-3-031-60327-3
dc.identifier.issn2367-3370
dc.identifier.obd39889611
dc.identifier.scopus2-s2.0-85194236528
dc.identifier.urihttps://hdl.handle.net/10195/85971
dc.identifier.wos001267244400017
dc.language.isoengeng
dc.peerreviewedyeseng
dc.project.IDSGS_2024_011/Aplikovaný výzkum a experimentální vývoj metod, algoritmů a přístupů pro detekci, lokalizaci a klasifikaci objektů a extrakci jejich vlastnostíeng
dc.publicationstatuspostprinteng
dc.publisherSpringer Nature Switzerland AGeng
dc.relation.ispartofGood Practices and New Perspectives in Information Systems and Technologies : WorldCIST 2024, Volume 6eng
dc.relation.publisherversionhttps://link.springer.com/chapter/10.1007/978-3-031-60328-0_17
dc.rightsopen accesseng
dc.subjectsimilarity join, Q-gram filter, record linkage, entity resolution, similarity space, bipartite matchingeng
dc.subjectpodobnostní spojení, Q-gramový filtr, propojení záznamů, rozlišení entit, prostor podobnosti, bipartitní párovánícze
dc.titleBipartiteJoin: Optimal Similarity Join for Fuzzy Bipartite Matchingeng
dc.title.alternativeBipartiteJoin: Optimální podobnostní spojení pro Fuzzy Bipartite Matchingcze
dc.typeConferenceObjecteng
dspace.entity.typePublication

Soubory

Původní svazek

Nyní se zobrazuje 1 - 1 z 1
Načítá se...
Náhled
Název:
BipartiteJoin__Optimal_Set_Similarity_Join_for_Bipartite_Matching_FINAL_(1).pdf
Velikost:
452.55 KB
Formát:
Adobe Portable Document Format