Publikace: BipartiteJoin: Optimal Similarity Join for Fuzzy Bipartite Matching
Konferenční objektopen accesspeer-reviewedpostprint| dc.contributor.author | Rozinek, Ondřej | cze |
| dc.contributor.author | Borkovcová, Monika | cze |
| dc.contributor.author | Mareš, Jan | cze |
| dc.date.accessioned | 2025-10-07T09:58:33Z | |
| dc.date.issued | 2024 | eng |
| dc.description.abstract | Set similarity join, crucial for data cleaning, integration, and recommendation systems, identifies set pairs exceeding a similarity threshold. Our approach combines a count Q-gram filter with maximum weighted bipartite matching, balancing accuracy and efficiency. The Qgram filter, based on the relationship between Q-gram similarity and edit distance, reduces the number of comparisons, operating in constant time on a pre-built index. This enables real-time processing, as only a minimal number of pairs are verified through Fuzzy Bipartite Matching, significantly enhancing the efficiency of similarity joins. | eng |
| dc.description.abstract-translated | Spojení podobnosti množin, klíčové pro čištění dat, integraci a systémy doporučení, identifikuje dvojice množin přesahující podobnost práh. Náš přístup kombinuje filtr počtu Q-gramů s maximem vážené bipartitní párování, přesnost a účinnost vyvážení. Filtr Qgram, založený na vztahu mezi podobností Q-gramů a editační vzdálenost, snižuje počet srovnání, pracuje v konstantním čase na předem vytvořeném indexu. To umožňuje zpracování v reálném čase, protože pomocí Fuzzy Bipartite Matching je ověřen pouze minimální počet párů, což výrazně zvyšuje efektivitu podobnostních spojení. | cze |
| dc.event | 12th World Conference on Information Systems and Technologies, WorldCIST 2024 (26.03.2024 - 28.03.2024, Lodž) | eng |
| dc.format | p. 171-180 | eng |
| dc.identifier.doi | 10.1007/978-3-031-60328-0_17 | |
| dc.identifier.isbn | 978-3-031-60327-3 | |
| dc.identifier.issn | 2367-3370 | |
| dc.identifier.obd | 39889611 | |
| dc.identifier.scopus | 2-s2.0-85194236528 | |
| dc.identifier.uri | https://hdl.handle.net/10195/85971 | |
| dc.identifier.wos | 001267244400017 | |
| dc.language.iso | eng | eng |
| dc.peerreviewed | yes | eng |
| dc.project.ID | SGS_2024_011/Aplikovaný výzkum a experimentální vývoj metod, algoritmů a přístupů pro detekci, lokalizaci a klasifikaci objektů a extrakci jejich vlastností | eng |
| dc.publicationstatus | postprint | eng |
| dc.publisher | Springer Nature Switzerland AG | eng |
| dc.relation.ispartof | Good Practices and New Perspectives in Information Systems and Technologies : WorldCIST 2024, Volume 6 | eng |
| dc.relation.publisherversion | https://link.springer.com/chapter/10.1007/978-3-031-60328-0_17 | |
| dc.rights | open access | eng |
| dc.subject | similarity join, Q-gram filter, record linkage, entity resolution, similarity space, bipartite matching | eng |
| dc.subject | podobnostní spojení, Q-gramový filtr, propojení záznamů, rozlišení entit, prostor podobnosti, bipartitní párování | cze |
| dc.title | BipartiteJoin: Optimal Similarity Join for Fuzzy Bipartite Matching | eng |
| dc.title.alternative | BipartiteJoin: Optimální podobnostní spojení pro Fuzzy Bipartite Matching | cze |
| dc.type | ConferenceObject | eng |
| dspace.entity.type | Publication |
Soubory
Původní svazek
1 - 1 z 1
Načítá se...
- Název:
- BipartiteJoin__Optimal_Set_Similarity_Join_for_Bipartite_Matching_FINAL_(1).pdf
- Velikost:
- 452.55 KB
- Formát:
- Adobe Portable Document Format