Digitální knihovna UPCE přechází na novou verzi. Omluvte prosím případné komplikace. / The UPCE Digital Library is migrating to a new version. We apologize for any inconvenience.

Publikace:
Enhancing Cardiovascular Risk Assessment with Advanced Data Balancing and Domain Knowledge-driven Explainability

Článekopen accesspeer-reviewedpublished
dc.contributor.authorYang, Fancze
dc.contributor.authorQiao, Yanancze
dc.contributor.authorHájek, Petrcze
dc.contributor.authorAbedin, Mohammad Zoynulcze
dc.date.accessioned2025-10-07T10:52:38Z
dc.date.issued2024
dc.description.abstractIn medical risk prediction, such as predicting heart disease, machine learning (ML) classifiers must achieve high accuracy, precision, and recall to minimize the chances of incorrect diagnoses or treatment recommendations. However, real-world datasets often have imbalanced data, which can affect classifier performance. Traditional data balancing methods can lead to overfitting and underfitting, making it difficult to identify potential health risks accurately. Early prediction of heart attacks is of paramount importance, and researchers have developed ML-based systems to address this problem. However, much of the existing ML research is based on a single dataset, often ignoring performance evaluation across multiple datasets. As the demand for interpretable ML models grows, model interpretability becomes central to revealing insights and feature effects within predictive models. To address these challenges, we present a novel data balancing technique that uses a divide-and- conquer strategy with the K-Means clustering algorithm to segment the dataset. The performance of our approach is highlighted through comparisons with established techniques, which demonstrate the superiority of our proposed method. To address the challenge of inter-dataset discrepancies, we use two different datasets. Our holistic pipeline, strengthened by the innovative balancing technique, effectively addresses performance discrepancies, culminating in a significant improvement from 81% to 90%. Furthermore, through advanced statistical analysis, it has been determined that the 95% confidence interval for the AUC metric of our method ranges from 0.8187 to 0.8411. This observation serves to underscore the consistency and reliability of our approach, demonstrating its ability to achieve high performance across a range of scenarios. Incorporating Explainable AI (XAI), we examine the feature rankings and their contributions within the best performing Random Forest model. While the domain expert feedback is consistent with the explanatory power of XAI, some differences remain. Nevertheless, a remarkable convergence in feature ranking and weighting is observed, bridging the insights from XAI tools and domain expert perspectives.eng
dc.description.abstract-translatedV predikci zdravotních rizik, například u srdečních onemocnění, musí klasifikátory strojového učení (ML) dosahovat vysoké přesnosti, preciznosti a citlivosti, aby se minimalizovalo riziko chybných diagnóz nebo doporučení léčby. Reálné datové sady však často obsahují nevyvážená data, což může negativně ovlivnit výkonnost klasifikátorů. Tradiční metody vyvažování dat mohou vést k přeučení nebo nedostatečnému naučení modelu, což znesnadňuje přesnou identifikaci potenciálních zdravotních rizik. Včasná predikce infarktů má zásadní význam a vědci vyvinuli systémy založené na ML, aby tento problém řešili. Většina stávajícího výzkumu však spoléhá na jedinou datovou sadu a často opomíjí hodnocení výkonnosti na více datových sadách. Se zvyšující se poptávkou po interpretovatelných modelech ML nabývá vysvětlitelnost modelů na významu, protože poskytuje vhledy do vlivů jednotlivých vlastností v predikčních modelech. Abychom tyto výzvy překonali, představujeme novou techniku vyvažování dat, která využívá strategii divide-and-conquer s algoritmem K-means k segmentaci datové sady. Výkonnost našeho přístupu je zdůrazněna prostřednictvím srovnání s osvědčenými technikami, které demonstrují nadřazenost navrhované metody. Abychom řešili výzvu diskrepancí mezi datovými sadami, používáme dvě různé datové sady. Naše komplexní pipeline, posílená inovativní technikou vyvažování dat, efektivně řeší problémy s výkonností, což vede k významnému zlepšení z 81 % na 90 %. Dále pokročilá statistická analýza stanovila, že 95% interval spolehlivosti pro metriky AUC našeho přístupu se pohybuje mezi 0,8187 a 0,8411. Tato skutečnost podtrhuje konzistenci a spolehlivost našeho přístupu a demonstruje jeho schopnost dosahovat vysoké výkonnosti v různých scénářích. Začleněním vysvětlitelného AI (XAI) zkoumáme hodnocení vlastností a jejich přínos v nejlépe fungujícím modelu Random Forest. Zatímco zpětná vazba od odborníků na danou oblast je konzistentní s vysvětlovací schopností XAI, zůstávají některé rozdíly. Přesto je pozorována pozoruhodná shoda v hodnocení a vážení vlastností, což propojuje poznatky z nástrojů XAI a odborných perspektiv.cze
dc.formatp. 124886eng
dc.identifier.doi10.1016/j.eswa.2024.124886
dc.identifier.issn0957-4174
dc.identifier.obd39890749
dc.identifier.scopus2-s2.0-85200145279
dc.identifier.urihttps://hdl.handle.net/10195/86227
dc.identifier.wos001286672200001
dc.language.isoeng
dc.peerreviewedyeseng
dc.publicationstatuspublishedeng
dc.publisherPergamon-Elsevier Science Ltd.eng
dc.relation.ispartofExpert Systems with Applications, volume 255, issue: Decembereng
dc.relation.publisherversionhttps://www.sciencedirect.com/science/article/pii/S0957417424017536
dc.rightsopen accesseng
dc.rights.licenseCC BY 4.0
dc.rights.urihttps://creativecommons.org/licenses/by/4.0/
dc.subjectHeart disease riskeng
dc.subjectData balancingeng
dc.subjectPerformance discrepancyeng
dc.subjectExplainabilityeng
dc.subjectExpert systemeng
dc.subjectDomain knowledgeeng
dc.subjectRiziko nemoci srdcecze
dc.subjectBalancování datcze
dc.subjectNevyrovnanost výkonnosticze
dc.subjectVysvětlitelnostcze
dc.subjectExpertní systémcze
dc.subjectDoménová znalostcze
dc.titleEnhancing Cardiovascular Risk Assessment with Advanced Data Balancing and Domain Knowledge-driven Explainabilityeng
dc.title.alternativeZlepšení hodnocení kardiovaskulárního rizika pomocí pokročilého vyvážení dat a vysvětlitelnosti řízené odbornými znalostmicze
dc.typearticleeng
dspace.entity.typePublication

Soubory

Původní svazek

Nyní se zobrazuje 1 - 1 z 1
Načítá se...
Náhled
Název:
1-s2.0-S0957417424017536-main.pdf
Velikost:
3.67 MB
Formát:
Adobe Portable Document Format