Ulusal elektronik sağlık kayıtları üzerinde makine öğrenmesi ile kanser risk faktörlerinin incelenmesi


Tezin Türü: Yüksek Lisans

Tezin Yürütüldüğü Kurum: Akdeniz Üniversitesi, Sağlık Bilimleri Enstitüsü, -, Türkiye

Tezin Onay Tarihi: 2024

Tezin Dili: Türkçe

Öğrenci: ESRA TOKUR SONUVAR

Danışman: Kemal Hakan Gülkesen

Özet:

Amaç: Kanser, dünya genelinde önde gelen ölüm nedenlerinden biridir. Ulusal elektronik sağlık kayıtları (EHR), potansiyel kanser risk faktörlerini belirlemek için analiz
edilebilecek zengin bir bilgi kaynağı sunar. Bu çalışmanın amacı, çeşitli makine öğrenme modelleri kullanarak kanser tahmininin doğruluğunu ve performansını değerlendirmektir.
Ayrıca, çeşitli değişkenlerin kanser riski üzerindeki etkilerini incelemek ve bu bilgilerle klinik uygulamalara ve hasta yönetimine yönelik öneriler geliştirmek hedeflenmiştir.
Yöntem: Çalışmada kullanılan veri seti, 1 Ocak 2018 ile 31 Aralık 2022 tarihleri arasında kanser tanısı almış deney grubu, kanser tanısı almamış kontrol grubu 18 yaş üstü Türkiye
Cumhuriyeti vatandaşları ve Türkiye’de oturma iznine sahip kişilerin e-Nabız sisteminden alınan verilerden oluşmaktadır. Veri setine standart ölçekleme işlemi uygulanmış ve
makine öğrenme modelleri (lojistik regresyon [LR], SVM, XGBoost, karar ağaçları, rastgele ormanlar, yapay sinir ağları) uygulanmıştır. Modellerin performansı doğruluk,
duyarlılık, kesinlik, F1 skoru, MCC, AUC-ROC ve precision-recall curve (PRC) metrikleri ile değerlendirilmiştir. Ayrıca, veri setindeki değişkenlerin kanser riski üzerindeki etkileri odds oranları, p-değerleri ve etki büyüklükleri kullanılarak analiz
edilmiştir.
Bulgular: Yapılan analizlerde, XGBoost modeli 0,846 (0,841-0,850, %95 GA) AUC değeri ile en yüksek performansı göstermiştir. LR analizi ileri yaş, İstanbul bölgesinde
ikamet, yüksek hemoglobin, düşük ALT ve bazı komorbiditelerin kanser riski ile ilişkili olduğunu göstermiştir.
Sonuç: Çalışmamız, kanser tahmininde XGBoost modelinin en yüksek performansı sergilediğini ortaya koymuştur. Bazı değişkenlerin kanser riski üzerindeki etkileri, klinik uygulamalar ve hasta yönetimi için kritik bilgiler sunmaktadır. Bu bulgular, makine öğrenimi modellerinin sağlık uygulamalarında kullanımını desteklemekte ve kanserin daha iyi anlaşılmasına katkıda bulunmaktadır.