Dens invaginatus vakaları hakkında farklı büyük dil modellerinin sonuçlarının karşılaştırılması: bir pilot çalışma


Creative Commons License

Butean O., Felek T., Erkal D., Er K.

Recep Tayyip Erdoğan Üniversitesi Diş Hekimliği Fakültesi 3. Ulusal Öğrenci Kongresi, Rize, Türkiye, 26 - 27 Nisan 2025, ss.25-26, (Özet Bildiri)

  • Yayın Türü: Bildiri / Özet Bildiri
  • Basıldığı Şehir: Rize
  • Basıldığı Ülke: Türkiye
  • Sayfa Sayıları: ss.25-26
  • Akdeniz Üniversitesi Adresli: Evet

Özet

Amaç: Yapay zeka (YZ), endodonti de dahil olmak üzere sağlık hizmetlerinde dönüştürücü bir teknoloji olarak ortaya çıkmaktadır. Bu çalışmada, klinikte karşılaştığımız gelişimsel bir malformasyon olan dens invaginatus (Dİ) ile ilgili olarak güncel YZ programlarının bilgi düzeylerinin karılaştırılması amaçlanmıştır. 

Yöntem: Toplam 19 adet Dİ vakasına ait periapikal radyografiler kullanılarak farklı büyük dil modeli (LLM) tabanlı yapay zekâ sistemlerinin bu malformasyonu tanıyıp tanıyamayacağı ve sınıflandırma yapma yetkinlikleri değerlendirildi. Her görüntü, iki deneyimli endodontist tarafından önceden incelenerek referans tanılar belirlendi ve bu uzman görüşleri doğrultusunda modellerin başarı oranları ölçüldü.

Bulgular: YZ sistemlerinden Gemini LLM, görsel veri girişini desteklemediği için analiz gerçekleştirilemedi. DeepSeek LLM ise görsel veri yüklemesine izin vermediğinden ötürü test dışı bırakıldı. Görsel veri yüklemeyi destekleyen ChatGPT 4o, ChatGPT o1 ve ChatGPT o1 Pro modelleri üzerinde yapılan değerlendirme sonuçlarına göre:

·       ChatGPT 4o modeli, 19 vakadan düşük doğruluk oranı ile DI varlığını doğru şekilde tespit etti.

·       ChatGPT o1 modeli, orta seviye doğruluk oranı ile daha yüksek başarı gösterdi.

·       ChatGPT o1 Pro modeli ise yüksek seviye doğruluk oranı ile en başarılı sonucu verdi ve sadece iki vakada hatalı değerlendirme yaptı.

Buna ek olarak, sınıflandırma (örneğin Oehler’s sınıflaması) açısından da o1 Pro modelinin diğer modellere kıyasla daha tutarlı tahminlerde bulunduğu gözlemlendi. Ancak, sınıflandırma başarısı, genel tanı doğruluğuna kıyasla daha düşük seviyelerdeydi ve bu alan ayrı olarak değerlendirmeye alınmaktadır.

Sonuç: Elde edilen bu bulgular, yapay zekâ destekli büyük dil modellerinin klinik olarak karmaşık gelişimsel dental anomalilerin ön tanısında umut vadeden araçlar olabileceğini göstermektedir. Ancak, bu modellerin klinik karar destek sistemlerinde kullanılabilmesi için daha geniş kapsamlı validasyon çalışmaları gerekmektedir.

Anahtar Kelimeler: Dens invaginatus, Yapay zeka, Dil modeli

Objective: Artificial intelligence (AI) is emerging as a transformative technology in healthcare, including endodontics. This study aims to compare the knowledge levels of current AI programs regarding dens invaginatus (DI), a developmental malformation we encounter in the clinic.

Methods: In this study, periapical radiographs from a total of 19 dens invaginatus cases were used to assess whether different large language model (LLM)-based artificial intelligence systems could recognize this malformation and perform classification. Each image was previously examined by two experienced endodontists to establish reference diagnoses, and the success rates of the models were measured in line with these expert assessments.

Results: Among the AI systems, Gemini LLM was excluded because it did not support visual data input, and DeepSeek LLM was excluded for not allowing the upload of visual data. According to the evaluation results for ChatGPT 4o, ChatGPT o1, and ChatGPT o1 Pro-which do support visual data upload-regarding the detection of DI:

·       The ChatGPT 4o model correctly identified the presence of DI in the 19 cases, but with a low accuracy rate.

·       The ChatGPT o1 model demonstrated better performance with a moderate accuracy rate.

·       The ChatGPT o1 Pro model achieved the highest accuracy, with a high-level accuracy rate, making incorrect assessments in only two cases.

Furthermore, the o1 Pro model produced more consistent predictions in terms of classification (e.g., Oehler’s classification) compared to the other models. However, its classification accuracy remained lower than its overall diagnostic accuracy, and this aspect is being evaluated separately.

Conclusions: These findings suggest that AI-supported large language models hold promise as tools for the preliminary diagnosis of clinically complex developmental dental anomalies. Nevertheless, more extensive validation studies are required to establish their suitability for use in clinical decision support systems.

Keywords: Dens invaginatus, Artificial intelligence, Language model