Evaluation Of Chatgpt’s Performance Over Time On Endodontic Questions


Saçak B., Er Ö.

İZDO 32. ULUSLARARASI BiLiMSEL KONGRE VE SERGisi, İzmir, Turkey, 20 - 23 November 2025, (Full Text)

  • Publication Type: Conference Paper / Full Text
  • City: İzmir
  • Country: Turkey
  • Dokuz Eylül University Affiliated: Yes

Abstract

AIM

With the rapid advancement of technology, the use of artificial intelligence (AI) programs in important fields such as health and education has become increasingly widespread. One such program is the Generative Pre-Trained Transformer (ChatGPT, OpenAI, San Francisco, CA, USA), which is defined as an artificial intelligence chatbot. ChatGPT can be considered an alternative tool for information access.

The aim of this study was to evaluate the temporal changes in the accuracy of responses provided by the same model to endodontics-related questions from a standardized specialty examination composed of well-structured items, and to compare the question-answering performance of a more advanced version of ChatGPT with that of its previous version.

MATERIALS AND METHODS

This study included 127 multiple-choice questions from 13 examinations. The questions were first posed to ChatGPT-4 (April 2024). The same set of questions was then asked again to the same model in September 2025, which is referred to as ChatGPT-4*. Finally, the same questions were asked to ChatGPT-5.

The responses of the three models were compared. Statistical analyses were performed using the McNemar exact test, with a significance level of p < 0.05.



RESULTS

The analysis revealed differences in both overall performance and item-level response patterns among the models.

The overall accuracy rates of GPT-4, GPT-4*, and GPT-5 were 71.65%, 76.38%, and 80.31%, respectively. GPT-5 achieved higher accuracy rates than the other models in many examinations. In particular, in the 10th (70.0%), 11th (60.0%), and 12th (80.0%) examinations, GPT-5 demonstrated a clear advantage over both GPT-4 and GPT-4*. GPT-4 consistently showed lower accuracy rates compared to the other models.

Pairwise comparisons showed no statistically significant differences between the models (p > 0.05). However, the comparison between GPT-4 and GPT-5 revealed a clear trend favoring GPT-5.

Analysis of the overlap in incorrect responses showed that GPT-4* and GPT-5 had the highest overlap (66.7%), followed by GPT-4 vs. GPT-4* (37.5%) and GPT-4 vs. GPT-5 (24.5%).

CONCLUSION

Even within the same model version, ChatGPT demonstrated improved performance over time. With ongoing technological advancements, these models are expected to become more refined and make increasingly significant contributions to educational processes.

AMAÇ

Günümüzde teknolojinin birlikte, yapay zekâ programlarının sağlık, eğitim gibi önemli alanlarda kullanımı giderek yaygınlaşmaktadıR. Bu programlardan biri olan Generative Pre-Trained Transformer (ChatGPT, OpenAI, San Francisco, CA, ABD), bir yapay zekâ robotu olarak tanımlanmaktadır. ChatGPT, bilgiye erişim açısından alternatif olarak değerlendirilebilir. Bu çalışmanın amacı, nitelikli sorulardan oluşan uzmanlık sınavına ait endodonti alanındaki sorulara verilen yanıtların doğruluk düzeyinin aynı modelde zaman içerisindeki değişimini incelemek, ChatGPT’nin daha gelişmiş bir versiyonu ile önceki sürümü arasında soruları yanıtlama başarısını karşılaştırmaktır. 

GEREÇLER VE YÖNTEMLER

Bu çalışmada 13 sınava ait 127 soru kullanılmıştır. Sorular çoktan seçmelidir. Sorular ChatGPT-4’e(Nisan 2024) cevaplaması için sorulmuştur. Aynı modele(ChatGPT-4) aynı sorular tekrar(Eylül 2025) sorulmuştur. Bu model ChatGPT4* olarak adlandırılmıştır. Aynı sorular ChatGPT-5 modeline de sorulmuştur. Üç modelin cavpları kıyaslanmıştır. Analizde McNemar exact testi kullanılmış, p<0.05 olarak alınmıştır.

BULGULAR

Analiz sonuçları, modellerin başarı düzeyleri arasında hem genel performans hem de soru bazlı örüntüler açısından farklılıklar olduğunu ortaya koymuştur.

GPT-4, GPT-4*, GPT-5 modellerinin genel başarı oranı sırasıyla %71.65, %76.38, %80.31 olarak hesaplanmıştır. 

GPT-5 modelinin birçok sınavda daha yüksek oranlara ulaştığı görülmüştür. Özellikle 10. sınavda (%70.0), 11.sınavda(%60.0) ve 12. sınavda (%80.0) GPT-5, hem GPT-4 hem de GPT-4* modellerine kıyasla belirgin bir üstünlük göstermiştir. GPT-4 modeli ise diğer modellere kıyasla daha düşük oranlara sahiptir. 

Yapılan ikili karşılaştırmalarda modeller arasında istatistiksel olarak anlamlı fark saptanmamıştır (p>0.05). Ancak GPT-4 ve GPT-5 karşılaştırmasında bu iki model arasında performans farkının GPT-5 lehine belirgin bir eğilim gösterdiği bulunmuştur.

Modellerin verdiği yanlış cevapların kesişimleri incelendiğinde, GPT-4* ve GPT-5 modelleri arasında en yüksek örtüşme oranı (%66.7) saptanmıştır. GPT-4 ile GPT-4* arasındaki kesişim oranı %37.5, GPT-4 ile GPT-5 arasındaki oran ise %24.5 olarak bulunmuştur. 

SONUÇ

Yapay zekanın aynı versiyon olsa bile, zamanla kendi performansını geliştirdiği dikkat çekmektedir. Teknolojik ilerlemelere paralel olarak, bu modellerin daha da geliştirilebilir hâle gelmesi ve eğitim süreçlerine katkılarının giderek artması kaçınılmaz görünmektedir.