Bu araştırmada, son döneme damgasını vuran yapay zekâ uygulamalarının dil eğitiminde ölçme ve değerlendirme sürecinde kullanımına odaklanılmıştır. Bu amaçla, yabancı dil olarak Türkçe öğrenen A2, B1 ve B2 düzeyindeki öğrencilerin yazma görevleri yabancı dil olarak Türkçe öğretimi alanında görevini sürdüren 25 öğretim görevlisi ve dört yapay zekâ uygulaması tarafından değerlendirilmiştir. Yazma görevleri değerlendirilirken her iki grupta da yazma becerisini değerlendirmeye yönelik geliştirilen dereceli puanlama anahtarı kullanılarak değerlendirmeler yapılmıştır. Puanlamalar ön test ve son test uygulaması olmak üzere iki kez yapılmış, uygulamalar hem kendi içinde hem de uygulamalar arasında olmak üzere karşılaştırılmıştır. Toplanan veriler, betimsel istatistikler ve Genellenebilirlik Kuramı kapsamında SPSS ve EduG programları kullanılarak analiz edilmiştir. Araştırma sonuçlarına göre, öğretim görevlileri değerlendirmelerinde zaman içinde önemli düşüş göstermiştir. Puanlamalarda en büyük varyans kaynağının Birey-Puanlayıcı etkileşimi olması, öğretim görevlilerin katılık-cömertlik ve seviyeye göre puanlama konusunda sorunlar yaşadığını göstermiştir. Yapay zekâ araçları ise tüm düzeylerde ve zaman içinde tutarlı sonuçlar üretmiştir. Varyansın büyük kısmının birey etkisinden kaynaklanması ve puanlayıcı etkisinin olmaması, yapay zekâ uygulamalarının değerlendirmelerde yüksek objektiflik sağladığını ortaya koymuştur. Bu bulgular, yapay zekâ araçlarının dil eğitiminde ölçme ve değerlendirme süreçlerinde potansiyel bir role sahip olduğunu gösterirken, insan değerlendirmesinin esnekliği ve bağlamsal faktörleri dikkate alma yeteneğinin de önemini vurgulamaktadır.
This study examines the use of artificial intelligence tools, which have recently gained prominence, in the assessment and evaluation process of language education. To this end, the writing tasks of A2, B1, and B2 level students learning Turkish as a foreign language were assessed by 25 instructors specializing in teaching Turkish as a foreign language and four artificial intelligence tools. Both groups used an analytical rubric specifically designed for assessing writing skills. Scoring was conducted twice, as a pre-test and post-test, and comparisons were made both within and between groups. Data were analyzed using descriptive statistics and Generalizability Theory through SPSS and EduG programs. The findings indicate that instructor assessments declined significantly over time. The largest source of variance was the interaction between persons and raters, suggesting issues related to severity-leniency biases and level-based scoring inconsistencies. In contrast, AI tools produced consistent results across all proficiency levels and time points. The fact that most variance stemmed from individual differences rather than rater effects highlights AI’s high level of objectivity. These findings suggest that AI tools have the potential to enhance assessment processes in language education while emphasizing the importance of human assessment for flexibility and contextual understanding.