AutoTutor ve Doğal Dil Diyaloglarıyla Öğretim
AutoTutor sistemi ve yapay zekanın eğitim alanındaki uygulamaları.
1. Giriş
2004 yılında, Memphis Üniversitesi'nden Arthur C. Graesser ve ekibi, Behavior Research Methods, Instruments, & Computers dergisinde yayımlanan makaleleriyle AutoTutor adlı akıllı öğretim sistemini (intelligent tutoring system) akademik dünyaya kapsamlı biçimde tanıttılar [1]. Sistem, öğrencilerle doğal dil üzerinden diyalog kurarak Newtoncu fizik ve bilgisayar okuryazarlığı konularında öğretim yapıyor ve bir insan öğretmenin diyalog stratejilerini taklit ediyordu [1]. AutoTutor, bir bilgisayarın serbest metin veya sesli giriş yoluyla öğrenciyle çok turlu konuşma yürütebildiği, öğrencinin anlama düzeyini sürekli izleyebildiği ve buna göre diyalog hamlelerini dinamik biçimde seçebildiği bir yapay zekâ sistemi olarak, alan için gerçek bir dönüm noktasıydı [2].
AutoTutor'un ortaya çıktığı 2000'lerin başı, yapay zekâ tarihinde özel bir döneme denk gelmektedir. Kitabımızın önceki bölümlerinde ele aldığımız ikinci YZ kışının (1987–1993) ardından alan yeniden canlanmış, istatistiksel makine öğrenmesi paradigması hâkim olmaya başlamıştı. İnternet yaygınlaşmış, bilgisayar gücü artmış ve doğal dil işleme (natural language processing, NLP) teknolojileri — özellikle gizli anlamsal analiz (Latent Semantic Analysis, LSA) gibi istatistiksel yöntemler — olgunlaşmıştı [3]. Eğitim teknolojileri alanında ise 1984'te Benjamin Bloom'un ortaya koyduğu "2 Sigma Problemi" — birebir öğretim alan öğrencilerin sınıf ortamındaki akranlarına göre iki standart sapma daha iyi performans gösterdiği bulgusu — araştırmacıları bilgisayar tabanlı bireyselleştirilmiş öğretim sistemleri geliştirmeye itmekteydi [4]. AutoTutor, tam da bu entelektüel iklimde, yapay zekâ ile eğitim bilimlerinin kavşağında doğmuştur.
Bu bölüm, AutoTutor'u yalnızca bir yazılım sistemi olarak değil, yapay zekânın eğitim alanındaki en iddialı uygulamalarından biri olarak çok boyutlu biçimde analiz edecektir. Sistemin teorik temellerini, teknik mimarisini, ampirik başarılarını ve sınırlılıklarını inceleyeceğiz. AutoTutor'un, erken dönem kural tabanlı öğretim sistemlerinden modern büyük dil modelleri (large language models, LLM) çağına uzanan hatta nereye düştüğünü tartışacağız. Bir önceki bölümde ele aldığımız ikinci YZ kışının ardından yeniden filizlenen uygulamalı yapay zekâ çalışmalarının eğitim alanındaki en olgun meyvesi olan AutoTutor, aynı zamanda bir sonraki bölümde inceleyeceğimiz simülasyon tabanlı öğrenme paradigmasına da zemin hazırlamıştır.
2. Literatür Taraması
AutoTutor'un anlaşılması, akıllı öğretim sistemleri (intelligent tutoring systems, ITS), doğal dil işleme ve eğitim psikolojisi olmak üzere üç farklı disiplinin kesişim noktasındaki zengin bir literatürün taranmasını gerektirmektedir.
Graesser ve ekibinin 2004 tarihli temel makalesi, AutoTutor'un tasarımını, bileşenlerini ve ilk deneysel sonuçlarını sistematik biçimde sunmuştur [1]. Bu makale, alandaki en çok atıf alan çalışmalardan biri olmuş ve sonraki on yıllarda yüzlerce araştırmaya referans noktası oluşturmuştur. Graesser, Person ve Magliano'nun (1995) daha erken tarihli çalışması, doğal birebir öğretim seanslarındaki diyalog örüntülerini ampirik olarak analiz ederek AutoTutor'un tasarımına ilham veren insan öğretmen davranış modellerini ortaya koymuştur [5]. Graesser ve ekibinin (2001) International Journal of Artificial Intelligence in Education'da yayımlanan makalesi ise AutoTutor'un öğretim taktiklerini ve diyalog stratejilerini ayrıntılı biçimde betimlemiştir [6].
Akıllı öğretim sistemlerinin genel tarihçesi açısından, Carbonell'in (1970) öncü çalışması bilgisayar destekli öğretime yapay zekâ tekniklerinin uygulanmasını ilk kez sistematik biçimde önererek SCHOLAR sistemini geliştirmiş ve ITS alanının temellerini atmıştır [7]. Anderson, Corbett, Koedinger ve Pelletier (1995), Carnegie Mellon Üniversitesi'nde geliştirilen Bilişsel Öğretmenler (Cognitive Tutors) üzerine kapsamlı bir değerlendirme sunarak, model izleme (model tracing) ve bilgi izleme (knowledge tracing) tekniklerinin öğrenme kazanımlarını nasıl artırdığını göstermiştir [8]. Bu çalışma, ITS alanındaki iki ana yaklaşımı — adım tabanlı öğretim ile diyalog tabanlı öğretim — karşılaştırmak için vazgeçilmez bir referanstır.
Bloom'un (1984) "2 Sigma Problemi" makalesi, birebir öğretimin sınıf öğretimine göre yaklaşık iki standart sapmalık üstünlüğünü raporlayarak, bilgisayar tabanlı bireyselleştirilmiş öğretim araştırmalarının motivasyon kaynağı olmuştur [4]. VanLehn'in (2011) kapsamlı meta-analizi, Bloom'un bulgularını yeniden değerlendirmiş ve insan öğretmenlerinin ortalama etki büyüklüğünü d=0,79 olarak hesaplayarak, iyi tasarlanmış akıllı öğretim sistemlerinin insan öğretmenlerine yakın performans sergileyebildiğini göstermiştir [9]. Bu bulgu, AutoTutor gibi sistemlerin eğitim alanındaki potansiyelini doğrulayan en güçlü ampirik kanıtlardan biridir.
Doğal dil işleme boyutunda, Landauer ve Dumais'nin (1997) gizli anlamsal analiz (LSA) üzerine kurucu çalışması, AutoTutor'un öğrenci yanıtlarını değerlendirmek için kullandığı temel teknolojinin teorik zeminini oluşturmuştur [3]. Landauer, Foltz ve Laham (1998), LSA'nın eğitim uygulamalarındaki potansiyelini — metin tutarlılığı ölçümü, öğrenilebilirlik tahmini ve kompozisyon değerlendirme dahil — kapsamlı biçimde açıklamıştır [10]. Weizenbaum'un (1966) ELIZA programı, bilgisayar ile doğal dilde etkileşimin ilk örneği olarak tarihsel bir referans noktası oluşturmuş, ancak gerçek dil anlama kapasitesinden yoksunluğuyla AutoTutor'un ne kadar ileri gittiğini gösteren bir karşılaştırma zemini sunmaktadır [11].
D'Mello ve Graesser'in (2012) çalışması, AutoTutor'un duygusal boyutunu — duyguşsal (affective) AutoTutor olarak bilinen versiyonu — ele alarak, öğrenci duygularının öğrenme sürecindeki rolünü ve bilişsel-duygusal tümleşik öğretim yaklaşımını incelemiştir [12]. Nye, Graesser ve Hu'nun (2014) kapsamlı derlemesi, AutoTutor ailesinin 17 yıllık gelişim tarihçesini, temel araştırma bulgularını ve sistemden türeyen alt projeleri geniş bir perspektifle değerlendirmiştir [13]. Bu derleme, AutoTutor'un tek bir sistem değil, sürekli evrilen bir araştırma programı olduğunu gözler önüne sermektedir.
Sleeman ve Brown'un (1982) düzenlediği Intelligent Tutoring Systems derlemesi, alanın kurucu metinlerinden biri olarak ITS'nin teorik çerçevesini — alan modeli, öğrenci modeli ve pedagojik model üçlüsünü — tanımlamıştır [14]. Bu üçlü mimari, Hartley ve Sleeman'ın 1970'lerin başında formüle ettiği temel gereksinimlere dayanmakta olup, otuz yılı aşkın süre boyunca ITS araştırmalarının kavramsal omurgasını oluşturmuştur [14]. Shute ve Psotka'nın (1994) kapsamlı değerlendirmesi, akıllı öğretim sistemlerinin ilk yirmi yılını eleştirel biçimde analiz ederek, bu sistemlerin vaatleri ile gerçekleştirebildikleri arasındaki farkı ortaya koymuştur [15]. Du Boulay'in (2006) tarihsel incelemesi ise Bayesçi öğrenci modellemenin ITS'deki rolünü tartışarak, olasılıksal yöntemlerin öğrenci bilgi durumu takibindeki potansiyelini değerlendirmiştir [16]. Türkçe akademik literatürde, Nabiyev'in (2021) Yapay Zekâ ders kitabı, doğal dil işleme ve uzman sistemlerin eğitim uygulamalarını genel YZ tarihi çerçevesinde özetlemiştir [17]. Graesser, McNamara ve VanLehn'in (2005) karşılaştırmalı çalışması, AutoTutor'u iSTART ve Point&Query gibi diğer derin kavrama stratejilerini destekleyen sistemlerle birlikte değerlendirerek, farklı scaffolding yaklaşımlarının öğrenme kazanımları üzerindeki etkilerini karşılaştırmıştır [19].
3. Tarihsel ve Teorik Arka Plan
3a. Bilgisayar Destekli Öğretimden Akıllı Öğretim Sistemlerine
AutoTutor'un entelektüel soy ağacı, 1960'ların bilgisayar destekli öğretim (computer-assisted instruction, CAI) hareketine kadar uzanmaktadır. Donald Bitzer'in Illinois Üniversitesi'nde 1960'ların başında geliştirdiği PLATO sistemi, ekrana dayalı etkileşimli öğretimin öncüsü olmuştur [7]. Ancak PLATO ve benzeri CAI sistemleri, önceden belirlenmiş yolları izleyen doğrusal programlar sunuyor ve öğrencinin bireysel ihtiyaçlarına uyum sağlama kapasitesinden yoksundu.
1970'te Jaime Carbonell, bilgisayarın yalnızca bir öğretim aracı değil, bizzat bir öğretmen rolü üstlenebileceğini ileri sürerek SCHOLAR sistemini geliştirdi [7]. SCHOLAR, coğrafya konusunda öğrencilerle Sokratik diyalog yürütebilen, öğrencinin bilgi düzeyine göre sorularını ayarlayabilen ilk akıllı öğretim sistemi olarak kabul edilmektedir. Kitabımızın yirminci bölümünde incelediğimiz SHRDLU (Winograd, 1970) ve Prolog gibi gelişmeler, bilgisayarların doğal dili bir ölçüde anlayabilme kapasitesini göstermişti; ancak bu kapasite, eğitim bağlamında tam olarak hayata geçirilemiyordu.
1980'lerde John Anderson ve Carnegie Mellon ekibi, ACT-R bilişsel mimari kuramına dayanan Bilişsel Öğretmenler'i (Cognitive Tutors) geliştirdi [8]. LISP Tutor (1983) ve sonrasında Geometry Tutor gibi sistemler, öğrencinin problem çözme adımlarını izleyerek hata anında müdahale eden "adım tabanlı" (step-based) bir yaklaşım benimsemiştir. Bu yaklaşım, matematiksel ve prosedürel bilgi alanlarında son derece etkili olmuş, ancak doğal dil diyalogu gerektiren — açık uçlu sorular, açıklama üretme, kavramsal akıl yürütme gibi — daha karmaşık öğrenme durumlarını ele almakta yetersiz kalmıştır [9].
3b. Bloom'un 2 Sigma Problemi ve Bireyselleştirilmiş Öğretim Arayışı
1984'te Benjamin Bloom, birebir öğretim gören öğrencilerin geleneksel sınıf ortamındaki akranlarına göre ortalama iki standart sapma (2σ) daha iyi performans gösterdiğini raporladı [4]. Bloom'un raporuna göre, "öğretmen eşliğinde birebir eğitim alan ortalama bir öğrenci, kontrol sınıfındaki öğrencilerin yüzde 98'inden daha iyi performans sergiliyordu" [4]. Bu bulgu, eğitim araştırmaları dünyasında bir şok etkisi yarattı: Eğer bireysel öğretim bu denli etkili ise, ancak ekonomik olarak ölçeklenemez ise, grup öğretimini bireysel öğretim kadar etkili kılacak yöntemler nasıl geliştirilebilir? Bloom'un bu sorusu — "2 Sigma Problemi" olarak bilinen meydan okuma — akıllı öğretim sistemleri araştırmalarının en güçlü motivasyon kaynaklarından biri haline gelmiştir [4]. VanLehn (2011) daha sonra bu bulguyu yeniden değerlendirmiş ve Bloom'un çalışmasındaki metodolojik sorunları — özellikle birebir öğretim alan grubun yüzde 90, sınıf grubunun ise yalnızca yüzde 80 başarı eşiğine tabi tutulması gibi asimetrileri — ortaya koyarak gerçekçi etki büyüklüğünü d=0,79 olarak hesaplamıştır [9]. Buna rağmen, Bloom'un temel mesajı — bireyselleştirilmiş öğretimin muazzam potansiyeli — geçerliliğini korumaktadır. AutoTutor, doğrudan bu meydan okumaya bir yanıt olarak konumlandırılmıştır: Bilgisayar, bir insan öğretmenin diyalog stratejilerini taklit ederek bireyselleştirilmiş öğretimi geniş kitlelere ulaştırabilir miydi?
3c. Gizli Anlamsal Analiz: Anlamı İstatistiksel Olarak Yakalamak
AutoTutor'un teknik altyapısını anlamak için, sistemin öğrenci yanıtlarını değerlendirmek amacıyla kullandığı temel teknoloji olan gizli anlamsal analiz'i (Latent Semantic Analysis, LSA) kavramak gerekmektedir. Landauer ve Dumais (1997) tarafından geliştirilen LSA, büyük metin külliyatlarındaki kelime-bağlam birlikte görünüm örüntülerini tekil değer ayrıştırması (singular value decomposition, SVD) yoluyla analiz ederek kelimelerin ve metinlerin anlamsal benzerliklerini hesaplayan matematiksel bir yöntemdir [3]. LSA'nın temel fikri, anlamca yakın kelimelerin benzer bağlamlarda kullanılacağı varsayımına — dağılımsal hipotez olarak bilinen ilkeye — dayanmaktadır [10].
LSA, insan düzeyinde kelime bilgisi testlerinde başarılı performans gösterebiliyor, metin tutarlılığını ölçebiliyor ve kompozisyon kalitesini değerlendirebiliyordu [10]. Bu yetenekler, AutoTutor için kritik önem taşıyordu: Sistem, öğrencinin açık uçlu bir soruya verdiği serbest metin yanıtını LSA aracılığıyla "ideal yanıt" ile karşılaştırabilecek ve anlamsal benzerlik düzeyine göre öğrencinin bilgi durumunu kestirebilecekti [1].
3d. İnsan Öğretmen Diyaloglarının Ampirik Analizi
AutoTutor'un tasarımını besleyen bir diğer önemli kaynak, insan öğretmen-öğrenci etkileşimlerinin sistematik gözlemidir. Graesser, Person ve Magliano (1995), doğal ortamlarda gerçekleştirilen birebir öğretim seanslarını analiz ederek, insan öğretmenlerin kullandığı diyalog örüntülerini — pompalama, ipucu verme, yeniden yönlendirme, olumlu ve olumsuz geri bildirim — ayrıntılı biçimde belgelemiştir [5]. Araştırmacılar, insan öğretmenlerin çoğunlukla Sokratik yöntemi ideal biçimde uygulamadığını, bunun yerine daha pragmatik ve fırsatçı bir diyalog stratejisi izlediğini keşfetmişlerdir. Bu ampirik bulgular, AutoTutor'un diyalog motorunun tasarlanmasında doğrudan kullanılmıştır [6].
4. Ana Konu Analizi
4a. Temel Mekanizma: AutoTutor Nasıl Çalışır?
AutoTutor, yapılandırılmış bir diyalog döngüsü üzerine inşa edilmiş çok bileşenli bir akıllı öğretim sistemidir [1]. Sistemin çalışma mekanizması şu şekilde özetlenebilir:
Müfredat Senaryosu (Curriculum Script): Sistem, önceden hazırlanmış bir müfredat senaryosundan bir ana soru veya problem seçerek diyaloğu başlatır. Bu sorular tipik olarak paragraf uzunluğunda açık uçlu yanıtlar gerektiren, kavramsal düşünme ve açıklama üretmeyi zorlayan sorulardır [1]. Her soru için bir "ideal yanıt" — beklenen kavramları ve açıklamaları içeren bir model cevap — önceden hazırlanmıştır.
Öğrenci Yanıtının Anlamsal Değerlendirmesi: Öğrenci serbest metin biçiminde bir yanıt yazdığında, sistem bu yanıtı LSA aracılığıyla ideal yanıtla karşılaştırır [1]. Ayrıca düzenli ifade (regular expression) eşleştirmesi ve söz edim sınıflandırması (speech act classification) gibi tamamlayıcı teknikler kullanılarak yanıtın anlamsal içeriği, hassas anahtar kelimeler ve işlevsel amacı değerlendirilir [2].
Beklentiye Dayalı Diyalog Yönetimi: AutoTutor, "beklenti ve yanılgı odaklı diyalog" (expectation and misconception tailored dialogue) stratejisini kullanır [6]. Sistem, ideal yanıtı bir dizi "beklentiye" (expectation) — öğrencinin ifade etmesi gereken temel kavramlara — böler ve diyalog boyunca her bir beklentinin karşılanıp karşılanmadığını izler. Aynı zamanda yaygın yanılgıları (misconceptions) tanıyarak bunları düzeltmeye yönelik hamlelerde bulunur [1].
Diyalog Hamleleri: AutoTutor, bir dizi farklı diyalog hamlesi gerçekleştirir: olumlu, nötr veya olumsuz geri bildirim verir; pompalama (pump) yaparak öğrenciden daha fazla bilgi ister; ipucu (hint) vererek eksik kavramlara yönlendirir; tamamlama (prompt) yaparak eksik kelimeleri tamamlamasını ister; doğrudan bilgilendirme (assertion) ile eksik bilgiyi kendisi sunar; ve yanlış fikirleri tanımlayarak düzeltir [1]. Bu hamlelerin seçimi, öğrencinin o anki bilgi durumuna ve diyaloğun akışına göre dinamik olarak belirlenir.
Canlandırılmış Konuşma Ajanı: AutoTutor, bir konuşma motoru, sınırlı yüz ifadeleri ve temel jestlerle donatılmış canlandırılmış bir ajan (animated conversational agent) aracılığıyla konuşmalarını sesli olarak sunar [2]. Bu ajan, öğrenme deneyimine bir sosyal boyut katmakta ve öğrenci bağlılığını (engagement) artırmayı hedeflemektedir.
Tipik bir AutoTutor diyalogu yaklaşık 100 konuşma turunu kapsamaktadır [2]. Bu süre zarfında sistem, öğrencinin bilgi durumunu sürekli izleyerek diyalog stratejisini dinamik biçimde ayarlar. Bu yaklaşım, 1990'ların statik uzman sistemlerinden çok farklı bir "uyarlanabilir" (adaptive) öğretim anlayışını temsil etmektedir.
4b. Kilit Aktörler ve Katkıları
Arthur C. Graesser ve Memphis Üniversitesi Ekibi: AutoTutor'un yaratıcısı ve entelektüel lideri olan Arthur C. Graesser, Memphis Üniversitesi Akıllı Sistemler Enstitüsü'nde (Institute for Intelligent Systems) çalışan bir bilişsel bilimci ve söylem süreçleri uzmanıydı [13]. Graesser'in özgün katkısı, eğitim psikolojisi, söylem analizi ve yapay zekâyı tek bir çatı altında birleştirmesiydi. Ekibinde yer alan Shulan Lu, George Tanner Jackson, Heather Hite Mitchell, Mathew Ventura, Andrew Olney ve Max M. Louwerse gibi araştırmacılar, sistemin farklı bileşenlerinin — diyalog yönetimi, söz edim sınıflandırması, anlamsal değerlendirme, canlandırılmış ajan — geliştirilmesine katkıda bulunmuşlardır [1].
Thomas K. Landauer ve Susan Dumais: AutoTutor'un anlamsal değerlendirme motorunun temelini oluşturan LSA teknolojisinin yaratıcıları olan Landauer ve Dumais, dolaylı ancak kritik bir katkı sağlamışlardır [3]. LSA olmaksızın, AutoTutor'un öğrenci yanıtlarını serbest metin biçiminde değerlendirmesi — ve dolayısıyla doğal dil diyalogu yürütmesi — teknik olarak mümkün olmayacaktı.
Rakip ve Tamamlayıcı Yaklaşımlar: AutoTutor'un geliştirildiği dönemde, diyalog tabanlı öğretim alanında birden fazla rakip proje bulunuyordu. VanLehn ve ekibinin geliştirdiği Why2/Atlas sistemi, nitel fizik öğretiminde Sokratik diyalog kullanan bir öğretim sistemidir [9]. Evens ve Michael'ın CIRCSIM-Tutor'u, tıp eğitiminde doğal dil diyalogu kullanmıştır. Bu sistemler arasında rekabetten çok tamamlayıcılık söz konusuydu: Her biri, diyalog tabanlı öğretimin farklı boyutlarını keşfetmiş ve birbirinin bulgularından beslenmiştir.
Kurumsal Destek: AutoTutor araştırmaları, ABD Ulusal Bilim Vakfı'nın (National Science Foundation, NSF) ve ABD Savunma Bakanlığı'nın (Department of Defense) çok sayıda hibesiyle finanse edilmiştir [2]. Bu kurumsal destek, projenin on yılı aşkın süre boyunca geliştirilmesini ve farklı sürümlerinin test edilmesini mümkün kılmıştır.
4c. Dönem İçindeki Yeri: Deneysel Kanıtlar ve Etki
AutoTutor'un en dikkat çekici özelliklerinden biri, sistematik deneysel değerlendirmelere tabi tutulmuş olmasıdır. Kolej öğrencileri üzerinde yapılan bir düzineden fazla deneyde, AutoTutor'un öğrenme kazanımları üzerindeki etki büyüklüğü ortalama d=0,8 olarak ölçülmüştür (aralık: 0,4-1,5) [2]. Bu değer, yaklaşık bir tam not harf derecesine karşılık gelmekte olup, Bloom'un raporladığı insan öğretmen etkisine (d≈2,0; ancak VanLehn'in düzeltmesiyle d≈0,79) kayda değer ölçüde yakındır [4][9].
Özellikle dikkat çekici olan, AutoTutor'un "derin öğrenme" (deep learning — burada yapay sinir ağları anlamında değil, pedagojik anlamda derin kavramsal anlama) ölçümlerinde en yüksek kazanımları sağlamasıdır [1]. Yüzeysel ezberleme yerine kavramsal akıl yürütme, açıklama üretme ve transfer becerileri gerektiren sorularda AutoTutor kullanıcıları belirgin üstünlük göstermişlerdir. Bu bulgu, diyalog tabanlı öğretimin yalnızca bilgi aktarımını değil, derin anlama süreçlerini desteklediğini güçlü biçimde desteklemektedir [6].
Graesser ve ekibinin yaptığı bir karşılaştırma çalışması, ilgi çekici bir sonuç ortaya koymuştur: Öğrenme kazanımlarını belirleyen temel faktör, canlandırılmış ajanın varlığı veya sesli konuşma değil, diyaloğun kendisidir [1]. Öğrenciler canlandırılmış ajanı sevebilir veya sevmeyebilir, ancak öğrenme kazanımları ile ajan tercihi arasındaki korelasyon neredeyse sıfırdır [1]. Bu bulgu, "sosyal arayüz" ile "pedagojik etkililik" arasındaki farkı ortaya koyan önemli bir ayrımdır.
4d. Genel Yapay Zekâ Tarihindeki Yeri
AutoTutor, yapay zekâ tarihinin birkaç kritik gelişme çizgisinin kesişim noktasında yer almaktadır.
Birincisi, AutoTutor, yapay zekânın "dar" (narrow) ama somut uygulamalarının güçlü bir örneğidir. İkinci YZ kışının ardından, alanın genel zekâ hedefinden uzaklaşarak belirli görevlerde yüksek performans hedefleyen pragmatik yaklaşıma yöneldiğini önceki bölümlerde tartışmıştık. AutoTutor, bu pragmatik dönüşümün eğitim alanındaki en olgun ürünüdür: Genel bir sohbet robotu değil, belirli konu alanlarında yapılandırılmış öğretim diyaloğu yürüten uzmanlaşmış bir sistemdir [13].
İkincisi, AutoTutor, sembolik ve istatistiksel yaklaşımların hibrit biçimde birleştirildiği bir mimari sunmaktadır. Diyalog yönetimi kural tabanlı stratejilere dayanırken, anlamsal değerlendirme istatistiksel LSA teknolojisini kullanmaktadır [1]. Bu hibrit yaklaşım, 2000'lerin yapay zekâ araştırmalarının karakteristik bir özelliğiydi ve sonraki derin öğrenme devrimine kadar egemen paradigma olarak kalmıştır.
Üçüncüsü, AutoTutor, insan davranışının bilgisayarla modellenmesi konusunda önemli bir veri kaynağı yaratmıştır. Binlerce öğretim diyalogunun kaydedilmesi ve analiz edilmesi, hem yapay zekâ hem de bilişsel bilim açısından değerli bir külliyat oluşturmuştur [5]. Bu veriler, doğal dil işleme, duygu tanıma ve pedagojik ajan tasarımı gibi alt alanlarda yeni araştırmaları beslemiştir.
5. Eleştirel Değerlendirme
AutoTutor'un kayda değer başarılarına rağmen, sistemin ciddi sınırlılıkları ve eleştirileri de bulunmaktadır.
LSA'nın Yaklaşık Doğası: AutoTutor'un anlamsal değerlendirme motoru olan LSA, istatistiksel bir yaklaşımdır ve kelime sırası bilgisini dikkate almaz [3]. Bu, bazı durumlarda öğrenci yanıtlarının yanlış değerlendirilmesine yol açabilir. Örneğin, "kütle hızı belirler" ile "hız kütleyi belirler" cümleleri LSA için benzer görünebilir, ancak fiziksel olarak tamamen farklı iddialardır [10]. Bu sınırlılık, kesin mantıksal akıl yürütme gerektiren matematik ve fen bilimlerinde özellikle belirgindir.
İçerik Geliştirme Darboğazı: AutoTutor'un yeni bir konu alanına uyarlanması, müfredat senaryolarının, ideal yanıtların, beklentilerin ve yanılgıların uzman bilgi mühendisleri tarafından elle hazırlanmasını gerektirmektedir [2]. Bu süreç son derece emek yoğun ve pahalıdır — ikinci YZ kışına zemin hazırlayan uzman sistemlerin "bilgi edinme darboğazı" (knowledge acquisition bottleneck) sorununun bir yansımasıdır [13]. VanLehn (2011), bu tür sistemlerin içerik geliştirme maliyetinin, eğitim etkililiğindeki kazanımlara oranla aşırı yüksek olabildiğini belirtmiştir [9].
Doğal Dil Anlama Kapasitesinin Sınırlılığı: AutoTutor'un doğal dil işleme kapasitesi, tam anlamıyla bir "dil anlama" düzeyinde değildir. Sistem, LSA tabanlı istatistiksel benzerlik ölçümü, düzenli ifade eşleştirmesi ve söz edim sınıflandırması gibi birbirini tamamlayan ama her biri sınırlı olan teknikler kullanmaktadır [2]. Öğrenci beklentilerin dışında bir yol izlediğinde, öngörülemeyen bir soru sorduğunda veya konuyu farklı bir açıdan ele aldığında, sistem zorlanabilmektedir [13]. Bu sınırlılık, dönemin NLP teknolojisinin genel düzeyini yansıtmaktadır.
Ölçeklenebilirlik Sorunu: AutoTutor, laboratuvar ortamında etkileyici sonuçlar üretmiş olsa da, büyük ölçekli gerçek sınıf ortamlarında yaygın biçimde kullanılamamıştır [13]. Kurulum, bakım ve içerik geliştirme gereksinimleri, sistemin geniş kitlelere ulaşmasını engellemiştir. Bu durum, yapay zekâ tarihinde sıkça karşılaşılan bir örüntüyü — laboratuvar başarısı ile gerçek dünya dağıtımı arasındaki uçurumu — yansıtmaktadır.
Duyguşsal Boyutun Geç Eklenmesi: AutoTutor'un ilk sürümleri, öğrencinin bilişsel durumuna odaklanmış ancak duygusal durumunu büyük ölçüde göz ardı etmiştir. Oysa araştırmalar, sıkılma, hayal kırıklığı, merak ve akış (flow) gibi duyguların öğrenme sürecini derinden etkilediğini göstermektedir [12]. Duyguşsal AutoTutor, bu eksikliği gidermek için sonradan geliştirilmiş olsa da, duygu tanıma ve duyguya uygun tepki verme hâlâ tam olarak çözülmemiş bir problem olarak kalmıştır.
6. Etik ve Toplumsal Boyutlar
AutoTutor'un ve genel olarak akıllı öğretim sistemlerinin yükselişi, göz ardı edilemeyecek etik ve toplumsal soruları beraberinde getirmektedir.
Dijital Eşitsizlik ve Erişim: AutoTutor, potansiyel olarak bireyselleştirilmiş öğretimi demokratikleştirerek pahalı birebir öğretim hizmetine erişemeyen öğrencilere fırsat eşitliği sunabilir. Ancak bu potansiyel, teknolojiye erişim eşitsizliği nedeniyle paradoksal biçimde mevcut eşitsizlikleri derinleştirebilir [9]. Bilgisayar altyapısı, internet erişimi ve dijital okuryazarlık gerektiren sistemler, zaten dezavantajlı konumdaki toplulukları daha da dezavantajlı hale getirebilir.
Öğretmenin Rolünün Dönüşümü: ITS'lerin yaygınlaşması, öğretmenin rolünü kökten değiştirebilir. Bazı eleştirmenler, bu sistemlerin öğretmenliği "teknikleştirdiğini" ve öğretim sürecindeki insani boyutu — empati, rol modellik, ahlaki rehberlik — ihmal ettiğini ileri sürmüştür [15]. Bu endişe, 2020'lerde yapay zekâ destekli eğitim araçlarının yaygınlaşmasıyla daha da güncel hale gelmiştir.
Veri Gizliliği: AutoTutor benzeri sistemler, öğrencilerin diyalog geçmişlerini, bilgi durumlarını, yanılgılarını ve potansiyel olarak duygusal tepkilerini kaydetmektedir [12]. Bu verilerin nasıl saklanacağı, kimlerle paylaşılacağı ve ne amaçla kullanılacağı konusunda döneminde yeterli düzenleme bulunmuyordu. Günümüzün veri koruma standartları (GDPR, KVKK gibi) açısından, bu tür eğitim verilerinin yönetimi ciddi etik ve hukuki soruları gündeme getirmektedir.
Kültürel Uyum: AutoTutor, Amerikan üniversite öğrencileri üzerinde geliştirilmiş ve test edilmiş bir sistemdir [1]. Diyalog stratejileri, geri bildirim biçimleri ve motivasyon taktikleri, belirli bir kültürel bağlamda etkili olabilir ancak farklı eğitim kültürlerinde — örneğin öğretmen otoritesinin daha belirgin olduğu veya doğrudan geri bildirimin kaba sayılabileceği toplumlarda — farklı biçimlerde algılanabilir. Bransford, Brown ve Cocking'in (2000) How People Learn eserinde vurguladığı gibi, öğrenme süreçleri kültürel bağlamdan bağımsız değildir [23]. AutoTutor'un evrensel bir öğretim modeli sunduğu varsayımı, kültürler arası doğrulama çalışmaları yapılmadan sorgulanmadan kabul edilmiştir.
Algoritmik Önyargı ve Değerlendirme Adaleti: LSA tabanlı anlamsal değerlendirme, eğitim veri külliyatlarından öğrenilmiş istatistiksel örüntülere dayanmaktadır [3]. Bu külliyatlar, belirli dil kullanım biçimlerini — akademik İngilizce, standart terminoloji — yansıtır. Farklı sosyoekonomik arka planlardan gelen, ana dili İngilizce olmayan veya standart dışı dil kullanımı sergileyen öğrencilerin yanıtları, sistemce "anlamsal olarak uzak" değerlendirilme riskiyle karşı karşıyadır. Bu durum, algoritmik önyargının eğitim değerlendirmesine nasıl sızabileceğinin erken bir örneğidir.
7. Güncel Uygulamalar ve Miras
AutoTutor'un günümüze uzanan mirası, birbirinden farklı birkaç boyutta izlenebilir.
AutoTutor Ailesi: Graesser ve ekibi, AutoTutor'un temel diyalog mimarisini farklı alanlara ve formatlara uyarlayarak bir dizi türev sistem geliştirmiştir [13]. Bunlar arasında: iScience (fen okuryazarlığı), DeepTutor (derin kavramsal fizik), BRCA Gist (sağlık okuryazarlığı), OperationARA/ARIES (bilimsel akıl yürütme) ve ElectronixTutor (elektronik mühendisliği) sayılabilir. Bu sistemler, AutoTutor'un "triyalog" (trialogue) formatını — iki yapay ajan ile bir insan öğrenci arasındaki üç taraflı diyalogu — da içermektedir [13].
GIFT Çerçevesi: ABD Ordusu tarafından desteklenen Generalized Intelligent Framework for Tutoring (GIFT) projesi, AutoTutor'un diyalog bileşenlerini açık kaynaklı bir çerçeveye entegre ederek, farklı geliştiricilerin akıllı öğretim sistemleri oluşturabilmesini sağlamıştır [13]. Bu çerçeve, AutoTutor'un belki de en geniş pratik etkisidir.
Büyük Dil Modelleri Çağında AutoTutor'un Mirası: 2020'lerin büyük dil modelleri (GPT, BERT ve sonrası), AutoTutor'un en temel sınırlılıklarını — içerik geliştirme darboğazı, sınırlı doğal dil anlama kapasitesi, dar konu alanına bağlılık — potansiyel olarak aşmaktadır. ChatGPT gibi sistemler, geniş bir konu yelpazesinde doğal dil diyalogu yürütebilmekte ve açık uçlu sorulara karmaşık yanıtlar verebilmektedir. Ancak bu modellerin pedagojik etkililiği — öğrenme kazanımlarını gerçekten artırıp artıramayacağı — hâlâ sistematik biçimde doğrulanmamıştır [13]. AutoTutor'un en değerli mirası, bu noktada ortaya çıkmaktadır: Graesser ve ekibinin on yıllar boyunca biriktirdiği "etkili öğretim diyaloğunu neyin etkili kıldığına" dair ampirik bilgi, modern YZ tabanlı eğitim araçlarının tasarımına yol göstermektedir. Pompalama, ipucu verme, yapıcı geri bildirim ve yanılgı düzeltme gibi diyalog stratejileri, teknoloji ne olursa olsun, etkili öğretimin temel bileşenleri olmaya devam etmektedir.
Duyguşsal Hesaplama ve Eğitim: AutoTutor'un duyguşsal sürümü, öğrenci duygularının öğrenme sürecindeki rolüne ilişkin araştırmaları hızlandırmıştır [12]. D'Mello ve Graesser'in (2012) ortaya koyduğu "kafa karışıklığı öğrenme için faydalı olabilir" bulgusu, duyguşsal hesaplama (affective computing) alanında etkili bir referans noktası olmuştur [20]. Günümüzde, öğrenci duygularını gerçek zamanlı olarak izleyen ve buna göre diyalog stratejisini uyarlayan sistemler, AutoTutor'un bu erken çalışmaları üzerine inşa edilmektedir.
Doğal Dil İşleme ve Soru Üretimi: Olney, Graesser ve Person'un (2012) AutoTutor'dan ilham alarak geliştirdiği kavram haritalarından otomatik soru üretme yöntemi, günümüzün otomatik sınav ve değerlendirme sistemlerinin öncülerinden biridir [18]. Bu çalışma, YZ'nin yalnızca öğretim değil, değerlendirme sürecini de otomatikleştirebileceğini göstermiş ve eğitim teknolojilerinde yeni bir araştırma yönü açmıştır.
Akademik Araştırma Geleneği: AutoTutor, akıllı öğretim sistemleri alanında 20 yılı aşkın süren sistematik bir araştırma geleneği başlatmıştır. Memphis Üniversitesi Akıllı Sistemler Enstitüsü, bu gelenek içinde yüzlerce hakemli makale, onlarca doktora tezi ve düzinelerce türev proje üretmiştir [13]. Bu birikim, yapay zekâ araştırmalarında nadiren görülen bir kurumsal süreklilik örneğidir ve AutoTutor'un kalıcılığının temelini oluşturmaktadır.
8. Bölüm Özeti
AutoTutor, yapay zekânın eğitim alanındaki en sistematik ve en iyi belgelenmiş uygulamalarından birini temsil etmektedir. Arthur C. Graesser ve Memphis Üniversitesi ekibinin 1997'den itibaren geliştirdiği bu sistem, doğal dil diyalogu aracılığıyla öğrencilerin derin kavramsal anlama düzeyini artırmayı başarmıştır [1]. Sistem, insan öğretmen diyalog stratejilerinin ampirik analizine, yapılandırmacı öğrenme kuramlarına ve LSA tabanlı istatistiksel anlamsal değerlendirmeye dayanan hibrit bir mimari sunmuştur.
AutoTutor'un önemi, yalnızca bir yazılım sistemi olarak değil, yapay zekâ ile eğitim bilimlerinin verimli bir biçimde nasıl birleştirilebileceğinin canlı bir kanıtı olarak anlaşılmalıdır. Bloom'un 2 Sigma Problemi'ne verilen yanıtlar zincirinde AutoTutor kritik bir halka oluşturmakta, adım tabanlı bilişsel öğretmenlerden diyalog tabanlı doğal dil öğretmenlerine geçişin en olgun örneğini sunmaktadır [9].
Sistemin sınırlılıkları — LSA'nın yaklaşık doğası, içerik geliştirme darboğazı, sınırlı doğal dil anlama kapasitesi — dönemin teknolojik kısıtlarını yansıtmakta olup, bu kısıtlar büyük dil modelleri çağında aşılma potansiyeli taşımaktadır. Ancak AutoTutor'un bıraktığı en kalıcı miras, teknolojik değil pedagojiktir: Etkili öğretim diyaloğunun bilimsel ilkelerini ortaya koymuş ve bu ilkelerin bilgisayar sistemlerinde nasıl hayata geçirileceğini deneysel olarak göstermiştir.
Bir sonraki bölümde inceleyeceğimiz simülasyon tabanlı öğrenme paradigması, AutoTutor'un diyalog tabanlı yaklaşımını fiziksel ve sanal simülasyon ortamlarıyla birleştirerek, eğitim teknolojilerinin yeni bir evresini temsil edecektir.
9. Kaynakça
1. Graesser, A. C., Lu, S., Jackson, G. T., Mitchell, H. H., Ventura, M., Olney, A., & Louwerse, M. M. (2004). AutoTutor: A tutor with dialogue in natural language. Behavior Research Methods, Instruments, & Computers, 36(2), 180–193. https://doi.org/10.3758/BF03195563
2. Graesser, A. C., Chipman, P., Haynes, B. C., & Olney, A. (2005). AutoTutor: An intelligent tutoring system with mixed-initiative dialogue. IEEE Transactions on Education, 48(4), 612–618. https://doi.org/10.1109/TE.2005.856149
3. Landauer, T. K., & Dumais, S. T. (1997). A solution to Plato's problem: The latent semantic analysis theory of acquisition, induction, and representation of knowledge. Psychological Review, 104(2), 211–240. https://doi.org/10.1037/0033-295X.104.2.211
4. Bloom, B. S. (1984). The 2 sigma problem: The search for methods of group instruction as effective as one-to-one tutoring. Educational Researcher, 13(6), 4–16. https://doi.org/10.3102/0013189X013006004
5. Graesser, A. C., Person, N. K., & Magliano, J. P. (1995). Collaborative dialogue patterns in naturalistic one-to-one tutoring. Applied Cognitive Psychology, 9(6), 495–522. https://doi.org/10.1002/acp.2350090604
6. Graesser, A. C., Person, N. K., Harter, D., & the Tutoring Research Group. (2001). Teaching tactics and dialog in AutoTutor. International Journal of Artificial Intelligence in Education, 12, 257–279.
7. Carbonell, J. R. (1970). AI in CAI: An artificial-intelligence approach to computer-assisted instruction. IEEE Transactions on Man-Machine Systems, 11(4), 190–202. https://doi.org/10.1109/TMMS.1970.299942
8. Anderson, J. R., Corbett, A. T., Koedinger, K. R., & Pelletier, R. (1995). Cognitive tutors: Lessons learned. The Journal of the Learning Sciences, 4(2), 167–207. https://doi.org/10.1207/s15327809jls0402_2
9. VanLehn, K. (2011). The relative effectiveness of human tutoring, intelligent tutoring systems, and other tutoring systems. Educational Psychologist, 46(4), 197–221. https://doi.org/10.1080/00461520.2011.611369
10. Landauer, T. K., Foltz, P. W., & Laham, D. (1998). An introduction to latent semantic analysis. Discourse Processes, 25(2–3), 259–284. https://doi.org/10.1080/01638539809545028
11. Weizenbaum, J. (1966). ELIZA — A computer program for the study of natural language communication between man and machine. Communications of the ACM, 9(1), 36–45. https://doi.org/10.1145/365153.365168
12. D'Mello, S. K., & Graesser, A. C. (2012). AutoTutor and affective AutoTutor: Learning by talking with cognitively and emotionally intelligent computers that talk back. ACM Transactions on Interactive Intelligent Systems, 2(4), 1–39. https://doi.org/10.1145/2395123.2395128
13. Nye, B. D., Graesser, A. C., & Hu, X. (2014). AutoTutor and family: A review of 17 years of natural language tutoring. International Journal of Artificial Intelligence in Education, 24(4), 427–469. https://doi.org/10.1007/s40593-014-0029-5
14. Sleeman, D., & Brown, J. S. (Eds.). (1982). Intelligent tutoring systems. Academic Press.
15. Shute, V. J., & Psotka, J. (1994). Intelligent tutoring systems: Past, present, and future. Human Resources Directorate, Manpower and Personnel Research Division, Report AL/HR-TP-1994-0005.
16. Du Boulay, B. (2006). Commentary on Kurt VanLehn's "The behaviour of tutoring systems." International Journal of Artificial Intelligence in Education, 16, 117–125.
17. Nabiyev, V. V. (2021). Yapay zekâ (8. baskı). Seçkin Yayıncılık.
18. Olney, A. M., Graesser, A. C., & Person, N. K. (2012). Question generation from concept maps. Dialogue & Discourse, 3(2), 75–99. https://doi.org/10.5087/dad.2012.204
19. Graesser, A. C., McNamara, D. S., & VanLehn, K. (2005). Scaffolding deep comprehension strategies through Point&Query, AutoTutor, and iSTART. Educational Psychologist, 40(4), 225–234. https://doi.org/10.1207/s15326985ep4004_4
20. D'Mello, S., Lehman, B., Pekrun, R., & Graesser, A. C. (2014). Confusion can be beneficial for learning. Learning and Instruction, 29, 153–170. https://doi.org/10.1016/j.learninstruc.2012.05.003
21. Graesser, A. C., & Person, N. K. (1994). Question asking during tutoring. American Educational Research Journal, 31(1), 104–137. https://doi.org/10.3102/00028312031001104
22. Russell, S., & Norvig, P. (2021). Artificial intelligence: A modern approach (4th ed.). Pearson.
23. Bransford, J. D., Brown, A. L., & Cocking, R. R. (Eds.). (2000). How people learn: Brain, mind, experience, and school (Expanded ed.). National Academy Press.
24. Deerwester, S., Dumais, S. T., Furnas, G. W., Landauer, T. K., & Harshman, R. (1990). Indexing by latent semantic analysis. Journal of the American Society for Information Science, 41(6), 391–407. https://doi.org/10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9
10. Tartışma Soruları
1. Analitik: AutoTutor'un anlamsal değerlendirme için LSA kullanması, sistemin hangi konu alanlarında daha başarılı, hangi alanlarda daha sınırlı olmasına neden olmaktadır? Bu sınırlılığın teknik kökenleri nelerdir?
2. Karşılaştırmalı: AutoTutor'un diyalog tabanlı öğretim yaklaşımı ile Carnegie Mellon'un Bilişsel Öğretmenler'inin (Cognitive Tutors) adım tabanlı yaklaşımı arasındaki temel farklar nelerdir? Her yaklaşım hangi tür öğrenme durumlarında daha etkilidir?
3. Spekülatif: Eğer AutoTutor, LSA yerine 2020'lerin büyük dil modelleri (GPT-4, Claude gibi) teknolojisiyle donatılmış olsaydı, sistemin temel sınırlılıkları ortadan kalkar mıydı, yoksa yeni sınırlılıklar mı ortaya çıkardı?
4. Etik: AutoTutor gibi sistemlerin öğrenci diyalog geçmişlerini, yanılgılarını ve duygusal tepkilerini kaydetmesinin etik boyutları nelerdir? Bu veriler kimler tarafından ve hangi amaçlarla kullanılmalıdır?
5. Güncel: Bloom'un 2 Sigma Problemi, 2020'lerin yapay zekâ destekli eğitim araçları (ChatGPT, Khan Academy'nin Khanmigo'su vb.) bağlamında yeniden nasıl değerlendirilmelidir? Bu araçlar Bloom'un meydan okumasını gerçekten çözüyor mu?
6. Analitik: AutoTutor'un deneylerinde, canlandırılmış ajanın öğrenme kazanımlarıyla neredeyse sıfır korelasyon göstermesi neyi ifade etmektedir? Bu bulgu, günümüzün "yapay zekâ asistanı" tasarımlarına ne gibi dersler sunmaktadır?
7. Karşılaştırmalı: Weizenbaum'un ELIZA'sı (1966) ile Graesser'in AutoTutor'u (2004) arasında yaklaşık kırk yıl vardır. Bu iki sistem arasındaki farklar, doğal dil işleme alanındaki ilerlemenin hangi boyutlarını yansıtmaktadır?
8. Spekülatif: AutoTutor'un içerik geliştirme darboğazı, yapay zekâ tarihinde tekrar eden "bilgi edinme darboğazı" sorununun bir yansıması mıdır? Bu soruna köklü bir çözüm mümkün müdür, yoksa her yeni teknoloji kendi darboğazını mı yaratır?
9. Etik: Akıllı öğretim sistemlerinin yaygınlaşması, öğretmenlik mesleğini nasıl dönüştürmektedir? Bu dönüşüm, eğitimin insani boyutunu zenginleştiren mi yoksa fakirleştiren bir süreç midir?
10. Güncel: AutoTutor'un "kafa karışıklığı öğrenme için faydalı olabilir" bulgusu, modern yapay zekâ destekli eğitim araçlarının tasarımı için ne gibi çıkarımlar taşımaktadır? Bir YZ öğretmen, öğrenciyi kasıtlı olarak "karıştırmalı" mıdır?