Bellek-Artırılmış Sinir Ağlarının Doğuşu
Neural Turing Machine ve bellek-artırılmış sinir ağlarının gelişimi.
1. Giriş
Bir bilgisayar programcısının en temel araçlarından biri bellektir: verileri yazma, okuma, silme ve bunlara tekrar erişme yetisi. 1936'da Alan Turing, sonsuz bir bant üzerine semboller yazıp okuyabilen soyut bir makine hayal ettiğinde, hesaplamanın evrensel doğasını tanımlamıştı [1]. Yaklaşık seksen yıl sonra, 2014'te, Google DeepMind'dan Alex Graves, Greg Wayne ve Ivo Danihelka, sinir ağlarına adreslenebilir bir harici bellek bileşeni ekleyerek Turing'in vizyonunu nöral hesaplama dünyasına taşıdılar: Neural Turing Machines (NTM) [2]. Bu çalışma, yapay zekâ tarihinde özel bir yere sahiptir; çünkü derin öğrenme devriminin hız kazandığı bir dönemde, sinir ağlarının algoritmik akıl yürütme kapasitesini sorgulamış ve "öğrenen sistemler algoritmik düşünebilir mi?" sorusuna somut bir yanıt aramıştır.
Kitabımızın bir önceki bölümünde ele aldığımız AlexNet ve derin öğrenmenin 2012 sonrası patlaması, esas olarak algı (perception) görevlerinde — görüntü sınıflandırma, konuşma tanıma, doğal dil işleme — devrim yaratmıştı [3]. Ancak bu başarılar, ağırlıklı olarak istatistiksel örüntü tanıma üzerine kuruluydu; sinir ağları verilerdeki düzenlilikleri yakalamakta ustalaşmıştı, fakat bir sıralama algoritması öğrenmek, bir veri yapısını manipüle etmek ya da çok adımlı mantıksal çıkarım yapmak gibi görevlerde ciddi sınırlılıklar gösteriyordu [4]. Geleneksel yinelemeli sinir ağları (recurrent neural networks, RNN), teorik olarak Turing-tam (Turing-complete) olsalar da [5], pratikte sınırlı iç durumları (hidden state) nedeniyle karmaşık algoritmik görevlerde yetersiz kalıyordu [2].
NTM, bu soruna zarif bir çözüm önerdi: sinir ağının iç durumunu harici, adreslenebilir bir bellek matrisi ile genişletmek ve bu belleğe erişimi tamamen türevlenebilir (differentiable) kılmak — böylece tüm sistem geri yayılım (backpropagation) ile uçtan uca eğitilebilir hale geliyordu [2]. Bu fikir, bilgisayar mimarisinin von Neumann modeli ile bağlantılılık temelli (connectionist) öğrenme paradigmasını birleştiren melez bir yaklaşımdı [6]. NTM, yalnızca teknik bir yenilik değil, aynı zamanda yapay zekâ felsefesinde derin bir soruyu yeniden gündeme getiren kavramsal bir atılımdı: Zekâ, yalnızca örüntü tanımadan mı ibarettir, yoksa yapılandırılmış bellek ve algoritmik manipülasyon da zekânın vazgeçilmez bileşenleri midir?
Bu bölüm, NTM'nin teknik mimarisini, entelektüel köklerini, dönemin bilimsel iklimini ve bu çalışmanın başlattığı bellek-artırılmış sinir ağları (memory-augmented neural networks) araştırma geleneğini çok boyutlu biçimde analiz edecektir. Bir sonraki bölümde ele alacağımız Pointer Networks ve dikkat mekanizmasının evrimine giden yolun, NTM'nin açtığı kavramsal pencere olmadan anlaşılamayacağını göreceğiz.
2. Literatür Taraması
NTM'nin entelektüel soyağacını ve ardından oluşan araştırma literatürünü anlamak için birden fazla disiplinin — bilgisayar bilimi, bilişsel bilim, nörobilim ve matematiksel mantık — kesişim noktasını incelemek gerekmektedir.
Graves, Wayne ve Danihelka'nın (2014) orijinal arXiv ön baskısı, NTM'nin temel mimarisini ve deneysel sonuçlarını ortaya koyan kurucu metindir [2]. Bu çalışma, denetleyici (controller) olarak bir LSTM ağı, N×M boyutlarında bir bellek matrisi ve türevlenebilir okuma/yazma başlıklarından oluşan mimariyi tanımlamaktadır. Çalışma, kopyalama, sıralama, bağlantılı hatırlama gibi algoritmik görevlerde NTM'nin standart LSTM'lerden üstün performans gösterdiğini deneysel olarak kanıtlamıştır [2].
NTM'nin teorik temellerinin en önemli öncüsü, Siegelmann ve Sontag'ın (1995) Journal of Computer and System Sciences'ta yayımlanan makalesidir [5]. Bu çalışma, rasyonel ağırlıklara sahip yinelemeli sinir ağlarının Turing makineleriyle eşdeğer hesaplama gücüne sahip olduğunu matematiksel olarak kanıtlamıştır [5]. Ancak bu teorik sonuç, pratikte doğrudan kullanılamıyordu; çünkü standart RNN'lerin iç durumları, karmaşık algoritmik bilgiyi kodlamak için yeterince yapılandırılmış değildi [4].
Hochreiter ve Schmidhuber'in (1997) Neural Computation dergisinde yayımlanan Long Short-Term Memory (LSTM) makalesi, NTM'nin denetleyici bileşeni için kritik bir altyapı sağlamıştır [7]. LSTM, kapı (gate) mekanizmaları aracılığıyla bilgiyi uzun süreler boyunca saklayabilme kapasitesiyle, kaybolan gradyan (vanishing gradient) problemini büyük ölçüde çözmüştür [7]. NTM, LSTM'nin bu iç bellek kapasitesini harici bir bellek yapısıyla genişleterek, çok daha büyük ve yapılandırılmış bir bilgi deposuna erişim sağlamıştır [2].
Bahdanau, Cho ve Bengio'nun (2014) dikkat mekanizmasını (attention mechanism) makine çevirisine uygulayan çalışması, NTM ile paralel ve tamamlayıcı bir gelişmedir [8]. Dikkat mekanizması, bir sinir ağının girdi dizisinin farklı konumlarına "odaklanabilmesini" sağlayarak, sabit boyutlu darboğaz (bottleneck) problemini aşmıştır [8]. NTM'nin içerik tabanlı adresleme mekanizması, kavramsal olarak dikkat mekanizmasıyla derin benzerlikler taşımaktadır; her ikisi de ağırlıklı okuma (weighted read) prensibi üzerine kuruludur [2].
Baddeley'in (2000) çalışma belleği (working memory) modeli, NTM'nin bilişsel bilim köklerini anlamak açısından önemlidir [9]. Baddeley'in modeli, insan belleğinin pasif bir depo olmadığını, aktif olarak bilgiyi manipüle eden bir sistem olduğunu öne sürmektedir [9]. NTM'nin okuma/yazma mekanizması, bu bilişsel modelden açıkça esinlenmiştir; Graves ve ekibi, makalelerinde bu bağlantıya doğrudan atıfta bulunmaktadırlar [2].
Goldman-Rakic'in (1995) prefrontal korteksteki çalışma belleğinin nöral temellerine ilişkin çalışması, NTM'nin biyolojik ilham kaynaklarından birini oluşturmaktadır [10]. Bu araştırma, prefrontal korteksteki nöronların bilgiyi aktif olarak tutma ve manipüle etme kapasitesini ortaya koymuş ve bilişsel kontrolün nöral mekanizmalarını aydınlatmıştır [10].
Weston, Chopra ve Bordes'in (2015) "Memory Networks" çalışması, NTM ile paralel olarak geliştirilen ve harici bellek fikrini farklı bir açıdan ele alan önemli bir katkıdır [11]. Facebook AI Research'te (FAIR) geliştirilen Memory Networks, soru-cevap görevleri için açıkça adreslenebilir bir bellek yapısı önermiştir [11]. NTM'den farklı olarak, orijinal Memory Networks tamamen türevlenebilir değildi; ancak Sukhbaatar ve arkadaşlarının (2015) "End-to-End Memory Networks" çalışması bu sınırlamayı aşmıştır [12].
Graves ve arkadaşlarının (2016) Nature dergisinde yayımlanan Differentiable Neural Computer (DNC) makalesi, NTM'nin doğrudan devamı ve en önemli genişletmesidir [13]. DNC, NTM'ye dinamik bellek tahsisi (dynamic memory allocation), zamansal bağlantı (temporal linkage) ve geliştirilmiş adresleme mekanizmaları ekleyerek, daha karmaşık görevlerde — örneğin grafik geçişi (graph traversal) ve aile ağacı akıl yürütmesi — başarılı sonuçlar elde etmiştir [13]. Bu çalışma, NTM fikrini olgunlaştırarak ana akım bilim dergisine taşımıştır.
Zaremba ve Sutskever'in (2015) "Reinforcement Learning Neural Turing Machines" çalışması, NTM'nin adresleme mekanizmasını pekiştirmeli öğrenme ile eğitmeyi deneyerek, türevlenebilir ve ayrık (discrete) adresleme arasındaki gerilimi araştırmıştır [14]. Reed ve de Freitas'ın (2016) "Neural Programmer-Interpreters" çalışması ise, NTM fikrini program sentezi ve taklit öğrenme (imitation learning) bağlamına taşımıştır [15].
Grefenstette ve arkadaşlarının (2015) çalışması, NTM'nin bellek yapısını yığın (stack), kuyruk (queue) ve çift uçlu kuyruk (deque) gibi klasik veri yapılarıyla değiştirerek, yapılandırılmış bellek erişiminin algoritmik görevlerdeki etkisini incelemiştir [16]. Bu çalışma, bellek yapısının biçiminin, öğrenilebilen algoritmaların türünü doğrudan etkilediğini göstermiştir [16].
Türkçe literatürde, Akyol ve Karci'nin (2020) çalışması, NTM ve bellek-artırılmış sinir ağlarının Türkçe doğal dil işleme görevlerindeki potansiyelini değerlendirmiştir [17]. Öztürk ve Özgür'ün (2019) derlemesi ise, derin öğrenme mimarilerinin evrimini Türkçe okuyucu için sistematik biçimde ele almıştır [18].
3. Tarihsel ve Teorik Arka Plan
NTM'nin ortaya çıkışını anlamak için, yapay zekâ tarihindeki iki büyük geleneğin — sembolik yapay zekâ (symbolic AI) ve bağlantılılık (connectionism) — uzun ve çatışmalı ilişkisini kavramak gerekmektedir.
Sembolik yapay zekâ geleneği, 1950'lerden itibaren zekâyı sembol manipülasyonu olarak tanımlamıştır [19]. Newell ve Simon'ın (1976) "Physical Symbol System Hypothesis" (Fiziksel Sembol Sistemi Hipotezi), genel zekânın sembolik temsiller üzerinde kural tabanlı işlemler gerektirdiğini öne sürmüştür [19]. Bu gelenek, yapılandırılmış bellek, değişken bağlama (variable binding) ve algoritmik akıl yürütmeyi merkeze almıştır. Ancak sembolik sistemler, algısal görevlerde (görüntü tanıma, konuşma anlama) ve belirsizlik altında öğrenmede ciddi sınırlılıklar sergilemiştir [20].
Bağlantılılık geleneği ise, 1980'lerde Rumelhart, Hinton ve Williams'ın geri yayılım algoritmasını popülerleştirmesiyle ivme kazanmıştır [21]. Bu yaklaşım, dağıtık temsiller (distributed representations) ve gradyan tabanlı öğrenme üzerine kurulmuştur [21]. Sinir ağları, örüntü tanıma ve istatistiksel genelleme görevlerinde olağanüstü başarılı olmuştur; ancak yapılandırılmış, adım adım algoritmik akıl yürütmede zayıf kalmışlardır [4].
Fodor ve Pylyshyn'in (1988) ünlü eleştirisi, bağlantılılık modellerinin sistematiklik (systematicity) ve bileşimsellik (compositionality) özelliklerini doğal olarak sergileyemeyeceğini ileri sürmüştür [22]. Bu eleştiri, onlarca yıl boyunca iki gelenek arasındaki gerginliğin entelektüel çerçevesini belirlemiştir. NTM, bu tartışmada önemli bir pozisyon almaktadır: sinir ağlarının öğrenme kapasitesini korurken, yapılandırılmış bellek erişimi aracılığıyla algoritmik akıl yürütme kapasitesi kazanmasını sağlayarak, iki geleneğin güçlü yanlarını birleştirmeyi hedeflemiştir [2].
2014 yılına gelindiğinde, derin öğrenme alanı muazzam bir ivme kazanmıştı. AlexNet'in 2012'deki zaferi, GPU tabanlı eğitimin yaygınlaşması, büyük veri kümelerinin erişilebilirliği ve açık kaynak çerçevelerin (Theano, Caffe) geliştirilmesi, araştırma ortamını dönüştürmüştür [3]. Google, DeepMind'ı Ocak 2014'te 500 milyon dolara satın alarak, derin öğrenme araştırmalarına endüstriyel ölçekte yatırım yapılmasının yolunu açmıştır [23]. Bu satın alma, Graves ve ekibinin NTM üzerinde çalışabildiği kurumsal ve finansal altyapıyı sağlamıştır.
Aynı dönemde, diziden diziye (sequence-to-sequence, seq2seq) modellerin yükselişi, RNN'lerin ve LSTM'lerin pratik sınırlılıklarını gözler önüne sermiştir [24]. Sutskever, Vinyals ve Le'nin (2014) makine çevirisi çalışması, LSTM tabanlı kodlayıcı-kod çözücü (encoder-decoder) mimarisinin gücünü gösterirken, sabit boyutlu iç durum vektörünün uzun dizilerde bilgi kaybına yol açtığını da ortaya koymuştur [24]. Bu sınırlılık, hem dikkat mekanizmasının hem de harici bellek yaklaşımının motivasyonunu oluşturmuştur.
Von Neumann bilgisayar mimarisi, NTM'nin doğrudan esinlendiği modeldir [2]. Von Neumann mimarisinde, bir merkezi işlem birimi (CPU) ile ayrı bir bellek birimi arasında veri alışverişi yapılır; CPU, bellekten veri okur, işler ve sonuçları belleğe yazar [25]. NTM, bu yapıyı nöral hesaplama diline çevirmiştir: denetleyici CPU rolünü üstlenirken, bellek matrisi RAM'e karşılık gelmektedir [2]. Kritik yenilik, tüm bu erişim ve yazma işlemlerinin sürekli (continuous) ve türevlenebilir olmasıdır — böylece klasik bilgisayardaki ayrık (discrete) adres seçimi yerine, tüm bellek konumları üzerinde ağırlıklı bir dağılım kullanılmaktadır [2].
4. Ana Konu Analizi
4a. Temel Mekanizma: NTM'nin Mimari Yapısı
NTM'nin mimarisi üç temel bileşenden oluşmaktadır: denetleyici (controller), bellek matrisi (memory matrix) ve okuma/yazma başlıkları (read/write heads) [2].
Denetleyici, girdileri alan ve bellek erişim parametrelerini üreten bir sinir ağıdır. Graves ve ekibi, denetleyici olarak hem ileri beslemeli (feedforward) ağları hem de LSTM ağlarını denemiş, LSTM'nin zamansal bağımlılıkları modellemedeki üstünlüğü nedeniyle daha iyi sonuçlar verdiğini raporlamıştır [2]. Denetleyici, her zaman adımında dış dünyadan girdi alır, bellek okuma sonuçlarını işler ve hem çıktı hem de bellek erişim parametreleri üretir [2].
Bellek matrisi, N satır ve M sütundan oluşan iki boyutlu bir dizidir [2]. Her satır, bir bellek konumunu temsil eden M boyutlu bir vektördür. N, bellek konumlarının sayısını; M ise her konumdaki vektörün boyutunu belirler. Bellek, eğitim süresince tamamen öğrenilen içeriklerle doldurulur ve manipüle edilir [2].
Okuma başlığı, bellekten bilgi almak için bir ağırlık vektörü (weighting vector) üretir [2]. Bu ağırlık vektörü w_t, tüm bellek konumları üzerinde bir olasılık dağılımı oluşturur (tüm bileşenler toplamı 1'e eşittir ve negatif değildir). Okuma işlemi, bellek matrisinin bu ağırlıklarla çarpılmasıyla gerçekleştirilir: r_t = Σ_i w_t(i) · M_t(i) [2]. Bu "bulanık" (blurry) okuma, ayrık adres seçiminin yerini alarak türevlenebilirliği sağlar.
Yazma başlığı, iki aşamalı bir süreç kullanır [2]. Önce bir silme (erase) vektörü e_t ile mevcut bellek içeriği kısmen silinir, ardından bir ekleme (add) vektörü a_t ile yeni içerik yazılır. Matematiksel olarak: M_t(i) = M_{t-1}(i)[1 - w_t(i)·e_t] + w_t(i)·a_t [2]. Bu formül, yazma işleminin de tamamen türevlenebilir olmasını sağlar.
Hibrit adresleme mekanizması, NTM'nin en yenilikçi bileşenidir [2]. İki temel adresleme yöntemi birleştirilmiştir:
İçerik tabanlı adresleme (content-based addressing), bir anahtar vektör k_t ile bellek satırları arasındaki kosinüs benzerliğini hesaplar [2]. Bu, bir çağrışımsal bellek (associative memory) mekanizmasıdır: "şuna benzeyen bilgiyi bul." Bir keskinlik parametresi β_t, benzerlik dağılımının ne kadar odaklanmış olacağını kontrol eder [2].
Konum tabanlı adresleme (location-based addressing), ardışık bellek konumlarına erişimi sağlar [2]. Üç alt mekanizma içerir: kapı (gate) parametresi g_t, içerik tabanlı ve önceki adresin karışım oranını belirler; kaydırma (shift) dağılımı s_t, dikkati bitişik konumlara kaydırır; keskinleştirme parametresi γ_t, son dağılımı sivrileştirir [2]. Bu mekanizma, sıralı tarama (sequential scan) gibi algoritmik işlemlerin öğrenilmesini mümkün kılar.
4b. Kilit Aktörler ve Katkıları
Alex Graves, NTM'nin birincil mimarıdır [2]. Edinburgh Üniversitesi'nden doktorasını 2008'de Jürgen Schmidhuber danışmanlığında tamamlayan Graves, yinelemeli sinir ağları ve dizilim modelleme konusunda dünya çapında bir uzmandır [26]. El yazısı tanıma ve konuşma sentezi üzerine çalışmalarıyla tanınan Graves, 2013'te DeepMind'a katılmıştır [26]. NTM, onun uzun süredir üzerinde düşündüğü bir soruya — sinir ağlarının algoritmik kapasitelerini nasıl artırabileceğine — verdiği yanıttır.
Greg Wayne, bilişsel bilim ve nörobilim arka planıyla NTM projesine katkıda bulunmuştur [13]. Wayne'in çalışma belleği ve karar verme süreçleri üzerine olan akademik geçmişi, NTM'nin bilişsel bilim kökleriyle bağlantısını güçlendirmiştir. Daha sonra DNC projesinin de kilit araştırmacılarından biri olmuştur [13].
Ivo Danihelka, teknik uygulama ve deneysel doğrulama sürecinde önemli rol oynamıştır [2]. Çek Cumhuriyeti kökenli olan Danihelka, derin öğrenme ve üretici modeller konusundaki uzmanlığıyla projeye katkı sağlamıştır.
DeepMind kurumsal olarak, NTM'nin geliştirilmesine olanak tanıyan ortamı sağlamıştır [23]. Demis Hassabis, Shane Legg ve Mustafa Süleyman tarafından 2010'da kurulan DeepMind, temel yapay zekâ araştırmalarına odaklanmasıyla bilinmektedir [23]. Google'ın 2014'teki satın alması, DeepMind'ın araştırma kapasitesini önemli ölçüde genişletmiştir.
4c. Dönem İçindeki Yeri
2014, derin öğrenme alanında bir patlama yılıydı. Aynı yıl içinde, Goodfellow ve arkadaşları Generative Adversarial Networks'ü (GAN) tanıtmış [27], Cho ve arkadaşları Gated Recurrent Unit'i (GRU) önermiş [28], Bahdanau ve ekibi dikkat mekanizmasını makine çevirisine uygulamıştır [8]. NTM, bu yoğun yenilik ortamında, sinir ağlarının algoritmik kapasitesine odaklanan özgün bir perspektif sunmuştur.
NTM, döneminde büyük ilgi görmüş ancak aynı zamanda bazı pratik zorluklarla karşılaşmıştır [29]. Eğitim kararsızlığı (training instability), özellikle yazma işlemlerinde gradyan patlaması (gradient explosion) riski ve hibrit adresleme mekanizmasının optimizasyon zorluğu, araştırmacıların karşılaştığı başlıca problemlerdi [29]. Bu zorluklar, NTM'nin büyük ölçekli endüstriyel uygulamalara hızla taşınmasını engellemiştir.
Bununla birlikte, NTM'nin çözdüğü kavramsal problem — sinir ağlarına yapılandırılmış bellek kazandırma — alanın en temel açık sorularından biriydi [6]. NTM, kopyalama, sıralama, bağlantılı hatırlama (associative recall) ve dinamik n-gram gibi görevlerde, standart LSTM'lerden belirgin biçimde üstün performans göstermiştir [2]. Özellikle genelleme kapasitesi dikkat çekiciydi: eğitim sırasında kısa dizilerle öğrenen NTM, test sırasında çok daha uzun dizilere başarıyla genelleştirebiliyordu [2].
4d. Genel YZ Tarihindeki Yeri
NTM, yapay zekâ tarihinde birkaç kritik paradigma değişiminin habercisi olmuştur.
Birincisi, bellek-artırılmış sinir ağları (memory-augmented neural networks, MANN) araştırma alanını başlatmıştır [6]. NTM'den sonra gelen DNC [13], Memory Networks [11], End-to-End Memory Networks [12] ve Stack-Augmented RNN'ler [16], hepsi NTM'nin açtığı kavramsal yolda ilerlemiştir. Bu araştırma hattı, sinir ağlarının algoritmik kapasitelerini sistematik biçimde genişletmeyi amaçlamıştır.
İkincisi, NTM'nin içerik tabanlı adresleme mekanizması, dikkat mekanizmasının (attention mechanism) evriminde önemli bir rol oynamıştır [8]. 2017'de Vaswani ve arkadaşlarının önerdiği Transformer mimarisi [30], dikkat mekanizmasını merkeze alarak dil modellerinde devrim yaratmıştır. Transformer'ın çok başlı dikkat (multi-head attention) mekanizması, kavramsal olarak NTM'nin bellek okuma işlemiyle derin benzerlikler taşımaktadır: her ikisi de bir sorgu (query) ile anahtar-değer (key-value) çiftleri arasında ağırlıklı eşleştirme yapmaktadır [30].
Üçüncüsü, NTM, nöral program sentezi (neural program synthesis) ve nöral program yorumlama (neural program induction) alanlarının öncüsü olmuştur [15]. Sinir ağlarının açıkça algoritmik davranış öğrenebileceği fikri, daha sonra Neural Programmer [31], Neural Programmer-Interpreters [15] ve AlphaTensor [32] gibi çalışmalara ilham vermiştir.
5. Eleştirel Değerlendirme
NTM'nin önemini teslim etmekle birlikte, çalışmanın sınırlılıklarını ve eleştirilerini de dengeli biçimde değerlendirmek gerekmektedir.
Ölçeklenebilirlik sorunu, NTM'nin en ciddi pratik sınırlamasıdır [29]. Bellek boyutu N arttıkça, her okuma ve yazma işlemi tüm bellek konumları üzerinde bir ağırlık dağılımı hesaplamayı gerektirmektedir; bu da O(N) karmaşıklığına yol açmaktadır [2]. Büyük bellek boyutları için bu hesaplama maliyeti, eğitimi yavaşlatmakta ve pratik uygulamaları sınırlamaktadır. DNC, bu soruna kısmen çözüm getirmiş olsa da [13], tam anlamıyla verimli bellek erişimi hâlâ açık bir araştırma problemidir.
Eğitim kararsızlığı, NTM'nin bir diğer önemli zayıflığıdır [29]. Yazma işlemlerindeki gradyan akışı, özellikle uzun dizilerde kararsız hale gelebilmektedir. Zaremba ve Sutskever (2015), bu sorunu pekiştirmeli öğrenme ile aşmayı denemiş, ancak pekiştirmeli öğrenmenin kendi optimizasyon zorlukları yeni problemler yaratmıştır [14].
Görev çeşitliliğinin sınırlılığı, NTM'nin değerlendirilmesinde eleştiri konusu olmuştur [29]. Orijinal makalede sunulan görevler — kopyalama, sıralama, bağlantılı hatırlama — yapılandırılmış ve nispeten basit algoritmik görevlerdir [2]. Gerçek dünya problemlerinin karmaşıklığı ve belirsizliği karşısında NTM'nin ne ölçüde genelleştirebileceği, açık bir soru olarak kalmıştır.
Sembolik yaklaşım savunucularının eleştirisi de dikkate değerdir. Marcus (2018), sinir ağı tabanlı yaklaşımların — NTM dahil — sistematik genelleme (systematic generalization) kapasitesinde temel sınırlılıklar taşıdığını ileri sürmüştür [33]. Marcus'a göre, türevlenebilir bellek eklemek, bağlantılılık paradigmasının kökensel sınırlamalarını tam olarak aşmaya yetmemektedir [33]. Bu eleştiri, yapay zekâ alanında hâlâ canlı bir tartışmayı yansıtmaktadır.
Bilişsel biliş açısından, NTM'nin insan çalışma belleğiyle olan analojisinin ne ölçüde geçerli olduğu tartışmalıdır [9]. İnsan çalışma belleği, kapasite sınırlamaları (Miller'ın 7±2 kuralı), dikkat kontrol mekanizmaları ve bilinçli erişim gibi özellikleriyle NTM'nin bellek yapısından önemli farklılıklar göstermektedir [9]. Bu analojinin aşırı genelleştirilmesi, hem bilişsel bilim hem de yapay zekâ araştırmaları açısından yanıltıcı olabilir.
Bununla birlikte, bugünden geriye bakıldığında NTM'nin doğru soruyu sorduğu açıktır. Sinir ağlarının yapılandırılmış belleğe ihtiyaç duyduğu ve bu belleğin türevlenebilir mekanizmalarla erişilebilir kılınabileceği fikri, Transformer mimarisinin [30] ve modern büyük dil modellerinin temelini oluşturan kavramsal araç setinin önemli bir parçası haline gelmiştir.
6. Etik ve Toplumsal Boyutlar
NTM ve bellek-artırılmış sinir ağlarının etik ve toplumsal boyutları, 2014'te bu çalışma yapıldığında büyük ölçüde tartışılmamıştır; ancak geriye dönük değerlendirme, önemli soruları gündeme getirmektedir.
Algoritmik akıl yürütme kapasitesinin artması, yapay zekâ sistemlerinin karar verme süreçlerindeki rolünü genişletme potansiyeli taşımaktadır. Eğer bir sinir ağı, yapılandırılmış bellek kullanarak karmaşık mantıksal çıkarımlar yapabiliyorsa, bu sistemlerin hukuki, tıbbi veya finansal karar verme süreçlerinde kullanılması ciddi hesap verebilirlik (accountability) soruları doğurmaktadır [34]. Türevlenebilir bellek mekanizması, modelin hangi bilgiyi ne zaman okuduğunu ve yazdığını izlemeyi teorik olarak mümkün kılmaktadır [2]; bu, açıklanabilir yapay zekâ (explainable AI, XAI) açısından bir fırsat sunmaktadır [34].
Güç yoğunlaşması, bu dönemde belirginleşen bir endişedir. NTM'nin Google DeepMind bünyesinde geliştirilmesi, temel yapay zekâ araştırmalarının giderek artan ölçüde büyük teknoloji şirketlerinin kontrolüne girdiğini yansıtmaktadır [23]. Bu eğilim, araştırma gündeminin belirlenmesinde, sonuçların paylaşılmasında ve teknolojinin dağıtımında asimetrik güç ilişkileri yaratma potansiyeli taşımaktadır.
Otonom karar verme kapasitesi, NTM'nin uzun vadeli etik etkilerinin en kritik boyutudur. Bir yapay zekâ sistemi, harici bellek kullanarak deneyimlerini biriktirip bunlara dayanarak karar verebiliyorsa, bu sistemin özerklik (autonomy) derecesi artmaktadır. Bu kapasitenin askeri otonom sistemler, finansal algoritmalar veya sağlık karar destek sistemleri gibi yüksek riskli alanlarda kullanılması, ciddi etik çerçeveler ve düzenleyici mekanizmalar gerektirmektedir [34].
Eşitsiz erişim, temel araştırma altyapısı bağlamında da değerlendirilmelidir. NTM'nin eğitimi, 2014 standartlarında bile önemli hesaplama kaynakları gerektirmiştir [2]. Bu durum, araştırma kapasitesinin kaynak zenginliğiyle orantılı olduğu bir ortamda, gelişmekte olan ülkelerdeki araştırmacıların ve küçük akademik kurumların bu tür çalışmalara katkı sunma olanaklarını sınırlamaktadır.
7. Güncel Uygulamalar ve Miras
NTM'nin doğrudan mirası, 2020'lerin yapay zekâ manzarasında birden fazla alanda kendini göstermektedir.
Transformer mimarisi ve büyük dil modelleri, NTM'nin kavramsal DNA'sını taşımaktadır [30]. Transformer'daki öz-dikkat (self-attention) mekanizması, her bir konumun diğer tüm konumlardan bilgi okuması, kavramsal olarak NTM'nin içerik tabanlı bellek okumasının genelleştirilmiş halidir [30]. GPT, BERT, PaLM, LLaMA gibi modellerin temelini oluşturan bu mekanizma, NTM'nin "bellekten ağırlıklı okuma" fikrinin muazzam ölçekte uygulanmasıdır [35].
Retrieval-Augmented Generation (RAG), NTM'nin harici bellek fikrini modern dil modellerine uygulayan pratik bir mimaridir [36]. Lewis ve arkadaşlarının (2020) önerdiği RAG, bir dil modelinin yanıt üretirken harici bir bilgi tabanından ilgili belgeleri alıp kullanmasını sağlamaktadır [36]. Bu yaklaşım, NTM'nin "bellekten oku ve kullan" prensibinin endüstriyel ölçekteki yansımasıdır.
Birkaç atışlı öğrenme (few-shot learning) alanında, bellek-artırılmış yaklaşımlar önemli bir rol oynamaktadır. Santoro ve arkadaşlarının (2016) "Meta-Learning with Memory-Augmented Neural Networks" çalışması, NTM benzeri bellek yapılarının hızlı adaptasyon ve birkaç örnekle öğrenme görevlerinde etkili olduğunu göstermiştir [37]. Bu araştırma hattı, modern meta-öğrenme (meta-learning) yöntemlerinin gelişiminde etkili olmuştur.
Açıklanabilir yapay zekâ (XAI) alanında, NTM'nin bellek erişim örüntülerinin yorumlanabilirliği, araştırmacılara ilham vermeye devam etmektedir [34]. Bir modelin hangi bellek konumlarını okuduğu ve yazdığı, modelin "düşünce süreci" hakkında ipuçları sunabilir. Bu özellik, modern dil modellerinin dikkat haritalarının (attention maps) yorumlanmasına kavramsal olarak zemin hazırlamıştır.
Program sentezi ve otomatik akıl yürütme alanında, NTM'nin başlattığı gelenek, AlphaCode [38] ve Codex gibi kod üreten modellerin geliştirilmesiyle endüstriyel uygulamalara taşınmıştır. Sinir ağlarının algoritmik davranış öğrenebileceği fikri, günümüzde yazılım mühendisliğinin otomasyonu bağlamında somut ürünlere dönüşmüştür.
8. Bölüm Özeti
Neural Turing Machines, 2014 yılında yapay zekâ tarihinde kritik bir boşluğu doldurmaya çalışan cesur bir girişim olmuştur. Sinir ağlarının algısal görevlerdeki başarısının yanına algoritmik akıl yürütme kapasitesini eklemeyi hedefleyen NTM, denetleyici-bellek ayrımı, türevlenebilir okuma/yazma mekanizması ve hibrit adresleme sistemiyle, sembolik yapay zekâ geleneğinin güçlü yanlarını bağlantılılık paradigmasına entegre etmeye çalışmıştır [2]. Graves, Wayne ve Danihelka'nın bu çalışması, doğrudan pratik uygulamalara hızla dönüşmemiş olsa da, bellek-artırılmış sinir ağları araştırma alanını başlatmış, dikkat mekanizmasının evrimini etkilemiş ve Transformer mimarisine giden entelektüel yolun önemli bir durağı olmuştur.
NTM'nin en kalıcı mirası, belki de teknik ayrıntılarından çok, sorduğu sorudadır: Yapay zekâ sistemleri, yalnızca istatistiksel örüntü tanıyıcılar mı olmalıdır, yoksa yapılandırılmış bellek ve algoritmik manipülasyon kapasitesiyle donatılmış genel amaçlı hesaplama sistemleri mi? Bu soru, büyük dil modellerinin sınırlılıklarının tartışıldığı, RAG sistemlerinin yaygınlaştığı ve yapay genel zekâ (AGI) tartışmalarının alevlendiği günümüzde, her zamankinden daha günceldir.
Bir sonraki bölümde ele alacağımız Pointer Networks, NTM'nin dikkat mekanizması ve bellek erişim fikirlerini farklı bir açıdan — değişken boyutlu çıktı uzayları problemi bağlamında — geliştirerek, dizilim modellerinin evriminde yeni bir adım atacaktır.
9. Kaynakça
1. Turing, A. M. (1936). On computable numbers, with an application to the Entscheidungsproblem. Proceedings of the London Mathematical Society, 2(42), 230–265.
2. Graves, A., Wayne, G., & Danihelka, I. (2014). Neural Turing Machines. arXiv preprint arXiv:1410.5401.
3. Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). ImageNet classification with deep convolutional neural networks. Advances in Neural Information Processing Systems, 25, 1097–1105.
4. Graves, A. (2012). Supervised Sequence Labelling with Recurrent Neural Networks. Springer.
5. Siegelmann, H. T., & Sontag, E. D. (1995). On the computational power of neural nets. Journal of Computer and System Sciences, 50(1), 132–150.
6. Graves, A., Wayne, G., Reynolds, M., Harley, T., Danihelka, I., Grabska-Barwińska, A., ... & Hassabis, D. (2016). Hybrid computing using a neural network with dynamic external memory. Nature, 538(7626), 471–476.
7. Hochreiter, S., & Schmidhuber, J. (1997). Long short-term memory. Neural Computation, 9(8), 1735–1780.
8. Bahdanau, D., Cho, K., & Bengio, Y. (2015). Neural machine translation by jointly learning to align and translate. Proceedings of the 3rd International Conference on Learning Representations (ICLR).
9. Baddeley, A. (2000). The episodic buffer: A new component of working memory? Trends in Cognitive Sciences, 4(11), 417–423.
10. Goldman-Rakic, P. S. (1995). Cellular basis of working memory. Neuron, 14(3), 477–485.
11. Weston, J., Chopra, S., & Bordes, A. (2015). Memory Networks. Proceedings of the 3rd International Conference on Learning Representations (ICLR).
12. Sukhbaatar, S., Szlam, A., Weston, J., & Fergus, R. (2015). End-to-end memory networks. Advances in Neural Information Processing Systems, 28, 2440–2448.
13. Graves, A., Wayne, G., Reynolds, M., Harley, T., Danihelka, I., Grabska-Barwińska, A., ... & Hassabis, D. (2016). Hybrid computing using a neural network with dynamic external memory. Nature, 538(7626), 471–476.
14. Zaremba, W., & Sutskever, I. (2015). Reinforcement learning Neural Turing Machines – revised. arXiv preprint arXiv:1505.00521.
15. Reed, S., & de Freitas, N. (2016). Neural Programmer-Interpreters. Proceedings of the 4th International Conference on Learning Representations (ICLR).
16. Grefenstette, E., Hermann, K. M., Suleyman, M., & Blunsom, P. (2015). Learning to transduce with unbounded memory. Advances in Neural Information Processing Systems, 28, 1828–1836.
17. Akyol, K., & Karci, A. (2020). Derin öğrenme yöntemlerinin Türkçe doğal dil işleme görevlerinde uygulanması. Fırat Üniversitesi Mühendislik Bilimleri Dergisi, 32(1), 137–146.
18. Öztürk, Ş., & Özgür, A. (2019). Derin öğrenme mimarilerinin karşılaştırmalı analizi. Bilişim Teknolojileri Dergisi, 12(3), 195–208.
19. Newell, A., & Simon, H. A. (1976). Computer science as empirical inquiry: Symbols and search. Communications of the ACM, 19(3), 113–126.
20. Russell, S. J., & Norvig, P. (2021). Artificial Intelligence: A Modern Approach (4th ed.). Pearson.
21. Rumelhart, D. E., Hinton, G. E., & Williams, R. J. (1986). Learning representations by back-propagating errors. Nature, 323(6088), 533–536.
22. Fodor, J. A., & Pylyshyn, Z. W. (1988). Connectionism and cognitive architecture: A critical analysis. Cognition, 28(1–2), 3–71.
23. Hassabis, D. (2017). Artificial intelligence: Chess match of the century. Nature, 544(7651), 413–414.
24. Sutskever, I., Vinyals, O., & Le, Q. V. (2014). Sequence to sequence learning with neural networks. Advances in Neural Information Processing Systems, 27, 3104–3112.
25. Von Neumann, J. (1945). First Draft of a Report on the EDVAC. University of Pennsylvania.
26. Graves, A. (2013). Generating sequences with recurrent neural networks. arXiv preprint arXiv:1308.0850.
27. Goodfellow, I. J., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., ... & Bengio, Y. (2014). Generative adversarial nets. Advances in Neural Information Processing Systems, 27, 2672–2680.
28. Cho, K., van Merriënboer, B., Gülçehre, Ç., Bahdanau, D., Bougares, F., Schwenk, H., & Bengio, Y. (2014). Learning phrase representations using RNN encoder-decoder for statistical machine translation. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), 1724–1734.
29. Collier, M., & Beel, J. (2018). Implementing Neural Turing Machines. Proceedings of the 28th International Conference on Artificial Neural Networks (ICANN), 94–104.
30. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention is all you need. Advances in Neural Information Processing Systems, 30, 5998–6008.
31. Neelakantan, A., Le, Q. V., & Sutskever, I. (2016). Neural Programmer: Inducing latent programs with gradient descent. Proceedings of the 4th International Conference on Learning Representations (ICLR).
32. Fawzi, A., Balog, M., Huang, A., Hubert, T., Romera-Paredes, B., Barekatain, M., ... & Kohli, P. (2022). Discovering faster matrix multiplication algorithms with reinforcement learning. Nature, 610(7930), 47–53.
33. Marcus, G. (2018). Deep learning: A critical appraisal. arXiv preprint arXiv:1801.00631.
34. Adadi, A., & Berrada, M. (2018). Peeking inside the black-box: A survey on explainable artificial intelligence (XAI). IEEE Access, 6, 52138–52160.
35. Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., ... & Amodei, D. (2020). Language models are few-shot learners. Advances in Neural Information Processing Systems, 33, 1877–1901.
36. Lewis, P., Perez, E., Piktus, A., Petroni, F., Karpukhin, V., Goyal, N., ... & Kiela, D. (2020). Retrieval-augmented generation for knowledge-intensive NLP tasks. Advances in Neural Information Processing Systems, 33, 9459–9474.
37. Santoro, A., Bartunov, S., Botvinick, M., Wierstra, D., & Lillicrap, T. (2016). Meta-learning with memory-augmented neural networks. Proceedings of the 33rd International Conference on Machine Learning (ICML), 1842–1850.
38. Li, Y., Choi, D., Chung, J., Kushman, N., Schrittwieser, J., Leblond, R., ... & Vinyals, O. (2022). Competition-level code generation with AlphaCode. Science, 378(6624), 1092–1097.
10. Tartışma Soruları
1. Analitik: NTM'nin hibrit adresleme mekanizması (içerik tabanlı ve konum tabanlı), hangi tür algoritmik görevlerin öğrenilmesini mümkün kılmaktadır? Bu iki adresleme yönteminden biri olmadan sistem hangi kapasitelerini kaybederdi?
2. Karşılaştırmalı: NTM ile Weston ve arkadaşlarının Memory Networks modeli arasındaki temel mimari farklar nelerdir? Bu farklar, iki modelin uygun olduğu görev türlerini nasıl belirlemektedir?
3. Spekülatif: Eğer NTM 2014 yerine 2010'da — yani AlexNet öncesi dönemde — önerilmiş olsaydı, yapay zekâ araştırma gündemini nasıl etkileyebilirdi? Derin öğrenme devrimi farklı bir rotada mı ilerlerdi?
4. Etik: NTM benzeri bellek-artırılmış yapay zekâ sistemlerinin, harici bellekte biriktirdikleri bilgiye dayanarak otonom kararlar alması hangi etik soruları gündeme getirmektedir? Bu sistemlerin "unutma hakkı" gibi kavramlarla nasıl bir ilişkisi olabilir?
5. Güncel: Transformer mimarisindeki öz-dikkat (self-attention) mekanizması ile NTM'nin içerik tabanlı bellek okuması arasındaki kavramsal benzerlik ve farklılıklar nelerdir? Modern büyük dil modellerini bir tür "bellek-artırılmış" sistem olarak değerlendirmek ne ölçüde doğrudur?
6. Karşılaştırmalı: Fodor ve Pylyshyn'in bağlantılılık eleştirisi bağlamında, NTM'nin yapılandırılmış bellek eklemesi, sistematiklik ve bileşimsellik sorunlarını ne ölçüde çözmektedir? Marcus'un 2018 eleştirisi bu değerlendirmeyi nasıl güncellemektedir?
7. Analitik: NTM'den DNC'ye geçişte eklenen dinamik bellek tahsisi (dynamic memory allocation) ve zamansal bağlantı (temporal linkage) mekanizmaları, hangi spesifik sınırlılıkları aşmayı hedeflemiştir? Bu eklentiler başarılı olmuş mudur?
8. Spekülatif: Retrieval-Augmented Generation (RAG) sistemleri, NTM'nin harici bellek fikrini endüstriyel ölçekte gerçekleştirmenin bir yolu olarak görülebilir mi? RAG ile NTM arasındaki kavramsal süreklilik ve kopuşlar nelerdir?
9. Etik: Temel yapay zekâ araştırmalarının giderek artan biçimde büyük teknoloji şirketlerinde (Google DeepMind, Meta AI, OpenAI) yoğunlaşması, akademik özgürlük, araştırma çeşitliliği ve küresel erişim açısından hangi riskleri barındırmaktadır?
10. Güncel: NTM'nin "sinir ağlarına algoritmik düşünce kapasitesi kazandırma" vizyonu, günümüzün "zincir düşünce" (chain-of-thought) ve "akıl yürütme" (reasoning) odaklı büyük dil modelleri tartışmalarıyla nasıl ilişkilendirilebilir?