Neocognitron ve Derin Öğrenmenin Doğuşu
Fukushima'nın Neocognitron modeli: evrişimli sinir ağlarının ve derin öğrenmenin öncüsü.
1. Giriş
1980 yılının baharında, Japonya'nın Osaka kentindeki NHK Bilim ve Teknik Araştırma Laboratuvarları'nda çalışan Kunihiko Fukushima, Biological Cybernetics dergisine olağanüstü bir makale gönderdi: "Neocognitron: A Self-organizing Neural Network Model for a Mechanism of Pattern Recognition Unaffected by Shift in Position" [1]. Başlık akademik bir sadelik taşıyordu, ancak içeriği yapay zekanın geleceğini sessizce yeniden biçimlendirecekti. Fukushima'nın önerdiği model, insan görsel korteksinin hiyerarşik yapısından esinlenerek, bir görüntüdeki desenleri — harfleri, rakamları, basit şekilleri — konumlarından bağımsız olarak tanıyabilen çok katmanlı bir yapay sinir ağıydı [1]. Bugünün derin öğrenme devriminin temelinde yatan evrişimli sinir ağları (convolutional neural networks — CNN), doğrudan Neocognitron'un mimari ilkelerine dayanmaktadır [2].
Neocognitron'un ortaya çıktığı dönem, yapay zeka tarihi açısından paradoksal bir zaman dilimiydi. Bir önceki bölümde incelediğimiz John Searle'ün Çin Odası argümanı, aynı yıl — 1980'de — yayımlanmış ve sembolik yapay zekanın "anlama" iddialarını felsefi düzeyde sarsmıştı [3]. Yapay zeka topluluğu, Birinci Yapay Zeka Kışı'nın (1974–1980) etkilerini hâlâ hissediyordu; Minsky ve Papert'in 1969'da yayımladıkları Perceptrons kitabı, tek katmanlı sinir ağlarının sınırlılıklarını matematiksel olarak kanıtlamış ve bağlantıcı (connectionist) araştırmaları fiilen dondurmuştu [4]. Fon kaynakları kurumuş, araştırmacılar sinir ağlarından uzaklaşmış, akademik kariyer yapmanın yolu sembolik yapay zekadan ve uzman sistemlerden geçiyordu [5]. İşte tam bu entelektüel ve kurumsal çöl ortamında, Fukushima'nın Neocognitron'u — çoğu kişinin fark etmediği bir Japon dergisinde, fark edilmeden — derin öğrenmenin ilk tohumunu ekiyordu.
Neocognitron'un önemi yalnızca teknik yenilikleriyle sınırlı değildir. Bu model, yapay zeka araştırmalarında iki temel ilkeyi somutlaştırmıştır: birincisi, biyolojik sistemlerden esinlenmenin (biologically inspired computing) yapay zeka için verimli bir strateji olabileceği; ikincisi, hiyerarşik ve katmanlı bilgi işlemenin karmaşık algısal görevleri çözebileceği [6]. Bu iki ilke, bugün derin öğrenme olarak adlandırdığımız paradigmanın kurucu sütunlarıdır. Neocognitron olmadan, Yann LeCun'un LeNet'i (1989), AlexNet'in ImageNet zaferi (2012) ve bugünün görüntü tanıma, otonom sürüş ve tıbbi teşhis sistemleri farklı bir yol izlemek zorunda kalacaktı [7].
Bu bölümde, Neocognitron'un entelektüel kökenlerini — Hubel ve Wiesel'in Nobel ödüllü görsel korteks araştırmalarından Rosenblatt'ın perceptron'una uzanan çizgiyi — inceleyecek; modelin mimari yapısını, S-hücreleri ve C-hücreleri mekanizmasını ayrıntılı biçimde analiz edecek; Fukushima'nın kendi kendine öğrenme (self-organization) yaklaşımının özgünlüğünü ve sınırlılıklarını tartışacak; Neocognitron'dan LeNet'e ve oradan modern CNN'lere uzanan tarihsel sürekliliği belgeleyecek; ve modelin hem teknik hem felsefi hem de toplumsal boyutlarını eleştirel biçimde değerlendireceğiz. Bir sonraki bölümde ele alacağımız 1982 dönemi — Japonya'nın Beşinci Nesil Bilgisayar Projesi, Hopfield ağları ve Boltzmann Makineleri — Neocognitron'un açtığı bağlantıcı çığırın farklı kollardan nasıl genişlediğini gösterecektir.
2. Literatür Taraması
Neocognitron ve evrişimli sinir ağlarının tarihsel gelişimi üzerine akademik literatür, nörobilim, bilgisayar bilimi, mühendislik ve bilişsel bilim disiplinlerinin kesişiminde zengin bir külliyat oluşturmaktadır.
Birincil kaynak olarak Fukushima'nın (1980) Biological Cybernetics dergisindeki orijinal makalesi, Neocognitron'un mimari yapısını, S-hücresi ve C-hücresi mekanizmasını, kendi kendine öğrenme algoritmasını ve el yazısı rakam tanıma deneylerin sonuçlarını içeren kurucu referanstır [1]. Fukushima'nın daha önceki çalışması — 1975'te yayımlanan "Cognitron" makalesi — Neocognitron'un doğrudan öncülüdür ve öğrenme yeteneğine sahip çok katmanlı bir sinir ağı modelini tanıtmıştır [8]. Fukushima, Neocognitron'u 1988 ve 2003 yıllarında güncellemiş; özellikle 1988 versiyonu, geri beslemeli seçici dikkat mekanizması ekleyerek modelin tanıma kapasitesini genişletmiştir [9]. Bu çalışmalar, Neocognitron'un statik bir model olmadığını, sürekli gelişen bir araştırma programı olduğunu göstermektedir.
Neocognitron'un biyolojik ilham kaynağı olan David Hubel ve Torsten Wiesel'in görsel korteks araştırmaları, bu alanın en temel referans noktalarıdır. Hubel ve Wiesel'in (1959) ilk keşfi — kedilerin birincil görsel korteksinde yönelim-seçici basit hücrelerin (simple cells) varlığı — ve ardından gelen (1962) çalışmaları — kompleks hücrelerin (complex cells) konumdan bağımsız yönelim algılaması — Neocognitron'un doğrudan mimari ilham kaynaklarıdır [10]. Bu araştırmalar, 1981 yılında Nobel Tıp Ödülü ile taçlandırılmıştır [10]. Hubel ve Wiesel'in 1968 tarihli kapsamlı makaleleri, görsel korteksteki hiyerarşik işleme modelini — basit hücreler → kompleks hücreler → hiper-kompleks hücreler zincirlenmesini — ortaya koymuş ve bu hiyerarşi, Neocognitron'un katman yapısının doğrudan biyolojik karşılığını oluşturmuştur [11].
Frank Rosenblatt'ın (1958) Perceptron modeli, Neocognitron'un entelektüel soy ağacının bir diğer kritik halkasıdır [12]. Rosenblatt'ın tek katmanlı algılayıcısı, giriş → ağırlıklı toplam → eşik fonksiyonu mimarisini tanıtmış, ancak Minsky ve Papert'in (1969) Perceptrons kitabı, bu modelin doğrusal olarak ayrılamayan problemleri (özellikle XOR problemi) çözemeyeceğini matematiksel olarak göstererek bağlantıcı araştırmaları büyük ölçüde durdurmuştur [4]. Neocognitron, çok katmanlı yapısıyla Perceptron'un bu sınırlılığını aşmayı hedeflemiş, ancak bunu geri yayılım (backpropagation) yerine kendi kendine öğrenme ile gerçekleştirmiştir [1].
Yann LeCun ve arkadaşlarının (1989) geri yayılım algoritmasını el yazısı posta kodu tanımaya uyguladıkları çalışma, Neocognitron'un mimarisini denetimli öğrenme (supervised learning) ile birleştiren ve LeNet ailesini başlatan dönüm noktası makalesidir [13]. LeCun, Neocognitron'un ağırlık paylaşımı (weight sharing) ve yerel bağlantı ilkelerini açıkça kabul etmiş, ancak Fukushima'nın kendi kendine öğrenme mekanizmasını geri yayılım ile değiştirerek performansta dramatik bir artış sağlamıştır [13]. LeCun, Bottou, Bengio ve Haffner'in (1998) "Gradient-Based Learning Applied to Document Recognition" makalesi, LeNet-5 mimarisini tanıtmış ve evrişimli sinir ağlarının pratik uygulanabilirliğini kapsamlı biçimde kanıtlamıştır [14].
Alex Krizhevsky, Ilya Sutskever ve Geoffrey Hinton'ın (2012) ImageNet yarışmasını kazanan AlexNet makalesi, derin evrişimli ağların büyük ölçekli görüntü tanımada üstünlüğünü kanıtlayarak modern derin öğrenme devrimini fiilen başlatmıştır [15]. AlexNet'in başarısı, Neocognitron'dan LeNet'e uzanan mimari çizginin — evrişim, havuzlama, hiyerarşik özellik çıkarımı — nihai doğrulanmasıydı [2]. Jürgen Schmidhuber'in (2015) derin öğrenme tarihine ilişkin kapsamlı derlemesi, Fukushima'nın Neocognitron'unu derin öğrenmenin "ilk derin evrişimli sinir ağı" olarak konumlandırmış ve tarihsel öncelik tartışmalarını ayrıntılı biçimde ele almıştır [2].
Geoffrey Hinton, Simon Osindero ve Yee-Whye Teh'in (2006) "A Fast Learning Algorithm for Deep Belief Nets" makalesi, derin ağların etkin biçimde eğitilebileceğini göstererek "derin öğrenme" kavramını yeniden canlandırmıştır [16]. Yoshua Bengio'nun (2009) "Learning Deep Architectures for AI" derlemesi, derin öğrenmenin teorik temellerini ve tarihsel gelişimini sistematik biçimde ele almıştır [17]. Ian Goodfellow, Yoshua Bengio ve Aaron Courville'in (2016) Deep Learning ders kitabı, evrişimli ağların tarihçesini Neocognitron'dan başlatarak modern mimarilere kadar izlemiştir [18].
Stuart Russell ve Peter Norvig'in (2021) Artificial Intelligence: A Modern Approach ders kitabı, Neocognitron'u yapay zeka tarihinin genel çerçevesinde değerlendirmiş ve bağlantıcılığın yeniden doğuşundaki rolünü tartışmıştır [19]. Nils Nilsson'ın (2010) The Quest for Artificial Intelligence eseri, Neocognitron'u 1970–1980 döneminin "gözden düşmüş" sinir ağı araştırmaları bağlamında ele almıştır [20]. Pamela McCorduck'ın (2004) Machines Who Think kitabı, Japon yapay zeka araştırmalarının kültürel dinamiklerini ve Batılı araştırma topluluğuyla ilişkisini tartışmıştır [21]. Margaret Boden'ın (2006) Mind as Machine eseri, Neocognitron'u bilişsel bilim perspektifinden değerlendirmiş ve biyolojik esinli modellerin epistemolojik statüsünü sorgulamıştır [22].
Türkçe literatürde Nabiyev'in (2021) Yapay Zeka ders kitabı, evrişimli sinir ağlarının temellerini Türk okuyucuya tanıtan kaynaklardan biridir [23]. Ethem Alpaydın'ın (2020) Introduction to Machine Learning eseri, uluslararası alanda yaygın biçimde kullanılan bir ders kitabı olarak Neocognitron'un makine öğrenmesi tarihindeki yerini değerlendirmektedir [24].
3. Tarihsel ve Teorik Arka Plan
3a. Görsel Korteksin Keşfi: Hubel ve Wiesel'in Devrimci Bulguları
Neocognitron'un entelektüel soy ağacını anlamak için, hikâyeye 1958 yılında Baltimore'daki Johns Hopkins Üniversitesi'nin bir nörofizyoloji laboratuvarında başlamak gerekir. David Hubel ve Torsten Wiesel, kedilerin görsel korteksine yerleştirdikleri mikroelektrotlar aracılığıyla bireysel nöronların aktivitesini kaydetmeye çalışıyorlardı [10]. Başlangıçta hayal kırıklığına uğramışlardı — noktasal ışık uyaranlarına verilen yanıtlar belirsiz ve tutarsızdı. Ancak bir keşif anı geldi: cam slaytı projektöre yerleştirirken slaytın kenarının oluşturduğu düz çizgi, bir nöronu yoğun biçimde ateşletti [10]. Bu serendipitik keşif, görsel nörobilimin tarihini değiştirdi.
Hubel ve Wiesel, sistematik deneylerle kedilerin birincil görsel korteksindeki (V1) nöronların iki temel türde organize olduğunu keşfettiler [10]. Basit hücreler (simple cells), belirli bir yönelimde ve belirli bir konumda bulunan kenar veya çizgilere yanıt veriyordu — dikey bir çizgi bir nöronu ateşlerken, aynı çizginin birkaç derece döndürülmesi yanıtı tamamen ortadan kaldırabiliyordu [10]. Kompleks hücreler (complex cells) ise aynı yönelim seçiciliğine sahipti, ancak bir farkla: uyaranın alıcı alandaki kesin konumuna duyarsızdılar [11]. Bir dikey çizgi, alıcı alanın sağında ya da solunda olsa da kompleks hücreyi ateşliyordu. Bu, konumdan bağımsız özellik algılamanın biyolojik temeliydi [11].
Hubel ve Wiesel, daha sonra bu iki hücre türünün hiyerarşik biçimde organize olduğunu öne sürdüler: basit hücreler, talamus üzerinden gelen ham görsel bilgiyi işleyerek kenar ve yönelim gibi düşük seviyeli özellikleri çıkarır; kompleks hücreler ise birden fazla basit hücrenin çıktılarını birleştirerek daha soyut ve konum-bağımsız temsiller oluşturur [11]. Bu hiyerarşik model, görsel bilginin giderek daha soyut temsillere dönüştürüldüğünü — kenarlardan konturlara, konturlardan şekillere, şekillerden nesnelere — öngörüyordu [11]. İşte Fukushima'nın Neocognitron'u, bu biyolojik hiyerarşiyi yapay bir sinir ağında yeniden inşa etme girişimiydi.
3b. Perceptron'un Yükselişi ve Düşüşü
Biyolojik sinir sistemlerinden esinlenen yapay sinir ağlarının tarihi, Neocognitron'dan çok önce, 1943 yılında Warren McCulloch ve Walter Pitts'in yapay nöron modeliyle başlamıştı [25]. McCulloch-Pitts nöronu, biyolojik nöronların temel işleyişini — girdilerin toplanması ve bir eşik değerin aşılması durumunda çıktı üretilmesi — basitleştirilmiş biçimde modelleyen matematiksel bir soyutlamaydı [25]. Donald Hebb'in (1949) The Organization of Behavior kitabında ortaya koyduğu "birlikte ateşleyen nöronlar birbirine bağlanır" ilkesi (Hebbian learning), sinaptik öğrenmenin ilk kuramsal çerçevesini sağlamıştı [26].
Frank Rosenblatt'ın 1958'de tanıttığı Perceptron, bu kuramsal çerçeveyi somut bir makineye dönüştürdü [12]. Cornell Havacılık Laboratuvarı'nda geliştirilen Mark I Perceptron, 400 fotoelektrik hücreyi (20×20 piksel ızgara) yapay nöronlara bağlayan fiziksel bir cihazdı ve basit şekil tanıma yapabiliyordu [12]. Rosenblatt, Perceptron'un öğrenme kapasitesini matematiksel olarak kanıtlayan "Perceptron Yakınsama Teoremi"ni ortaya koymuştu: eğer bir problem doğrusal olarak ayrılabilirse, Perceptron sonlu sayıda adımda doğru ağırlıkları bulacaktı [12]. Medya bunu coşkuyla karşıladı — New York Times Perceptron'u "düşünen makine embriyosu" olarak manşete taşımıştı [5].
Ancak Marvin Minsky ve Seymour Papert'in 1969'daki Perceptrons kitabı, bu iyimserliği yerle bir etti [4]. Minsky ve Papert, tek katmanlı Perceptron'un XOR (özel veya) gibi doğrusal olarak ayrılamayan problemleri öğrenemeyeceğini matematiksel kesinlikle kanıtladılar [4]. Kitap, çok katmanlı ağların bu sınırlılığı aşabileceğini kabul ediyordu, ancak bu ağları etkili biçimde eğitmenin pratikte mümkün olup olmadığını — başka bir deyişle, gizli katmanlar için doğru ağırlıkların nasıl hesaplanacağını — ciddi bir şüpheyle karşılıyordu [4]. Perceptrons'un etkisi yıkıcı oldu: fonlama kurudu, araştırmacılar kariyerlerini başka alanlara yönlendirdi ve sinir ağı araştırmaları yaklaşık on beş yıl boyunca marjinalleşti [5]. Neocognitron, işte bu entelektüel buzul çağının tam ortasında, kayda değer bir cesaret ve özgünlükle ortaya çıktı.
3c. Japonya'nın Bilimsel Ekosistemi ve Fukushima'nın Konumu
Neocognitron'un Japonya'da doğmuş olması tesadüf değildir. 1970'lerin Japonya'sı, hızlı sanayileşme ve teknolojik modernleşmenin doruk noktasındaydı [21]. Japon hükümeti, bilim ve teknolojiyi ekonomik kalkınmanın motoru olarak görüyor ve araştırma laboratuvarlarına stratejik yatırımlar yapıyordu [21]. NHK Bilim ve Teknik Araştırma Laboratuvarları, televizyon yayıncılığı teknolojileri üzerine çalışan bir kurum olmasına karşın, görüntü işleme ve örüntü tanıma gibi temel araştırma konularına da kaynak ayırıyordu [1]. Fukushima, bu kurumsal ortamda, Batılı yapay zeka topluluğunun sembolik paradigmaya olan bağlılığından nispeten bağımsız biçimde çalışabilme imkânı bulmuştu.
Ayrıca Japonya'da, biyolojik esinli hesaplama yaklaşımına karşı Batı'daki kadar güçlü bir kurumsal önyargı yoktu [22]. Minsky-Papert etkisi ağırlıklı olarak ABD ve İngiltere'deki araştırma topluluklarını etkilemişti; Japonya'da sinir ağı araştırmaları, ana akım olmasa da tamamen marjinalleşmemişti [20]. Bu göreceli bağımsızlık, Fukushima'nın Neocognitron'u geliştirmesini mümkün kılan kurumsal koşullardan biriydi.
4. Ana Konu Analizi
4a. Neocognitron'un Mimari Yapısı: Temel Mekanizma
Neocognitron'un mimari yapısı, Hubel ve Wiesel'in görsel korteks modelinin yapay bir ağa doğrudan tercümesidir [1]. Model, birbirini izleyen S-katmanları (S-layers) ve C-katmanları (C-layers) çiftlerinden oluşan çok katmanlı bir hiyerarşi sunar [1]. Bu iki katman türü, biyolojik görsel korteksteki basit ve kompleks hücrelerin işlevsel karşılıklarıdır.
S-Hücreleri (Simple Cells): S-katmanındaki her hücre, bir önceki katmandan gelen belirli bir yerel bölgeye bağlıdır ve belirli bir özelliğe — kenar, köşe, belirli bir yönelim — yanıt verir [1]. S-hücreleri, "şablon eşleştirme" (template matching) ilkesiyle çalışır: alıcı alanındaki girdi deseni, hücrenin öğrendiği şablonla ne kadar uyuşuyorsa, hücrenin aktivasyonu o kadar güçlü olur [1]. Modelin ilk S-katmanındaki hücreler basit kenarları algılarken, daha derin S-katmanlarındaki hücreler giderek daha karmaşık desenleri — kenar birleşimlerini, konturları, nihayetinde tam karakterleri — tanır [1]. Bu hiyerarşik özellik çıkarımı, modern evrişimli sinir ağlarının temel ilkesidir.
C-Hücreleri (Complex Cells): C-katmanındaki her hücre, bir önceki S-katmanından gelen birden fazla hücrenin çıktısını birleştirir [1]. C-hücrelerinin kritik işlevi, aynı özelliği farklı konumlarda algılayan S-hücrelerinin çıktılarını "havuzlamak"tır (pooling) [1]. Bir "dikey kenar" algılayan S-hücresi, görüntünün sol üst köşesinde ya da sağ alt köşesinde ateşlense de, C-hücresi her iki durumda da aktifleşir. Bu mekanizma, konumdan bağımsız tanımanın (position invariance) temelidir [1]. Modern CNN terminolojisinde, C-katmanlarının işlevi "havuzlama katmanları" (pooling layers) ile doğrudan karşılanmaktadır [18].
Hücre Düzlemleri (Cell Planes): Neocognitron'un bir diğer kritik yeniliği, "hücre düzlemleri" kavramıdır [1]. Her S-katmanında birden fazla hücre düzlemi bulunur ve her düzlem, farklı bir özelliği algılamakla görevlidir. Aynı düzlemdeki tüm hücreler aynı ağırlıkları paylaşır — yani aynı özelliği, görüntünün farklı bölgelerinde arar [1]. Bu "ağırlık paylaşımı" (weight sharing) ilkesi, hem hesaplama verimliliğini artırır hem de modelin genelleme kapasitesini güçlendirir. Bu ilke, daha sonra LeCun'un evrişimli sinir ağlarında "evrişim çekirdeği" (convolution kernel) olarak resmileştirilecektir [13].
Kendi Kendine Öğrenme (Self-Organization): Neocognitron'un döneminin bağlamında en radikal yeniliği, öğretmensiz öğrenme (unsupervised learning) kullanmasıydı [1]. S-hücrelerinin ağırlıkları, girdilerde sık tekrarlanan desenlere göre kendiliğinden organize oluyordu; modele "bu bir A harfidir, bu bir B harfidir" şeklinde etiketli örnekler verilmesi gerekmiyordu [1]. Fukushima'nın öğrenme kuralı, Hebbian öğrenmenin bir çeşidiydi: bir S-hücresi belirli bir girdi desenine güçlü biçimde yanıt verdikçe, o hücrenin o desene olan bağlantıları güçleniyordu [1]. Bu yaklaşım, etiketli verinin kıt olduğu bir dönemde pratik bir avantaj sunuyordu, ancak denetimli öğrenmeyle kıyaslandığında sınırlı tanıma doğruluğu sağlıyordu [6].
4b. Kilit Aktörler ve Katkıları
Kunihiko Fukushima, 1936 doğumlu bir Japon bilgisayar bilimcisi ve nörobilimcidir [1]. Kyushu Üniversitesi'nde elektronik mühendisliği eğitimi aldıktan sonra, kariyerinin büyük bölümünü NHK Bilim ve Teknik Araştırma Laboratuvarları'nda geçirmiştir [9]. Fukushima'nın araştırma programı, 1969'da yayımladığı "Visual Feature Extraction by a Multilayered Network of Analog Threshold Elements" makalesiyle başlamış, 1975'te Cognitron modeline evrilmiş ve 1980'de Neocognitron ile doruğa ulaşmıştır [8]. Cognitron, çok katmanlı bir yapay sinir ağıydı, ancak konum bağımsızlığı (position invariance) mekanizmasından yoksundu; Neocognitron, S-hücreleri/C-hücreleri ayrımını ve hücre düzlemi kavramını ekleyerek bu eksikliği gidermiştir [8].
Fukushima'nın akademik yolculuğu, Batılı meslektaşlarına kıyasla daha az görünür olmuştur. Bunun birkaç nedeni vardır: çalışmalarını ağırlıklı olarak Japonca ve Almanca kaynaklı Biological Cybernetics dergisinde yayımlaması, dönemin ana akım yapay zeka konferansları olan IJCAI ve AAAI'da yeterince yer almaması ve ABD-merkezli akademik ağların dışında kalması [2]. Schmidhuber (2015), Fukushima'nın tarihsel katkısının sistematik olarak küçümsendiğini ve CNN'lerin tarihinin LeCun ile başlatılmasının tarihsel bir haksızlık olduğunu savunmuştur [2].
David Hubel (1926–2013) ve Torsten Wiesel (1924–), Neocognitron'un biyolojik temellerini sağlayan nörobilimcilerdir [10]. Harvard Üniversitesi'nde on yıllar boyunca sürdürdükleri işbirliği, görsel korteksin fonksiyonel organizasyonunu — yönelim seçiciliği, okuler dominans kolonları, hiyerarşik işleme — açıklığa kavuşturmuş ve 1981 Nobel Tıp Ödülü ile ödüllendirilmiştir [10]. Hubel ve Wiesel doğrudan yapay sinir ağlarıyla ilgilenmemişlerdir, ancak bulguları, Fukushima'dan LeCun'a uzanan bir bilgi işleme mimarisinin biyolojik meşruiyetini sağlamıştır.
Yann LeCun, Neocognitron'un mirasını modern derin öğrenmeye taşıyan en kritik figürdür [13]. LeCun, Fransa'da doğmuş, Paris'te Fukushima'nın çalışmalarını okumuş ve 1985'te geri yayılım algoritmasını bağımsız olarak geliştirmiştir [13]. 1989'da AT&T Bell Laboratuvarları'nda, Neocognitron'un mimari ilkelerini — yerel bağlantılar, ağırlık paylaşımı, hiyerarşik yapı — geri yayılım eğitimi ile birleştirerek LeNet mimarisini oluşturmuştur [13]. LeCun, Fukushima'nın kendi kendine öğrenme yaklaşımının yerine denetimli öğrenmeyi tercih etmiş ve bu tercih, tanıma doğruluğunda çarpıcı bir artış sağlamıştır [14]. LeCun'un katkısı, Neocognitron'un mimari zekâsını pratik uygulanabilirliğe dönüştürmektir.
4c. Dönem İçindeki Yeri: Buz Çağında Bir Yeşil Filiz
Neocognitron'un 1980'de yayımlanması, yapay zeka tarihi açısından zamanlamasıyla dikkat çekicidir. Model, Birinci Yapay Zeka Kışı'nın (1974–1980) tam sonlarında, sinir ağı araştırmalarının en derin noktasında ortaya çıkmıştır [5]. Bu dönemde, bağlantıcı araştırmalara fon bulmak neredeyse imkânsızdı; "sinir ağları" terimi, ciddi bir araştırmacının özgeçmişinde görünmekten kaçındığı bir etiket haline gelmişti [5]. Rumelhart ve McClelland'ın (1986) Parallel Distributed Processing kitabı — bağlantıcılığın yeniden doğuşunun manifestosu — henüz altı yıl uzaktaydı [27].
Bu bağlamda Neocognitron, buz çağında tek başına yeşeren bir filiz gibiydi. Fukushima'nın çalışması, Minsky-Papert eleştirisini doğrudan ele almıyordu — çok katmanlı ağların eğitilemeyeceği iddiasını geri yayılımla değil, kendi kendine öğrenmeyle atlatmaya çalışıyordu [1]. Bu yaklaşım, döneminin bağlamında pratik bir çözümdü: etiketli veri kıt, hesaplama kapasitesi sınırlıydı ve geri yayılım algoritması henüz yaygın biçimde bilinmiyordu [6].
Neocognitron'un yayımlandığı aynı yıl — 1980 — uzman sistemler patlamasının başlangıç noktasıydı. Stanford'da MYCIN ve XCON gibi kural tabanlı sistemler ticari başarı elde ediyor, sembolik yapay zeka altın çağını yaşıyordu [19]. Japonya, iki yıl sonra (1982) Beşinci Nesil Bilgisayar Projesi'ni başlatarak sembolik yaklaşıma devasa bir yatırım yapacaktı [21]. Bu ortamda Neocognitron, ana akımın tamamen dışında, alternatif bir paradigmayı sessizce inşa ediyordu. Tarih, sonunda Neocognitron'un temsil ettiği paradigmayı — bağlantıcı, hiyerarşik, öğrenme temelli — haklı çıkaracaktı.
4d. Genel Yapay Zeka Tarihindeki Yeri: Derin Öğrenmenin Mimari DNA'sı
Neocognitron'un yapay zeka tarihindeki yeri, "derin öğrenmenin mimari DNA'sı" benzetmesiyle en iyi biçimde ifade edilebilir. Modern evrişimli sinir ağlarının temel yapı taşları — evrişim katmanları (S-katmanları), havuzlama katmanları (C-katmanları), ağırlık paylaşımı (hücre düzlemleri), hiyerarşik özellik çıkarımı — tümüyle Neocognitron'da ilk kez bir arada formüle edilmiştir [2].
Neocognitron'dan modern derin öğrenmeye uzanan yol, birkaç kritik dönemeçten geçer. İlk durak, LeCun'un LeNet'idir (1989/1998): Neocognitron'un mimarisini koruyarak öğrenme algoritmasını değiştirmiştir (kendi kendine öğrenmeden geri yayılıma) [13][14]. İkinci durak, Krizhevsky, Sutskever ve Hinton'un AlexNet'idir (2012): LeNet'in mimari ilkelerini GPU hesaplama ve büyük veri (ImageNet) ile ölçeklendirmiş ve görüntü tanımada insanüstü performans göstermiştir [15]. Üçüncü durak, günümüzün ResNet (2015), VGGNet (2014), Inception (2015) gibi ultra-derin mimarileridir; bunlar, Neocognitron'un "daha derin katmanlar daha soyut özellikler çıkarır" ilkesini yüzlerce katmana taşımıştır [28].
Neocognitron olmadan, yapay zeka tarihinin tamamen farklı bir rota izleyeceğini söylemek tartışmalı olmakla birlikte güçlü bir argümandır. Evrişimli mimari, görüntü verisinin yapısına — yerellik, öteleme değişmezliği, hiyerarşik kompozisyon — doğal olarak uyan bir topolojidir ve er ya da geç birileri tarafından keşfedilecekti [18]. Ancak Fukushima'nın katkısı, bu keşfi en az bir on yıl öne çekmiş ve sonraki araştırmacılara somut bir mimari çerçeve sunmuştur.
5. Eleştirel Değerlendirme
Neocognitron'un tarihsel önemini teslim etmek, modelin sınırlılıklarını ve eleştirileri görmezden gelmek anlamına gelmemelidir.
Öğrenme Algoritmasının Sınırlılığı: Neocognitron'un en temel zayıflığı, kendi kendine öğrenme mekanizmasının performans açısından denetimli öğrenmeden belirgin biçimde geri kalmasıydı [6]. Fukushima'nın modeli, el yazısı rakam tanımada makul sonuçlar veriyordu, ancak daha karmaşık görsel görevlerde — gerçek dünya nesnelerinin tanınması, yüz tanıma, sahne analizi — yetersiz kalıyordu [13]. LeCun'un 1989'da geri yayılımı uyguladığında elde ettiği performans artışı, Neocognitron'un öğrenme algoritmasının pratik bir darboğaz olduğunu açıkça göstermiştir [13]. Bu durum, şu soruyu gündeme getirmektedir: Fukushima'nın mimari zekâsı, doğru öğrenme algoritmasıyla daha erken buluşabilseydi, derin öğrenme devrimi on yıl önce başlayabilir miydi?
Hesaplama Kısıtları: 1980'lerin bilgisayarları, Neocognitron'un potansiyelini tam olarak gerçekleştirmek için yetersizdi [6]. Model, yalnızca küçük görüntüler (tipik olarak 19×19 piksel) üzerinde çalışabiliyordu; büyük ölçekli görüntü tanıma, hesaplama kapasitesinin çok ötesindeydi [1]. GPU hesaplamanın yaygınlaşması (2000'ler) ve ImageNet gibi büyük ölçekli veri setlerinin oluşturulması (2009) için yaklaşık otuz yıl beklemek gerekecekti [15]. Bu gözlem, bir teknik yeniliğin zamanlamasının — sadece fikrin kendisinin değil, onu destekleyen altyapının olgunluğunun — başarıyı belirlemedeki rolünü vurgulamaktadır.
Biyolojik Gerçekçilik Tartışması: Neocognitron, Hubel ve Wiesel'in bulgularından esinlendiğini açıkça iddia etmiştir, ancak modelin biyolojik gerçekçiliği tartışmalıdır [22]. Gerçek görsel korteks, Neocognitron'un modellemediği pek çok mekanizma içerir: geri besleme bağlantıları (feedback connections), yanal inhibisyon (lateral inhibition), dikkat mekanizmaları, zamana bağlı kodlama ve çok daha karmaşık sinaptik dinamikler [22]. Boden (2006), Neocognitron gibi modellerin "biyolojik esinli" olmaktan çok "biyolojik olarak motive edilmiş metaforlar" olduğunu ve bu ayrımın epistemolojik açıdan önemli olduğunu savunmuştur [22]. Günümüzde, derin öğrenme modellerinin beynin gerçek işleyişini ne ölçüde yansıttığı hâlâ aktif bir araştırma sorusudur.
Tarihsel Tanınma Sorunu: Neocognitron'un tarihsel katkısı, uzun yıllar boyunca yeterince tanınmamıştır. CNN'lerin popüler tarihi genellikle LeCun'un LeNet'iyle başlatılır ve Fukushima'ya kısa bir dipnot olarak değinilir [2]. Schmidhuber (2015), bu durumu "Batı-merkezli tarih yazımı" olarak eleştirmiş ve Fukushima'nın "derin evrişimli sinir ağlarının mucidi" olarak tanınması gerektiğini savunmuştur [2]. Öte yandan bazı araştırmacılar, LeCun'un katkısının — geri yayılımla evrişimli ağları birleştirme — yalnızca bir "uygulama" değil, bağımsız bir "icat" niteliği taşıdığını ileri sürmüştür [14]. Bu tanınma tartışması, bilim tarihinde "ilk bulan" ile "ilk işe yaratan" arasındaki gerilimi yansıtmaktadır.
Rakip Yaklaşımlar: Neocognitron'un ortaya çıktığı dönemde, görsel tanıma için bağlantıcı olmayan alternatif yaklaşımlar da mevcuttu. David Marr'ın (1982) Vision kitabı, görsel algıyı hesaplamalı bir perspektiften ele almış ve "2.5-D taslak" (2.5-D sketch) gibi temsil düzeylerini önermiştir [29]. Marr'ın yaklaşımı, sinir ağlarından bağımsız, hesaplamalı bir çerçeveydi ve 1980'lerde bilgisayarlı görme alanında Neocognitron'dan daha etkili olmuştur [29]. Ayrıca, şablon eşleştirme (template matching), kenar algılama (edge detection) ve Fourier dönüşümü tabanlı yöntemler gibi geleneksel görüntü işleme teknikleri, pratik uygulamalarda uzun süre sinir ağı yaklaşımlarından daha başarılı kalmıştır [19].
6. Etik ve Toplumsal Boyutlar
Neocognitron'un 1980'deki ilk yayımı, doğrudan etik tartışmalara yol açmamıştır — model, laboratuvar ortamında küçük ölçekli bir akademik çalışmaydı ve toplumsal etkisi sınırlıydı [1]. Ancak Neocognitron'un temellerini attığı evrişimli sinir ağları paradigması, günümüzde derin etik soruları gündeme getirmektedir.
Gözetim ve Mahremiyet: Neocognitron'un hiyerarşik görsel tanıma ilkesi, bugünün yüz tanıma teknolojilerinin temelinde yatmaktadır [30]. Clearview AI gibi şirketlerin milyarlarca yüz fotoğrafını toplayarak kimlik tespiti yapması, Çin'in sosyal kredi sisteminde yüz tanımanın kullanılması ve demokratik ülkelerde bile polis güçlerinin protestoculara karşı yüz tanıma teknolojisini konuşlandırması, bu teknolojinin mahremiyet hakkı üzerindeki tehdit boyutunu göstermektedir [30]. Fukushima'nın 1980'de el yazısı rakam tanıma amacıyla geliştirdiği model, kırk yıl sonra kitlesel gözetim altyapısının yapı taşına dönüşmüştür.
Önyargı ve Ayrımcılık: Evrişimli sinir ağları, eğitim verilerindeki önyargıları sistematik biçimde yeniden üretmektedir [30]. Yüz tanıma sistemlerinin koyu tenli bireyleri ve kadınları daha yüksek hata oranlarıyla tanıdığı — Buolamwini ve Gebru'nun (2018) "Gender Shades" çalışmasıyla kanıtlanan bir bulgu — bu önyargının somut bir tezahürüdür [31]. Bu durum, teknik bir yeniliğin toplumsal sonuçlarının, geliştiricinin niyetinden bağımsız olarak ortaya çıkabileceğini göstermektedir.
Güç Yoğunlaşması: Derin öğrenme modellerinin eğitilmesi, muazzam hesaplama kaynakları ve büyük veri setleri gerektirmektedir [18]. Bu durum, yapay zeka kapasitesinin birkaç büyük teknoloji şirketinde — Google, Meta, Microsoft, Amazon — yoğunlaşmasına yol açmaktadır [30]. Neocognitron'un demokratik bir bilimsel ilke olarak başlayan hiyerarşik öğrenme fikri, pratik uygulamada güç asimetrisini derinleştiren bir teknolojiye dönüşmüştür.
Silah Sistemleri ve Askeri Kullanım: Evrişimli sinir ağlarının görüntü tanıma kapasitesi, otonom silah sistemlerinin geliştirilmesinde kritik bir bileşendir [19]. İnsansız hava araçlarının hedef tespiti, uydu görüntülerinin otomatik analizi ve savaş alanı farkındalık sistemleri, Neocognitron'un mimari mirasının askeri boyutlarıdır. Bu kullanımlar, "ikili kullanım" (dual-use) teknolojilerin etik değerlendirmesini zorunlu kılmaktadır.
7. Güncel Uygulamalar ve Miras
Neocognitron'un mimari ilkeleri, günümüzün en etkili yapay zeka teknolojilerinin temelini oluşturmaktadır.
Tıbbi Görüntüleme: Evrişimli sinir ağları, dermatolojide cilt kanseri tespitinde (Esteva ve ark., 2017), radyolojide akciğer nodülü sınıflandırmasında ve oftalmolojide diyabetik retinopati taramasında dermatologlara ve radyologlara eşdeğer veya üstün performans göstermektedir [32]. Bu uygulamalar, Neocognitron'un hiyerarşik özellik çıkarımı ilkesinin — düşük seviyeli piksel örüntülerinden yüksek seviyeli klinik bulgulara — doğrudan devamıdır.
Otonom Sürüş: Tesla, Waymo ve diğer otonom sürüş şirketleri, çevresel algılama için derin evrişimli ağlara dayanmaktadır [19]. Bu sistemlerin yayaları, araçları, trafik işaretlerini ve yol koşullarını gerçek zamanlı olarak tanıma kapasitesi, Neocognitron'un konum bağımsız nesne tanıma ilkesinin ölçeklendirilmiş bir uygulamasıdır.
Üretici Yapay Zeka: DALL-E, Midjourney ve Stable Diffusion gibi metinden görüntü üreten modeller, mimarilerinin önemli bir bölümünde evrişimli sinir ağı bileşenleri kullanmaktadır [18]. Bu sistemlerin görüntüleri anlama ve üretme kapasitesi, hiyerarşik özellik temsili ilkesine dayanmaktadır — Neocognitron'un tersten çalışan bir versiyonu olarak düşünülebilir.
Görüntü Dönüştürücüleri (Vision Transformers): 2020'lerden itibaren, Dosovitskiy ve arkadaşlarının (2020) Vision Transformer (ViT) modeli, evrişimli ağlara alternatif bir mimari olarak ortaya çıkmıştır [33]. ViT, dikkat mekanizmasını (attention mechanism) kullanarak görüntüleri evrişim yerine "yama" (patch) düzeyinde işlemektedir [33]. Bu gelişme, Neocognitron'un başlattığı evrişimli paradigmanın ötesine geçen yeni bir dönemi işaret etmekle birlikte, hiyerarşik özellik öğrenme ilkesini korumaktadır. Evrişimli ağlar ile dönüştürücülerin birleştirildiği hibrit mimariler (ConViT, CvT gibi), Neocognitron'un mirasının dönüşerek de olsa devam ettiğini göstermektedir.
Akademik Miras: Neocognitron, birden fazla araştırma geleneğinin doğuşuna katkıda bulunmuştur. Biyolojik esinli hesaplama (biologically inspired computing), nöromorifk mühendislik (neuromorphic engineering) ve hesaplamalı nörobilim (computational neuroscience) alanları, Neocognitron'un açtığı "beyinden makineye, makineden beyne" bilgi transferi çizgisinin devamıdır [6]. Ayrıca, "derin" mimarilerin yüzeysel mimarilerden neden daha güçlü olduğuna dair teorik araştırmalar — temsil teorisi (representation theory) — Neocognitron'un ortaya koyduğu hiyerarşik yapının matematiksel temellerini araştırmaktadır [17].
8. Bölüm Özeti
Kunihiko Fukushima'nın 1980'de tanıttığı Neocognitron, yapay zeka tarihinde sessiz ama devrimci bir dönüm noktasıdır. Model, Hubel ve Wiesel'in görsel korteks bulgularını yapay bir sinir ağına tercüme ederek, hiyerarşik özellik çıkarımı, konum bağımsız tanıma, ağırlık paylaşımı ve çok katmanlı bilgi işleme gibi ilkeleri ilk kez bir arada formüle etmiştir [1]. Bu ilkeler, bugünün derin öğrenme devriminin — LeCun'un LeNet'inden, Krizhevsky'nin AlexNet'ine, oradan ResNet, VGGNet ve günümüzün Vision Transformer'larına uzanan çizginin — mimari DNA'sını oluşturmaktadır [2].
Neocognitron'un hikâyesi, yapay zeka tarihinde birkaç önemli dersi somutlaştırmaktadır. Birincisi, paradigma değişimlerinin ana akımın dışında, beklenmedik coğrafyalarda ve kurumlarda filizlenebileceği — sinir ağlarının "öldüğü" bir dönemde Osaka'daki bir yayıncılık laboratuvarında doğan fikrin, otuz yıl sonra trilyonlarca dolarlık bir teknoloji ekosisteminin temelini oluşturması [1]. İkincisi, bir teknik yeniliğin doğru zamanlama ve destekleyici altyapı olmadan potansiyelini gerçekleştiremeyeceği — Neocognitron'un GPU'ları, büyük veri setlerini ve geri yayılım algoritmasını beklemesi gerektiği [15]. Üçüncüsü, biyolojik esinlenmenin yapay zeka araştırmaları için hem güçlü bir kaynak hem de yanıltıcı bir metafor olabileceği [22].
Bir sonraki bölümde, 1982 yılına geçerek yapay zekanın yeniden doğuş dönemini inceleyeceğiz: Japonya'nın Beşinci Nesil Bilgisayar Projesi'nin başlatılması, Hopfield ağlarının ortaya çıkışı ve Boltzmann Makinelerinin geliştirilmesi. Bu gelişmeler, Neocognitron'un temsil ettiği bağlantıcı paradigmanın — farklı yollardan ve farklı motivasyonlarla — nasıl genişlediğini ve 1980'lerin ortasındaki bağlantıcılık rönesansına nasıl zemin hazırladığını gösterecektir.
9. Kaynakça
1. Fukushima, K. (1980). Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position. Biological Cybernetics, 36(4), 193–202. https://doi.org/10.1007/BF00344251
2. Schmidhuber, J. (2015). Deep learning in neural networks: An overview. Neural Networks, 61, 85–117. https://doi.org/10.1016/j.neunet.2014.09.003
3. Searle, J. R. (1980). Minds, brains, and programs. Behavioral and Brain Sciences, 3(3), 417–424.
4. Minsky, M., & Papert, S. (1969). Perceptrons: An introduction to computational geometry. MIT Press.
5. Crevier, D. (1993). AI: The tumultuous history of the search for artificial intelligence. Basic Books.
6. Fukushima, K. (2007). Neocognitron. Scholarpedia, 2(1), 1717. https://doi.org/10.4249/scholarpedia.1717
7. LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. Nature, 521(7553), 436–444. https://doi.org/10.1038/nature14539
8. Fukushima, K. (1975). Cognitron: A self-organizing multilayered neural network. Biological Cybernetics, 20(3–4), 121–136. https://doi.org/10.1007/BF00342633
9. Fukushima, K. (1988). Neocognitron: A hierarchical neural network capable of visual pattern recognition. Neural Networks, 1(2), 119–130.
10. Hubel, D. H., & Wiesel, T. N. (1959). Receptive fields of single neurones in the cat's striate cortex. The Journal of Physiology, 148(3), 574–591.
11. Hubel, D. H., & Wiesel, T. N. (1962). Receptive fields, binocular interaction and functional architecture in the cat's visual cortex. The Journal of Physiology, 160(1), 106–154.
12. Rosenblatt, F. (1958). The perceptron: A probabilistic model for information storage and organization in the brain. Psychological Review, 65(6), 386–408.
13. LeCun, Y., Boser, B., Denker, J. S., Henderson, D., Howard, R. E., Hubbard, W., & Jackel, L. D. (1989). Backpropagation applied to handwritten zip code recognition. Neural Computation, 1(4), 541–551.
14. LeCun, Y., Bottou, L., Bengio, Y., & Haffner, P. (1998). Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11), 2278–2324.
15. Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). ImageNet classification with deep convolutional neural networks. Advances in Neural Information Processing Systems, 25, 1097–1105.
16. Hinton, G. E., Osindero, S., & Teh, Y.-W. (2006). A fast learning algorithm for deep belief nets. Neural Computation, 18(7), 1527–1554.
17. Bengio, Y. (2009). Learning deep architectures for AI. Foundations and Trends in Machine Learning, 2(1), 1–127.
18. Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep learning. MIT Press.
19. Russell, S., & Norvig, P. (2021). Artificial intelligence: A modern approach (4. baskı). Pearson.
20. Nilsson, N. J. (2010). The quest for artificial intelligence: A history of ideas and achievements. Cambridge University Press.
21. McCorduck, P. (2004). Machines who think: A personal inquiry into the history and prospects of artificial intelligence (2. baskı). A K Peters.
22. Boden, M. A. (2006). Mind as machine: A history of cognitive science. Oxford University Press.
23. Nabiyev, V. V. (2021). Yapay zeka: İnsan-bilgisayar etkileşimi (6. baskı). Seçkin Yayıncılık.
24. Alpaydın, E. (2020). Introduction to machine learning (4. baskı). MIT Press.
25. McCulloch, W. S., & Pitts, W. (1943). A logical calculus of the ideas immanent in nervous activity. Bulletin of Mathematical Biophysics, 5(4), 115–133.
26. Hebb, D. O. (1949). The organization of behavior: A neuropsychological theory. Wiley.
27. Rumelhart, D. E., McClelland, J. L., & PDP Research Group. (1986). Parallel distributed processing: Explorations in the microstructure of cognition. MIT Press.
28. He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep residual learning for image recognition. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 770–778.
29. Marr, D. (1982). Vision: A computational investigation into the human representation and processing of visual information. W. H. Freeman.
30. Crawford, K. (2021). Atlas of AI: Power, politics, and the planetary costs of artificial intelligence. Yale University Press.
31. Buolamwini, J., & Gebru, T. (2018). Gender shades: Intersectional accuracy disparities in commercial gender classification. Proceedings of the 1st Conference on Fairness, Accountability and Transparency, 77–91.
32. Esteva, A., Kuprel, B., Novoa, R. A., Ko, J., Swetter, S. M., Blau, H. M., & Thrun, S. (2017). Dermatologist-level classification of skin cancer with deep neural networks. Nature, 542(7639), 115–118.
33. Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., ... & Houlsby, N. (2021). An image is worth 16x16 words: Transformers for image recognition at scale. International Conference on Learning Representations.
10. Tartışma Soruları
1. Analitik: Neocognitron'un kendi kendine öğrenme (unsupervised learning) mekanizması yerine geri yayılım (backpropagation) tabanlı denetimli öğrenme kullanılsaydı, model 1980'de derin öğrenme devrimini başlatabilir miydi? Yoksa hesaplama kapasitesi ve veri yetersizliği bunu engelleyecek olan asıl darboğaz muydu?
2. Karşılaştırmalı: Fukushima'nın Neocognitron'u ile David Marr'ın aynı dönemde geliştirdiği hesaplamalı görme (computational vision) çerçevesi arasındaki temel farkları karşılaştırınız. Her iki yaklaşım da görsel algıyı modelliyor, ancak benimsedikleri stratejiler nasıl farklılaşıyor?
3. Spekülatif: Minsky ve Papert'in 1969'daki Perceptrons kitabı yayımlanmamış olsaydı — yani sinir ağı araştırmaları dondurulmamış olsaydı — Neocognitron daha erken geliştirilir ve daha erken tanınır mıydı? Yoksa Perceptrons eleştirisi, paradoks biçimde, daha sağlam çok katmanlı modellerin geliştirilmesini teşvik mi etmiştir?
4. Etik: Neocognitron'un hiyerarşik görsel tanıma ilkesi, bugün yüz tanıma ve kitlesel gözetim teknolojilerinin temelini oluşturmaktadır. Bir teknik yeniliğin öngörülemez toplumsal sonuçlarından, orijinal geliştiricisi ne ölçüde sorumlu tutulabilir? Bilimsel sorumluluk, yalnızca niyetle mi yoksa sonuçlarla mı ölçülmelidir?
5. Güncel: Vision Transformer (ViT) gibi dikkat mekanizması (attention mechanism) tabanlı modeller, evrişimli sinir ağlarının yerini alabilir mi? Yoksa Neocognitron'un temellerini attığı evrişimli mimari, görsel tanımanın vazgeçilmez bir bileşeni olarak kalacak mıdır?
6. Karşılaştırmalı: Neocognitron Japonya'da, Perceptron ABD'de geliştirilmiştir. Farklı ülkelerin bilimsel ekosistemlerinin — fonlama yapıları, kurumsal kültürler, ana akım paradigmalara mesafe — araştırma çıktılarını nasıl şekillendirdiğini tartışınız.
7. Analitik: Schmidhuber (2015), Fukushima'nın tarihsel katkısının sistematik olarak küçümsendiğini savunmaktadır. Bilim tarihinde "ilk bulan" (Fukushima/Neocognitron) ile "ilk işe yaratan" (LeCun/LeNet) arasındaki gerilim nasıl değerlendirilmelidir? Hangi katkı daha "önemli"dir ve bu sorunun tek bir doğru yanıtı var mıdır?
8. Spekülatif: Evrişimli sinir ağları, insan görsel korteksinin hiyerarşik yapısından esinlenmiştir. Peki, insan beyninin başka bilişsel mekanizmalarından — örneğin hipokampüsün mekansal haritalamasından, prefrontal korteksin çalışma belleğinden veya beyinciğin motor öğrenmesinden — esinlenerek hangi yeni yapay zeka mimarileri geliştirilebilir?
9. Etik: Derin evrişimli sinir ağlarının eğitilmesi, büyük miktarda enerji ve hesaplama kaynağı gerektirmektedir. Neocognitron'un başlattığı paradigmanın çevresel maliyeti göz önüne alındığında, "daha derin, daha büyük modeller" yaklaşımı sürdürülebilir midir? Alternatif yaklaşımlar (nöromorifk çipler, seyrek ağlar) Neocognitron'un orijinal biyolojik esinlenme vizyonuna daha mı yakındır?
10. Güncel: Neocognitron'un kendi kendine öğrenme yaklaşımı, 1980'de geri yayılıma yenilmiştir. Ancak günümüzde denetimsiz ve öz-denetimli öğrenme (self-supervised learning) yöntemleri — BERT, GPT, SimCLR gibi modellerin kullandığı — büyük bir rönesans yaşamaktadır. Fukushima'nın orijinal vizyonu, kırk yıl sonra farklı bir biçimde haklı mı çıkmaktadır?