AlexNet ve Derin Öğrenmenin Yeniden Doğuşu
AlexNet'in ImageNet yarışmasındaki zaferi ve derin öğrenme devriminin başlangıcı.
1. Giriş
30 Eylül 2012'de, bilgisayarla görme (computer vision) alanının en prestijli yarışması olan ImageNet Large Scale Visual Recognition Challenge (ILSVRC) sonuçları açıklandığında, akademik camia şok yaşadı. Toronto Üniversitesi'nden Alex Krizhevsky, Ilya Sutskever ve Geoffrey Hinton'ın geliştirdiği "AlexNet" adlı derin evrişimli sinir ağı (deep convolutional neural network), görüntü sınıflandırma görevinde %15,3 hata oranıyla birinciliği kazanmıştı [1]. Bu rakam, ikinci sıradaki geleneksel bilgisayarla görme sisteminin %26,2'lik hata oranından yüzde on puandan fazla düşüktü [1]. Fark o denli büyüktü ki, yarışmanın organizatörlerinden Fei-Fei Li bile bu sonuçları ilk gördüğünde bir hata olduğundan şüphelenmişti [2]. AlexNet, yapay zekâ tarihinde bir kırılma noktası — derin öğrenmenin (deep learning) onlarca yıllık akademik marjinallikten çıkıp küresel teknoloji devriminin merkezine oturmasının başlangıcı — olarak yerini almıştır.
Bu bölümün ele aldığı hikâye, yalnızca tek bir yarışma başarısının değil, on yılları kapsayan bir entelektüel maceranın doruk noktasıdır. Kitabımızın 23. bölümünde incelediğimiz Fukushima'nın 1980 tarihli Neocognitron'undan [3], 25. bölümde ele aldığımız geri yayılım algoritmasının yükselişi ve çöküşünden [4], 1990'lardaki YZ kışına ve 2000'lerin sessiz ama kararlı hazırlık dönemine uzanan çizgide AlexNet, birikmiş enerjinin patlama anını temsil etmektedir. Üç kritik gelişmenin — devasa etiketli veri kümelerinin (ImageNet), ucuz ve güçlü paralel hesaplama donanımının (GPU'lar) ve algoritmik yeniliklerin (ReLU, dropout, veri artırma) — aynı anda olgunlaşması, bu patlamayı mümkün kılmıştır [5].
2012 öncesinde bilgisayarla görme alanı, elle tasarlanmış özellik çıkarıcılar (hand-crafted feature extractors) ve geleneksel makine öğrenmesi sınıflandırıcıları üzerine kuruluydu [6]. SIFT (Scale-Invariant Feature Transform), HOG (Histogram of Oriented Gradients) gibi algoritmalar ve bunların üzerine inşa edilen SVM (Support Vector Machine), Random Forest gibi sınıflandırıcılar, alanın standart araç setini oluşturuyordu [6]. Bu yaklaşım, araştırmacıların alan bilgisini (domain knowledge) doğrudan sisteme kodlamasını gerektiriyordu ve her yeni problem için özellik mühendisliği (feature engineering) sürecinin baştan yapılması gerekiyordu. AlexNet, bu paradigmayı kökünden sarsarak, uçtan uca öğrenme (end-to-end learning) fikrini — ham pikselden sınıf etiketine kadar tüm temsillerin otomatik olarak veriden öğrenilmesini — ana akıma taşımıştır [1].
Bu bölüm, AlexNet'in teknik yeniliklerini, arkasındaki aktörleri, dönemin bilimsel iklimini ve bu çalışmanın yapay zekâ tarihindeki devasa etkisini çok boyutlu biçimde analiz edecektir. Bir sonraki bölümde ele alacağımız Neural Turing Machines ve bellek-artırılmış sinir ağlarına giden yolun, AlexNet'in açtığı derin öğrenme çağı olmadan mümkün olmayacağını göreceğiz.
2. Literatür Taraması
AlexNet'in anlamını kavramak için, evrişimli sinir ağlarının (convolutional neural networks, CNN) entelektüel soyağacını ve 2012 sonrasında oluşan devasa literatürü sistematik biçimde taramak gerekmektedir.
Krizhevsky, Sutskever ve Hinton'ın (2012) orijinal makalesi, NIPS (Neural Information Processing Systems) konferansında yayımlanmış ve yapay zekâ tarihinin en çok atıf alan çalışmalarından biri haline gelmiştir [1]. Makale, beş evrişimli katman ve üç tam bağlantılı katmandan oluşan derin mimariyi, ReLU (Rectified Linear Unit) aktivasyon fonksiyonunu, dropout düzenlileştirme tekniğini ve çift GPU eğitim stratejisini ayrıntılarıyla açıklamaktadır [1]. Bu çalışma, derin öğrenmenin "yeniden doğuş" anı olarak kabul edilen seminal bir metindir.
AlexNet'in teknik temellerinin en önemli öncüsü, LeCun, Bottou, Bengio ve Haffner'in (1998) Proceedings of the IEEE dergisinde yayımladığı "Gradient-Based Learning Applied to Document Recognition" başlıklı makaledir [7]. LeNet-5 adıyla bilinen bu evrişimli sinir ağı, el yazısı rakam tanıma görevinde evrişim, alt örnekleme (subsampling) ve geri yayılım (backpropagation) prensiplerini başarıyla uygulamış ve CNN mimarisinin temel şablonunu oluşturmuştur [7]. LeCun'un çalışması, posta kodlarının otomatik okunması gibi endüstriyel uygulamalara da yol açmıştır; ancak 1990'ların sonunda SVM'lerin yükselişiyle birlikte sinir ağları geçici olarak gözden düşmüştür [8].
Deng, Dong, Socher, Li, Li ve Fei-Fei'nin (2009) ImageNet veri kümesini tanıtan çalışması, AlexNet'in başarısını mümkün kılan en kritik altyapı katkılarından biridir [2]. ImageNet, 1.000'den fazla kategoride 1,2 milyonun üzerinde etiketli görüntü içeren devasa bir veri kümesidir ve WordNet hiyerarşisine dayalı anlamsal yapısıyla derin öğrenme araştırmaları için benzersiz bir kaynak oluşturmuştur [2]. ILSVRC yarışması, bu veri kümesi üzerinde düzenlenerek, bilgisayarla görme alanında standart bir kıyaslama platformu haline gelmiştir.
Hinton, Osindero ve Teh'in (2006) Neural Computation dergisindeki "A Fast Learning Algorithm for Deep Belief Nets" makalesi, derin öğrenmenin 2000'lerdeki yeniden canlanmasının entelektüel kıvılcımıdır [9]. Bu çalışma, katmanlı ön eğitim (greedy layer-wise pretraining) yöntemiyle derin ağların etkili biçimde eğitilebileceğini göstermiş ve "derin öğrenme" teriminin yaygınlaşmasına zemin hazırlamıştır [9]. Hinton'ın bu çalışması, sinir ağlarına olan akademik ilgiyi yeniden ateşlemiş ve AlexNet'e giden yolun entelektüel altyapısını kurmuştur.
Bengio, Courville ve Vincent (2013), IEEE Transactions on Pattern Analysis and Machine Intelligence dergisindeki kapsamlı derlemelerinde, temsil öğrenme (representation learning) kavramını sistematize etmişlerdir [10]. Bu derleme, derin öğrenmenin başarısının temelinde yatan fikri — ham veriden hiyerarşik ve soyut temsillerin otomatik olarak öğrenilmesini — kuramsal bir çerçeveye oturtmuştur [10].
Hinton, Srivastava, Krizhevsky, Sutskever ve Salakhutdinov'un (2012) dropout tekniğini tanıtan çalışması, AlexNet'in başarısının en önemli bileşenlerinden birini açıklamaktadır [11]. Dropout, eğitim sırasında nöronların rastgele olarak devre dışı bırakılmasıyla aşırı uyumu (overfitting) engelleyen bir düzenlileştirme (regularization) tekniğidir [11]. Bu yöntem, derin ağların genelleme kapasitesini dramatik biçimde artırmıştır.
Nair ve Hinton'ın (2010) ICML konferansında sunduğu çalışma, ReLU (Rectified Linear Unit) aktivasyon fonksiyonunun derin ağlardaki eğitim hızını artırdığını deneysel olarak göstermiştir [12]. ReLU'nun sigmoid ve tanh gibi doyurucu (saturating) fonksiyonlara göre avantajları — özellikle kaybolan gradyan (vanishing gradient) problemini hafifletmesi — AlexNet'in derin mimarisinin eğitilebilmesinde kritik bir rol oynamıştır [12].
Russakovsky ve ekibinin (2015) ILSVRC yarışmasının kapsamlı değerlendirmesini sunan makalesi, AlexNet'in yarışma bağlamındaki etkisini ve sonraki yıllardaki gelişmeleri sistematik biçimde belgelemiştir [13]. Bu çalışma, 2012'den itibaren derin öğrenme tabanlı yöntemlerin yarışmaya tamamen hâkim olduğunu göstermektedir [13].
LeCun, Bengio ve Hinton'ın (2015) Nature dergisindeki ortak derlemesi, derin öğrenmenin genel bir çerçevesini sunarak alanın üç kurucu figürünün perspektifini bir araya getirmiştir [14]. Bu makale, AlexNet'in başarısını derin öğrenmenin genel tarihsel gelişimi içinde konumlandırmış ve alanın geleceğine ilişkin öngörülerde bulunmuştur [14].
Goodfellow, Bengio ve Courville'in (2016) Deep Learning ders kitabı, derin öğrenmenin matematiksel temellerini kapsamlı biçimde açıklayan temel bir referans kaynağıdır [5]. Bu kitap, AlexNet'in teknik bileşenlerinin — evrişim, havuzlama, dropout, veri artırma — kuramsal arka planını anlamak için vazgeçilmez bir kaynaktır.
Schmidhuber'in (2015) Neural Networks dergisindeki kapsamlı tarihsel derlemesi, derin öğrenmenin kökenlerini 1960'lara kadar izleyerek AlexNet'in entelektüel öncüllerini geniş bir perspektifle ele almıştır [15]. Schmidhuber, derin öğrenmenin "yeniden doğuş" söyleminin abartılı olabileceğini ve alandaki sürekliliğin daha fazla vurgulanması gerektiğini savunmuştur [15].
Türkçe akademik literatürde, Nabiyev'in (2021) Yapay Zekâ ders kitabı, derin öğrenme ve evrişimli sinir ağlarını genel YZ tarihi çerçevesinde ele almıştır [16]. Ayrıca Budak ve Ünal'ın (2021) Türkçe derleme çalışması, derin öğrenmenin bilgisayarla görme alanındaki uygulamalarını Türkiye bağlamında değerlendirmiştir [17].
3. Tarihsel ve Teorik Arka Plan
3a. Evrişimli Sinir Ağlarının Entelektüel Soyağacı
AlexNet'in teknik kökenleri, biyolojik görme sistemlerinin nörobilimsel keşiflerine kadar uzanmaktadır. Hubel ve Wiesel'in (1962) Nobel ödüllü araştırmaları, kedi görme korteksinde "basit hücreler" (simple cells) ve "karmaşık hücreler" (complex cells) adını verdikleri iki tür nöron keşfetmişti [18]. Basit hücreler belirli yönlerdeki kenarları algılarken, karmaşık hücreler bu algılamayı konumdan bağımsız hale getiriyordu [18]. Bu hiyerarşik yapı — basit özelliklerden karmaşık temsillere doğru ilerleyen işleme — evrişimli sinir ağlarının temel ilham kaynağı olmuştur.
Kitabımızın 23. bölümünde ayrıntılı biçimde ele aldığımız üzere, Fukushima (1980) Neocognitron modeliyle bu biyolojik yapıyı yapay sinir ağlarına uyarlamıştı [3]. Neocognitron, S-katmanları (basit hücrelere karşılık gelen evrişimsel katmanlar) ve C-katmanları (karmaşık hücrelere karşılık gelen havuzlama katmanları) ile hiyerarşik özellik çıkarımı gerçekleştiriyordu [3]. Ancak Neocognitron, öğretmensiz öğrenme mekanizması kullandığından ve geri yayılım algoritmasıyla eğitilmediğinden, performansı sınırlı kalmıştı.
Evrişimli sinir ağlarının modern formunu Yann LeCun şekillendirdi. LeCun ve ekibi, 1989'da geri yayılım algoritmasıyla eğitilen evrişimli ağları el yazısı posta kodu tanıma görevinde başarıyla uyguladı [19]. Bu çalışma 1998'de LeNet-5 mimarisiyle olgunlaştı [7]. LeNet-5, evrişim katmanları, alt örnekleme (havuzlama) katmanları ve tam bağlantılı katmanlardan oluşan yapısıyla, AlexNet'in doğrudan mimari öncüsüdür [7]. ABD Posta Servisi, LeNet tabanlı sistemi yıllar boyunca çek ve zarf okuma işlemlerinde kullanmıştır [7].
3b. YZ Kışından Sessiz Hazırlığa: 1990'lar ve 2000'ler
1990'ların ortasından itibaren sinir ağları araştırmaları ciddi bir durgunluk dönemine girdi. Bu durgunluğun birden fazla nedeni vardı. İlk olarak, Vapnik'in (1995) geliştirdiği Destek Vektör Makineleri (SVM), güçlü teorik temelleri ve küçük veri kümelerindeki üstün performansıyla sinir ağlarının yerine geçti [8]. İkinci olarak, derin sinir ağlarının eğitimi, kaybolan gradyan problemi nedeniyle son derece zordu — geri yayılım sırasında gradyanlar derin katmanlara ulaşamadan sıfıra yaklaşıyordu [20]. Üçüncü olarak, dönemin hesaplama kapasitesi ve veri mevcudiyeti, derin ağların potansiyelini gerçekleştirmek için yetersizdi [5].
Bu kış döneminde, Geoffrey Hinton ve birkaç araştırmacı sinir ağları üzerinde çalışmaya devam etti. Hinton, Toronto Üniversitesi'ndeki küçük ama kararlı grubunda, derin ağların eğitimi sorunu üzerine çalışıyordu [9]. 2006'da yayımladığı "Deep Belief Nets" çalışması, katmanlı ön eğitim yöntemiyle derin ağların etkili biçimde eğitilebileceğini göstererek, alandaki buzları kırdı [9]. Bu çalışma, "derin öğrenme" teriminin yükselişini başlattı ve sinir ağlarına olan akademik ilgiyi yeniden canlandırdı [9].
3c. Üç Kritik Altyapı Gelişmesi
AlexNet'in 2012 başarısı, üç bağımsız gelişmenin aynı anda olgunlaşmasıyla mümkün olmuştur:
Büyük Veri: ImageNet. Fei-Fei Li ve ekibinin 2009'da yayımladığı ImageNet veri kümesi, 14 milyonun üzerinde etiketli görüntüyle derin ağların ihtiyaç duyduğu büyük ölçekli eğitim verisini sağlamıştır [2]. ILSVRC yarışması, bu veri kümesinin 1.000 kategorisini içeren bir alt kümesiyle düzenlenmekteydi [2]. ImageNet, derin öğrenmenin "yakıtı" rolünü üstlenmiştir — geniş ve çeşitli veri olmadan, derin ağların karmaşık temsilleri öğrenmesi mümkün değildi.
Paralel Hesaplama: GPU'lar. NVIDIA'nın grafik işleme birimleri (GPU), oyun endüstrisi için tasarlanmış olmakla birlikte, matris çarpımları ve paralel hesaplama için son derece uygun bir mimariye sahipti [21]. NVIDIA'nın 2007'de piyasaya sürdüğü CUDA (Compute Unified Device Architecture) platformu, GPU'ları genel amaçlı hesaplama için programlanabilir hale getirdi [21]. AlexNet, iki adet NVIDIA GTX 580 GPU üzerinde eğitilmiştir — bu, CPU tabanlı eğitime göre onlarca kat hız artışı sağlamıştır [1].
Algoritmik Yenilikler. ReLU aktivasyon fonksiyonu [12], dropout düzenlileştirmesi [11] ve veri artırma (data augmentation) teknikleri [1], derin ağların eğitimini hem hızlandırmış hem de genelleme kapasitesini artırmıştır. Bu yenilikler, bireysel olarak mütevazı görünse de, birlikte kullanıldığında dönüştürücü bir etki yaratmıştır.
4. Ana Konu Analizi
4a. AlexNet'in Mimari Yapısı ve Teknik Yenilikleri
AlexNet, sekiz öğrenilebilir katmandan oluşan bir derin evrişimli sinir ağıdır: beş evrişimli (convolutional) katman ve üç tam bağlantılı (fully connected) katman [1]. Toplam yaklaşık 60 milyon parametreye sahiptir [1]. Model, 224×224 piksellik RGB görüntüleri girdi olarak alır ve 1.000 kategori üzerinde olasılık dağılımı üretir [1].
ReLU Aktivasyon Fonksiyonu. AlexNet'in en etkili yeniliklerinden biri, sigmoid ve tanh gibi geleneksel aktivasyon fonksiyonları yerine ReLU (f(x) = max(0, x)) kullanmasıdır [1]. ReLU'nun iki kritik avantajı vardır: Birincisi, pozitif değerler için gradyanı sabit (1) olduğundan, kaybolan gradyan problemini büyük ölçüde hafifletir [12]. İkincisi, hesaplama açısından son derece verimlidir — üstel fonksiyon hesaplaması gerektirmez [12]. Krizhevsky ve ekibi, ReLU kullanarak derin ağlarını sigmoid kullanılan muadillerine göre altı kat daha hızlı eğittiklerini raporlamışlardır [1].
Dropout. Aşırı uyumu (overfitting) önlemek için kullanılan dropout tekniği, eğitim sırasında her ileri geçişte (forward pass) nöronların belirli bir olasılıkla (AlexNet'te %50) rastgele devre dışı bırakılmasını içerir [11]. Bu, ağın herhangi bir tek nöron grubuna aşırı bağımlı olmasını engeller ve her alt ağın kendi başına anlamlı özellikler öğrenmesini zorlar [11]. Hinton, dropout'un biyolojik motivasyonunu, cinsel üreme sürecindeki gen karışımına benzetmiştir — her nesilde genlerin yarısının rastgele seçilmesi, hiçbir genin tek başına baskın olmasını engeller [11].
Veri Artırma. AlexNet, eğitim verisini yapay olarak çoğaltmak için iki teknik kullanmıştır [1]. İlk olarak, 256×256 piksellik görüntülerden rastgele 224×224 piksellik kesitler alınmış ve yatay ayna görüntüleri oluşturulmuştur [1]. İkinci olarak, RGB renk kanalları üzerinde Temel Bileşenler Analizi (PCA) tabanlı renk düzeltmesi uygulanmıştır [1]. Bu teknikler, eğitim veri kümesinin etkin boyutunu büyük ölçüde artırarak aşırı uyumu azaltmıştır.
Yerel Yanıt Normalleştirme (LRN). AlexNet, biyolojik yanal inhibisyondan (lateral inhibition) esinlenen yerel yanıt normalleştirme katmanları kullanmıştır [1]. LRN, bir nöronun aktivasyonunu komşu nöronların aktivasyonlarına göre normalleştirir [1]. Ancak sonraki araştırmalar, LRN'nin etkisinin sınırlı olduğunu ve toplu normalleştirmenin (batch normalization) çok daha etkili bir alternatif olduğunu göstermiştir [22].
Çift GPU Eğitim. Dönemin GPU bellek kısıtlamaları (GTX 580'in 3 GB belleği) nedeniyle, AlexNet iki GPU arasında bölünmüş biçimde eğitilmiştir [1]. Her GPU, evrişimli katmanların yarısını barındırıyordu ve GPU'lar yalnızca belirli katmanlarda birbirleriyle iletişim kuruyordu [1]. Bu mimari kısıt, ilginç biçimde bir tür düzenlileştirme etkisi de yaratmıştır — her GPU farklı türde özellikler öğrenme eğilimi göstermiştir [1].
4b. Kilit Aktörler ve Katkıları
Geoffrey Hinton. AlexNet hikâyesinin merkezinde, "derin öğrenmenin babası" olarak anılan Geoffrey Hinton yer almaktadır [14]. İngiliz doğumlu, Kanada'da çalışan Hinton, 1980'lerden itibaren sinir ağları üzerine çalışmalarıyla tanınmaktadır. Boltzmann makineleri, geri yayılım algoritmasının popülerleştirilmesi ve derin inanç ağları (deep belief nets) gibi katkılarıyla, derin öğrenmenin entelektüel altyapısını kurmuştur [9]. Hinton, YZ kışının en karanlık dönemlerinde bile sinir ağlarına olan inancını sürdürmüş ve Toronto Üniversitesi'ndeki laboratuvarını alanın en üretken merkezlerinden biri haline getirmiştir [14]. AlexNet'in başarısı, Hinton'ın on yıllarca süren entelektüel yatırımının meyvesidir.
Alex Krizhevsky. Ukrayna doğumlu, Kanada'da eğitim gören Krizhevsky, Hinton'ın doktora öğrencisi olarak AlexNet'in teknik implementasyonunun büyük bölümünü gerçekleştirmiştir [1]. GPU programlama konusundaki ustalığı, CUDA tabanlı evrişimli sinir ağı kütüphanesinin ("cuda-convnet") geliştirilmesinde kritik rol oynamıştır [1]. Krizhevsky'nin mühendislik becerisi, teorik fikirleri çalışan bir sisteme dönüştürmüştür.
Ilya Sutskever. Hinton'ın bir diğer öğrencisi olan Sutskever, AlexNet'in eğitim prosedürünün tasarlanmasına ve hiperparametre optimizasyonuna katkıda bulunmuştur [1]. Sutskever, daha sonra OpenAI'ın kurucu üyesi ve baş bilimcisi olacak ve GPT serisi büyük dil modellerinin geliştirilmesinde kilit bir rol oynayacaktır [14]. AlexNet, Sutskever'in kariyerindeki bir sıçrama noktası olmuştur.
Fei-Fei Li ve ImageNet Ekibi. AlexNet'in başarısı, Fei-Fei Li'nin liderliğinde geliştirilen ImageNet veri kümesi olmadan mümkün olmazdı [2]. Stanford Üniversitesi'ndeki Li, 2007'den itibaren internet üzerinden toplanan milyonlarca görüntüyü Amazon Mechanical Turk çalışanları aracılığıyla etiketleterek, tarihin en büyük görsel veri kümelerinden birini inşa etmiştir [2]. Li'nin vizyonu — büyük veri kümelerinin yapay zekâ araştırmalarını dönüştüreceği inancı — döneminde birçok meslektaşı tarafından şüpheyle karşılanmış ancak AlexNet ile parlak biçimde doğrulanmıştır [2].
4c. Dönem İçindeki Yeri: Bir Paradigma Kayması
AlexNet'in ILSVRC 2012 sonuçları, bilgisayarla görme camiasında bir paradigma kaymasının tetikleyicisi olmuştur [13]. 2012 öncesinde ILSVRC yarışmasında birinci olan sistemlerin tamamı, elle tasarlanmış özellik çıkarıcılar ve geleneksel sınıflandırıcılar kullanıyordu [13]. AlexNet'in ardından, 2013'ten itibaren yarışmayı kazanan tüm sistemler derin öğrenme tabanlı olmuştur [13]. Bu geçiş, yalnızca teknik bir tercih değişikliği değil, araştırma paradigmasının köklü biçimde dönüşmesiydi: araştırmacılar artık özellik tasarlamak yerine, ağ mimarisi tasarlamaya ve büyük veri kümeleriyle eğitim yapmaya yönelmişlerdir [5].
Bu paradigma kayması, endüstriyi de hızla etkilemiştir. Google, 2013'te Hinton'ın kurduğu DNN Research şirketini satın almıştır [14]. Facebook, 2013'te Yann LeCun'u yapay zekâ araştırma laboratuvarının (FAIR) başına getirmiştir [14]. Baidu, Microsoft, Amazon gibi teknoloji devleri, derin öğrenme laboratuvarları kurmuş ve yapay zekâ araştırmalarına milyarlarca dolar yatırım yapmıştır [5]. AlexNet, akademik bir keşfin endüstriyel dönüşüme dönüşmesinin en çarpıcı örneklerinden biri olmuştur.
4d. Genel YZ Tarihindeki Yeri: Derin Öğrenme Çağının Başlangıcı
AlexNet, yapay zekâ tarihinde bir çağ açmıştır. Bu çalışmadan sonra gelen gelişmeler — ZFNet (2013) [23], VGGNet (2014) [24], GoogLeNet/Inception (2014) [25], ResNet (2015) [26] — AlexNet'in başlattığı derin öğrenme devriminin doğrudan uzantılarıdır. Özellikle He ve ekibinin (2016) geliştirdiği ResNet, artık bağlantılar (residual connections) ile 152 katmanlık ağların eğitilmesini mümkün kılmış ve ILSVRC 2015'te insan düzeyinin (%5,1) altında bir hata oranına (%3,57) ulaşmıştır [26].
AlexNet'in etkisi bilgisayarla görmenin çok ötesine taşmıştır. Derin öğrenme yaklaşımı, doğal dil işleme, konuşma tanıma, robot kontrolü, ilaç keşfi, protein yapısı tahmini ve daha pek çok alana yayılmıştır [14]. DeepMind'ın AlphaGo'su (2016), OpenAI'ın GPT serisi (2018-2024) ve Google DeepMind'ın AlphaFold'u (2020) gibi çığır açan sistemlerin hepsi, AlexNet'in başlattığı derin öğrenme çağının ürünleridir [14].
5. Eleştirel Değerlendirme
AlexNet'in başarısı tartışılmaz olmakla birlikte, bu çalışmaya ve derin öğrenme devrimine yönelik önemli eleştiriler ve tartışmalar mevcuttur.
Yenilik mi, Ölçek mi? Bazı araştırmacılar, AlexNet'in temel teknik bileşenlerinin — evrişimli ağlar, geri yayılım, GPU hesaplama — zaten bilinmekte olduğunu ve asıl başarının bu bileşenleri büyük ölçekte birleştirmekten kaynaklandığını ileri sürmüşlerdir [15]. Schmidhuber (2015), derin öğrenmenin "yeniden icadı" anlatısının, önceki katkıları — özellikle kendi çalışmalarını — yeterince tanımadığını eleştirmiştir [15]. Bu tartışma, bilimsel kredi dağılımı ve "keşif mi, mühendislik mi" ayrımı konusunda önemli sorular gündeme getirmiştir.
Açıklanabilirlik Sorunu. Derin sinir ağlarının karar verme süreçlerinin "kara kutu" (black box) niteliğinde olması, AlexNet'in başarısından bu yana süregelen ciddi bir eleştiri konusudur [27]. Geleneksel makine öğrenmesi yöntemlerinde — örneğin karar ağaçlarında — modelin kararları görece kolaylıkla yorumlanabilirken, milyonlarca parametreli derin ağların neden belirli bir sınıflandırma yaptığını anlamak son derece güçtür [27]. Bu durum, tıbbi teşhis, hukuki karar verme ve otonom araçlar gibi yüksek riskli uygulamalarda ciddi endişelere yol açmıştır.
Hesaplama Maliyeti ve Enerji Tüketimi. AlexNet'in açtığı yolda geliştirilen giderek daha büyük modeller, devasa hesaplama kaynakları gerektirmektedir [28]. Bu durum, derin öğrenme araştırmalarını büyük ölçüde zengin üniversitelere ve teknoloji şirketlerine sınırlamış, küçük laboratuvarlar ve gelişmekte olan ülkelerdeki araştırmacılar aleyhine bir eşitsizlik yaratmıştır [28]. Strubell, Ganesh ve McCallum (2019), büyük modellerin eğitiminin karbon ayak izini hesaplayarak çevresel sürdürülebilirlik endişelerini gündeme getirmişlerdir [28].
Veri Bağımlılığı ve Önyargı. AlexNet'in başarısı büyük etiketli veri kümelerine bağlıdır, ancak bu veri kümelerinin kendisi önyargılardan (bias) muaf değildir [29]. ImageNet, belirli kültürel ve coğrafi bağlamlarda toplanan görüntüler içermekte olup, bu durum eğitilen modellerin belirli grupları daha iyi tanırken diğerlerini sistematik biçimde başarısız tanımasına yol açabilmektedir [29]. Crawford ve Paglen (2019), ImageNet'in insan etiketlerindeki sınıflandırma sorunlarını derinlemesine analiz etmişlerdir [29].
Bugünden bakıldığında AlexNet'in birçok teknik tercihi — LRN katmanları, tam bağlantılı katmanların büyüklüğü, çift GPU bölüntüsü — sonraki mimarilerde terk edilmiştir [24]. Ancak temel prensipleri — derin evrişimli mimari, ReLU, dropout, veri artırma — derin öğrenmenin standart araç setinin kalıcı bileşenleri olmuştur [5].
6. Etik ve Toplumsal Boyutlar
AlexNet'in tetiklediği derin öğrenme devrimi, derin toplumsal ve etik soruları da beraberinde getirmiştir.
Güç Yoğunlaşması. Derin öğrenmenin büyük veri ve büyük hesaplama gerektirmesi, yapay zekâ araştırma ve geliştirme kapasitesini birkaç büyük teknoloji şirketinde yoğunlaştırmıştır [28]. Google, Meta, Microsoft, Amazon ve birkaç Çinli teknoloji devi, derin öğrenme araştırmalarının kaynaklarının büyük bölümünü kontrol etmektedir. Bu durum, yapay zekâ teknolojisinin yöneliminin demokratik denetimden uzaklaşması riskini taşımaktadır.
Gözetim ve Mahremiyet. AlexNet'in başlattığı bilgisayarla görme devrimi, yüz tanıma teknolojisinin yaygınlaşmasını mümkün kılmıştır [14]. Bu teknoloji, güvenlik ve kolaylık sağlamanın yanı sıra, kitlesel gözetim altyapısının inşasını da kolaylaştırmıştır. Çin'in sosyal kredi sistemi ve çeşitli ülkelerdeki polis gözetim uygulamaları, derin öğrenme tabanlı görüntü tanıma teknolojilerinin potansiyel kötüye kullanımının somut örnekleridir [30].
İstihdam Dönüşümü. Derin öğrenmenin endüstriyel uygulamaları, kalite kontrol, belge işleme, müşteri hizmetleri gibi pek çok alanda insan emeğini ikame etme potansiyeline sahiptir [5]. Bu durum, iş gücü piyasasında dönüşüm ve yeni becerilere ihtiyaç yaratmaktadır. AlexNet'in açtığı çağ, toplumların yapay zekâ ile birlikte çalışma biçimlerini yeniden düşünmesini zorunlu kılmaktadır.
Akademik Ekosistem Üzerindeki Etkiler. AlexNet'in başarısının ardından, akademik fonlama, yayın ve kariyer yapıları derin öğrenme lehine çarpıcı biçimde yeniden şekillenmiştir [15]. Geleneksel bilgisayarla görme yöntemleri, sembolik yapay zekâ ve diğer alternatif yaklaşımalar üzerinde çalışan araştırmacılar, fon ve yayın fırsatları açısından dezavantajlı konuma düşmüşlerdir. Bu monoküler akademik yapı, araştırma çeşitliliğinin azalması riskini taşımaktadır.
7. Güncel Uygulamalar ve Miras
AlexNet'in doğrudan teknik mirası, sonraki evrişimli sinir ağı mimarilerinde somutlaşmıştır. VGGNet (2014), daha küçük evrişim filtreleri (3×3) ile daha derin ağların etkili olduğunu göstermiştir [24]. GoogLeNet/Inception (2014), farklı ölçeklerdeki evrişimleri paralel olarak uygulayan "inception modülleri" ile hesaplama verimliliğini artırmıştır [25]. ResNet (2015), artık bağlantılar sayesinde yüzlerce katmanlı ağların eğitilmesini mümkün kılmış ve insan seviyesini aşan görüntü tanıma performansına ulaşmıştır [26].
2017'den itibaren Vaswani ve ekibinin geliştirdiği Transformer mimarisi [31], dikkat mekanizması (attention mechanism) ile evrişimli ağların hâkimiyetini sarsmaya başlamıştır. Özellikle doğal dil işlemede (BERT, GPT serisi) Transformer hâkim paradigma haline gelmiştir [31]. Dosovitskiy ve ekibinin (2021) Vision Transformer (ViT) çalışması, Transformer mimarisinin görüntü tanımada da evrişimli ağlarla rekabet edebileceğini göstermiştir [32]. Ancak evrişimli ağlar, özellikle hesaplama verimliliği ve küçük veri kümelerindeki performans açısından, hâlâ önemli kullanım alanlarını korumaktadır.
AlexNet'in endüstriyel mirası ise her yerdedir. Akıllı telefon kameralarındaki sahne tanıma, otonom araçlardaki nesne algılama, tıbbi görüntülemede tümör tespiti, uydu görüntülerinden çevresel izleme, tarımda bitki hastalığı tanıma — tüm bu uygulamalar, AlexNet'in başlattığı derin öğrenme devriminin somut ürünleridir [14].
Akademik miras açısından, AlexNet derin öğrenme çağının başlangıcı olarak kabul edilmektedir [5]. Bu çalışma, makine öğrenmesi konferanslarının (NeurIPS, ICML, ICLR) yükselişini, derin öğrenme ders kitaplarının yazılmasını ve dünya genelinde binlerce yeni araştırma grubunun kurulmasını tetiklemiştir. Hinton, LeCun ve Bengio, derin öğrenmenin gelişimine katkılarından dolayı 2018 ACM Turing Ödülü'nü paylaşmışlardır [14] — bu ödül, AlexNet'in de aralarında olduğu on yıllık çalışmaların tanınmasıdır.
8. Bölüm Özeti
Bu bölümde, AlexNet'in 2012'de ILSVRC yarışmasındaki çığır açan başarısının, yapay zekâ tarihinde nasıl bir kırılma noktası oluşturduğunu çok boyutlu biçimde analiz ettik. AlexNet, on yıllardır geliştirilmekte olan evrişimli sinir ağı fikirlerini — Neocognitron'dan LeNet'e uzanan geleneği — büyük veri (ImageNet), güçlü hesaplama (GPU'lar) ve algoritmik yeniliklerle (ReLU, dropout, veri artırma) birleştirerek, derin öğrenmenin gücünü inkâr edilemez biçimde kanıtlamıştır. Bu başarı, bilgisayarla görme alanında paradigma kaymasını tetiklemiş, endüstriyel yapay zekâ yatırımlarını başlatmış ve akademik araştırma gündemini köklü biçimde dönüştürmüştür.
AlexNet'in mirası, yalnızca teknik değil, aynı zamanda toplumsal, etik ve epistemolojik boyutlarıyla da değerlendirilmelidir. Derin öğrenmenin açıklanabilirlik sorunu, hesaplama maliyeti ve güç yoğunlaşması gibi eleştiriler, bu teknolojinin sorumlu biçimde geliştirilmesi için ele alınması gereken kritik meselelerdir.
Bir sonraki bölümde ele alacağımız Neural Turing Machines (2014), derin öğrenme çağının en ilginç uzantılarından birini temsil etmektedir — sinir ağlarına harici bellek ekleyerek, derin öğrenmenin sınırlarını zorlama girişimi. AlexNet'in açtığı kapıdan geçen bu ve benzeri çalışmalar, yapay zekânın sınırlarını sürekli olarak genişletmektedir.
9. Kaynakça
[1] Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). ImageNet classification with deep convolutional neural networks. Advances in Neural Information Processing Systems, 25, 1097–1105.
[2] Deng, J., Dong, W., Socher, R., Li, L.-J., Li, K., & Fei-Fei, L. (2009). ImageNet: A large-scale hierarchical image database. 2009 IEEE Conference on Computer Vision and Pattern Recognition, 248–255. https://doi.org/10.1109/CVPR.2009.5206848
[3] Fukushima, K. (1980). Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position. Biological Cybernetics, 36(4), 193–202. https://doi.org/10.1007/BF00344251
[4] Rumelhart, D. E., Hinton, G. E., & Williams, R. J. (1986). Learning representations by back-propagating errors. Nature, 323(6088), 533–536. https://doi.org/10.1038/323533a0
[5] Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep learning. MIT Press.
[6] Szeliski, R. (2010). Computer vision: Algorithms and applications. Springer.
[7] LeCun, Y., Bottou, L., Bengio, Y., & Haffner, P. (1998). Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11), 2278–2324. https://doi.org/10.1109/5.726791
[8] Cortes, C., & Vapnik, V. (1995). Support-vector networks. Machine Learning, 20(3), 273–297. https://doi.org/10.1007/BF00994018
[9] Hinton, G. E., Osindero, S., & Teh, Y.-W. (2006). A fast learning algorithm for deep belief nets. Neural Computation, 18(7), 1527–1554. https://doi.org/10.1162/neco.2006.18.7.1527
[10] Bengio, Y., Courville, A., & Vincent, P. (2013). Representation learning: A review and new perspectives. IEEE Transactions on Pattern Analysis and Machine Intelligence, 35(8), 1798–1828. https://doi.org/10.1109/TPAMI.2013.50
[11] Hinton, G. E., Srivastava, N., Krizhevsky, A., Sutskever, I., & Salakhutdinov, R. R. (2012). Improving neural networks by preventing co-adaptation of feature detectors. arXiv preprint arXiv:1207.0580.
[12] Nair, V., & Hinton, G. E. (2010). Rectified linear units improve restricted Boltzmann machines. Proceedings of the 27th International Conference on Machine Learning (ICML-10), 807–814.
[13] Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., ... & Fei-Fei, L. (2015). ImageNet large scale visual recognition challenge. International Journal of Computer Vision, 115(3), 211–252. https://doi.org/10.1007/s11263-015-0816-y
[14] LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. Nature, 521(7553), 436–444. https://doi.org/10.1038/nature14539
[15] Schmidhuber, J. (2015). Deep learning in neural networks: An overview. Neural Networks, 61, 85–117. https://doi.org/10.1016/j.neunet.2014.09.003
[16] Nabiyev, V. V. (2021). Yapay zekâ: İnsan-bilgisayar etkileşimi (6. Baskı). Seçkin Yayıncılık.
[17] Budak, A., & Ünal, E. (2021). Derin öğrenme yaklaşımları ve bilgisayarla görme uygulamaları: Bir derleme. Fırat Üniversitesi Mühendislik Bilimleri Dergisi, 33(2), 543–555.
[18] Hubel, D. H., & Wiesel, T. N. (1962). Receptive fields, binocular interaction and functional architecture in the cat's visual cortex. The Journal of Physiology, 160(1), 106–154. https://doi.org/10.1113/jphysiol.1962.sp006837
[19] LeCun, Y., Boser, B., Denker, J. S., Henderson, D., Howard, R. E., Hubbard, W., & Jackel, L. D. (1989). Backpropagation applied to handwritten zip code recognition. Neural Computation, 1(4), 541–551. https://doi.org/10.1162/neco.1989.1.4.541
[20] Hochreiter, S. (1991). Untersuchungen zu dynamischen neuronalen Netzen [Diploma thesis]. Technische Universität München.
[21] Raina, R., Madhavan, A., & Ng, A. Y. (2009). Large-scale deep unsupervised learning using graphics processors. Proceedings of the 26th International Conference on Machine Learning (ICML-09), 873–880.
[22] Ioffe, S., & Szegedy, C. (2015). Batch normalization: Accelerating deep network training by reducing internal covariate shift. Proceedings of the 32nd International Conference on Machine Learning, 448–456.
[23] Zeiler, M. D., & Fergus, R. (2014). Visualizing and understanding convolutional networks. European Conference on Computer Vision, 818–833. https://doi.org/10.1007/978-3-319-10590-1_53
[24] Simonyan, K., & Zisserman, A. (2015). Very deep convolutional networks for large-scale image recognition. Proceedings of the 3rd International Conference on Learning Representations (ICLR 2015).
[25] Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S., Anguelov, D., ... & Rabinovich, A. (2015). Going deeper with convolutions. 2015 IEEE Conference on Computer Vision and Pattern Recognition, 1–9. https://doi.org/10.1109/CVPR.2015.7298594
[26] He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep residual learning for image recognition. 2016 IEEE Conference on Computer Vision and Pattern Recognition, 770–778. https://doi.org/10.1109/CVPR.2016.90
[27] Lipton, Z. C. (2018). The mythos of model interpretability. Queue, 16(3), 31–57. https://doi.org/10.1145/3236386.3241340
[28] Strubell, E., Ganesh, A., & McCallum, A. (2019). Energy and policy considerations for deep learning in NLP. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, 3645–3650. https://doi.org/10.18653/v1/P19-1355
[29] Crawford, K., & Paglen, T. (2019). Excavating AI: The politics of training sets for machine learning. The AI Now Institute.
[30] Zuboff, S. (2019). The age of surveillance capitalism: The fight for a human future at the new frontier of power. Profile Books.
[31] Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention is all you need. Advances in Neural Information Processing Systems, 30, 5998–6008.
[32] Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., ... & Houlsby, N. (2021). An image is worth 16x16 words: Transformers for image recognition at scale. Proceedings of the 9th International Conference on Learning Representations (ICLR 2021).
10. Tartışma Soruları
1. Analitik: AlexNet'in başarısını mümkün kılan üç faktör — büyük veri, GPU hesaplama ve algoritmik yenilikler — arasında hangisi en belirleyici olanıdır? Bu faktörlerden biri eksik olsaydı, derin öğrenme devrimi ne kadar gecikebilirdi?
2. Karşılaştırmalı: AlexNet ile LeNet-5 arasındaki mimari farklılıklar nelerdir? LeNet'in 1998'deki başarısı neden AlexNet benzeri bir paradigma kaymasını tetikleyememiştir? Bu iki çalışma arasındaki on dört yılda ne değişmiştir?
3. Spekülatif: Eğer ImageNet veri kümesi hiç oluşturulmasaydı ve ILSVRC yarışması düzenlenmeseydi, derin öğrenmenin yeniden doğuşu nasıl ve ne zaman gerçekleşebilirdi? Başka hangi uygulama alanı bu rolü üstlenebilirdi?
4. Etik: AlexNet'in başlattığı derin öğrenme devrimi, yapay zekâ araştırma ve geliştirme kapasitesini birkaç büyük teknoloji şirketinde yoğunlaştırmıştır. Bu güç yoğunlaşması toplumlar için ne tür riskler taşımaktadır ve bu riskler nasıl azaltılabilir?
5. Güncel: AlexNet'in temel prensipleri (evrişimli ağlar, ReLU, dropout) günümüzde hâlâ yaygın biçimde kullanılmakta mıdır, yoksa Transformer gibi yeni mimariler bunları tamamen ikame etmiş midir? Evrişimli ağların geleceği nedir?
6. Analitik: Schmidhuber'in eleştirisi — derin öğrenmenin "yeniden icadı" anlatısının önceki katkıları yeterince tanımadığı — ne ölçüde haklıdır? Bilimsel kredi dağılımı sorunu, yapay zekâ tarihinin yazılmasını nasıl etkilemektedir?
7. Karşılaştırmalı: Kitabımızın 23. bölümünde incelediğimiz Neocognitron ile AlexNet arasında otuz iki yıl bulunmaktadır. Bu iki çalışma arasındaki süreklilikler ve kopuşlar nelerdir? Neocognitron'dan AlexNet'e giden yol, bilimsel ilerlemenin doğası hakkında ne söylemektedir?
8. Spekülatif: Eğer Geoffrey Hinton, YZ kışı döneminde sinir ağları üzerinde çalışmayı bırakmış olsaydı, derin öğrenme bugün bildiğimiz biçimde var olabilir miydi? Bireysel ısrarın bilimsel ilerleme üzerindeki etkisi ne kadar belirleyicidir?
9. Etik: Derin öğrenme tabanlı yüz tanıma teknolojisi, AlexNet'in açtığı bilgisayarla görme devriminin doğrudan bir ürünüdür. Bu teknolojinin toplumsal faydaları ile gözetim riskleri arasındaki denge nasıl kurulmalıdır?
10. Güncel: AlexNet'in eğitimi iki GPU ve birkaç gün gerektirirken, günümüzün büyük modelleri binlerce GPU ve haftalarca eğitim gerektirmektedir. Bu ölçek artışının çevresel, ekonomik ve akademik sürdürülebilirlik açısından sonuçları nelerdir?