Attention Is All You Need

Ayan, Buğra

Bölüm 33 2017Derin Öğrenme Çağı

Attention Is All You Need

Transformer mimarisinin tanıtılması ve doğal dil işlemede devrim.

Attention Is All You Need Transformer dikkat mekanizması Google 2017

Önemli isimler: Ashish Vaswani, Noam Shazeer, Niki Parmar

1. Giriş

Yapay zekâ tarihinde bazı makaleler yayımlandıkları anda sessizce karşılanır, etkilerini yıllar sonra gösterir. Bazıları ise bir manifesto gibi alanın kurallarını yeniden yazar. Vaswani ve arkadaşlarının 2017'de NeurIPS konferansında sundukları "Attention Is All You Need" başlıklı makale, kesinlikle ikinci kategoriye aittir [1]. Bu çalışma, yinelemeli sinir ağlarını (recurrent neural networks, RNN) ve evrişimli sinir ağlarını (convolutional neural networks, CNN) dizi modellemenin merkezinden uzaklaştırarak, yalnızca dikkat mekanizmasına (attention mechanism) dayanan yeni bir mimari önermiştir: Transformer [1]. Makalenin başlığı kışkırtıcı bir iddiaydı — "Tek ihtiyacınız olan dikkat mekanizması" — ve bu iddia, sonraki yıllarda haklı çıkmakla kalmadı, yapay zekânın tüm alt alanlarını kökten dönüştürdü.

Transformer'ın ortaya çıktığı 2017 yılı, derin öğrenmenin olgunlaşma dönemine denk gelmektedir. Bir önceki bölümde incelediğimiz Pointer Networks, dikkat mekanizmasını bir "karar aracı" olarak yeniden yorumlayarak, dikkatin yalnızca bir ara hesaplama aracı olmadığını göstermişti [2]. Bahdanau ve arkadaşlarının 2014'teki çalışması, dikkat mekanizmasını makine çevirisine kazandırmıştı [3]. Ancak tüm bu modeller, altta yatan sıralı hesaplama yapısına — LSTM'lere veya GRU'lara — bağımlıydı [4][5]. Bu bağımlılık, eğitim sürecinde paralelleştirmeyi sınırlandırıyor, uzun dizilerde bilgi kaybına neden oluyor ve hesaplama maliyetlerini artırıyordu [1].

Transformer, bu bağımlılığı tamamen ortadan kaldırdı. Modelin temel kavrayışı şuydu: bir dizideki her elemanın diğer tüm elemanlarla ilişkisini öğrenmek için, elemanları sırayla işlemeye gerek yoktu; öz-dikkat (self-attention) mekanizması, bu ilişkileri tek bir paralel hesaplama adımında yakalayabilirdi [1]. Bu basit ama devrimci fikir, doğal dil işlemeden (NLP) bilgisayarlı görüye, protein katlanma tahmininden müzik üretimine kadar uzanan bir dalga etkisi yarattı. GPT [6], BERT [7], Vision Transformer (ViT) [8], AlphaFold 2 [9] — 2017 sonrasında yapay zekâ tarihini şekillendiren neredeyse her önemli model, Transformer mimarisi üzerine inşa edilmiştir.

Bu bölümde, Transformer'ın teknik mimarisini, entelektüel kökenlerini, dönemin bilimsel ve kurumsal bağlamını, makalenin ardındaki araştırmacıları, modelin getirdiği paradigma değişimini ve bu değişimin etik, toplumsal ve felsefi boyutlarını çok katmanlı biçimde analiz edeceğiz. Transformer yalnızca bir mimari değildir; yapay zekânın nasıl düşündüğümüzü, nasıl inşa ettiğimizi ve nasıl sorguladığımızı köklü biçimde değiştiren bir kırılma noktasıdır.

2. Literatür Taraması

Transformer makalesinin entelektüel konumunu kavramak için, dizi modelleme, dikkat mekanizması, makine çevirisi ve paralel hesaplama alanlarındaki literatürü birlikte incelememiz gerekmektedir.

Kurucu Çalışma. Vaswani, Shazeer, Parmar, Uszkoreit, Jones, Gomez, Kaiser ve Polosukhin'in (2017) NeurIPS'te sunulan makalesi, Transformer mimarisini tanımlayan ve İngilizce-Almanca ile İngilizce-Fransızca makine çevirisi görevlerinde son teknoloji sonuçlar elde eden temel metindir [1]. Makale, yayımlandığından bu yana 130.000'den fazla atıf almış ve yapay zekâ tarihinin en çok atıf alan çalışmalarından biri haline gelmiştir [10].

Yinelemeli Modellerin Temelleri. Hochreiter ve Schmidhuber'in (1997) LSTM mimarisi, kaybolan gradyan problemini kapı mekanizmalarıyla çözerek, sıralı modellemenin temel aracı haline gelmişti [4]. Cho ve arkadaşlarının (2014) GRU (Gated Recurrent Unit) mimarisi, LSTM'in daha hafif bir alternatifini sunmuştu [5]. Bu iki mimari, 2017'ye kadar dizi modellemenin baskın araçlarıydı; ancak sıralı hesaplama yapıları, paralel eğitimi engelliyor ve uzun dizilerde bilgi kaybına neden oluyordu [1][4].

Dikkat Mekanizmasının Evrimi. Bahdanau, Cho ve Bengio'nun (2014) çığır açıcı çalışması, kodlayıcı-çözücü (encoder-decoder) mimarisine dikkat mekanizması ekleyerek makine çevirisinde önemli bir performans artışı sağlamıştı [3]. Luong ve arkadaşlarının (2015) çalışması, küresel (global) ve yerel (local) dikkat mekanizmalarını tanımlayarak bu alana yeni boyutlar katmıştı [11]. Pointer Networks (Vinyals ve ark., 2015), dikkat ağırlıklarını doğrudan çıktı dağılımı olarak kullanarak, dikkat mekanizmasının işlevsel kapsamını genişletmişti [2]. Tüm bu çalışmalar, dikkat mekanizmasının giderek artan önemini ortaya koyuyordu; ancak hiçbiri dikkat mekanizmasını tek başına yeterli bir hesaplama aracı olarak konumlandırmamıştı — yinelemeli katmanlar hâlâ vazgeçilmez görülüyordu [3][11].

Seq2seq Çerçevesi. Sutskever, Vinyals ve Le'nin (2014) seq2seq mimarisi, derin öğrenme tabanlı makine çevirisinin temellerini atmıştı [12]. Bu çerçeve, bir kodlayıcı ağın girdi dizisini sabit boyutlu bir vektöre sıkıştırdığı ve bir çözücü ağın bu vektörden çıktı dizisi ürettiği yapıyı standartlaştırmıştı [12]. Transformer, bu kodlayıcı-çözücü yapısını korumuş ancak içeriğini tamamen dikkat mekanizmasıyla doldurmuştur [1].

Evrişimli Dizi Modelleme. Gehring ve arkadaşlarının (2017) "Convolutional Sequence to Sequence Learning" çalışması, seq2seq modellerde RNN'ler yerine evrişimli sinir ağları kullanarak, paralel hesaplama avantajını elde etmeyi amaçlamıştı [13]. Bu çalışma, yinelemeli yapılardan uzaklaşma eğiliminin bir öncü sinyaliydi ve Transformer makalesinde doğrudan referans alınmıştır [1][13]. Benzer biçimde, Kalchbrenner ve arkadaşlarının (2016) ByteNet modeli, evrişimli yapılarla dizi modellemenin olanaklarını araştırmıştı [14].

Öz-Dikkat Mekanizmasının Öncüleri. Transformer'ın temel bileşeni olan öz-dikkat (self-attention) kavramı, aslında daha önce farklı bağlamlarda keşfedilmişti. Cheng, Dong ve Lapata'nın (2016) çalışması, LSTM ağlarına öz-dikkat mekanizması ekleyerek okuma anlama görevlerinde performans artışı sağlamıştı [15]. Parikh ve arkadaşlarının (2016) "A Decomposable Attention Model for Natural Language Inference" çalışması, yinelemeli yapılar kullanmadan yalnızca dikkat mekanizmasıyla doğal dil çıkarımı yapılabileceğini göstermişti [16]. Bu çalışma, Transformer'ın "yinelemesiz dikkat" fikrinin doğrudan kavramsal öncüsüdür.

Konum Kodlaması. Transformer'ın sıra bilgisini sinüzoidal fonksiyonlarla kodlama yaklaşımı, daha önceki çalışmalardan ilham almıştır. Gehring ve arkadaşlarının (2017) evrişimli modelinde konum gömmeleri (position embeddings) kullanılmıştı [13]. Sukhbaatar ve arkadaşlarının (2015) uçtan uca bellek ağları (end-to-end memory networks) çalışması da konum kodlamasının erken örneklerinden biriydi [17].

Makine Çevirisi Bağlamı. Transformer, makine çevirisi problemi üzerinde geliştirilmiş ve değerlendirilmiştir [1]. WMT (Workshop on Machine Translation) yarışmaları, bu alanda standart ölçütler sunmuştur [18]. 2016'da Google'ın GNMT (Google Neural Machine Translation) sistemi, derin LSTM tabanlı bir mimariyle endüstriyel düzeyde sinir ağı tabanlı çeviri sistemini hayata geçirmişti [19]. Transformer, GNMT'nin yerini alarak Google Translate'in altyapısına entegre edilmiştir [1][19].

Ölçeklendirme Yasaları. Kaplan ve arkadaşlarının (2020) çalışması, Transformer modellerin performansının model boyutu, veri miktarı ve hesaplama bütçesiyle güç yasası (power law) ilişkisi içinde arttığını göstermiştir [20]. Bu keşif, büyük dil modelleri (LLM) yarışının teorik temellerini oluşturmuştur [20].

Türkçe Literatür. Öztürk ve Özgür'ün (2019) Türkçe derlemesi, dikkat mekanizması ve seq2seq modellerin evrimini Türkçe okuyucu için sistematik biçimde ele almıştır [21]. Akyol ve Karcı'nın (2020) çalışması, derin öğrenme mimarilerinin Türkçe doğal dil işleme görevlerine uygulanmasını değerlendirmiştir [22]. Şahinuç ve arkadaşlarının (2021) çalışması ise Transformer tabanlı Türkçe dil modellerinin performansını analiz etmiştir [23].

3. Tarihsel ve Teorik Arka Plan

Transformer'ın entelektüel kökenlerini anlamak için, birkaç farklı geleneğin — dizi modelleme, dikkat mekanizması, paralel hesaplama ve makine çevirisi — 2017'deki kesişim noktasını incelememiz gerekmektedir.

Yinelemeli Hesaplamanın Yükselişi ve Sınırları. Yapay sinir ağlarıyla dizi işleme, Elman'ın (1990) basit yinelemeli ağlarıyla başlamıştı [24]. Bu erken modeller kaybolan gradyan sorunundan muzdaripti; Hochreiter ve Schmidhuber'in (1997) LSTM mimarisi, kapı mekanizmalarıyla bu sorunu büyük ölçüde çözmüştü [4]. Ancak LSTM ve türevleri, temel bir yapısal kısıtlamaya sahipti: her zaman adımındaki hesaplama, bir önceki adımın çıktısına bağımlıydı [4]. Bu sıralı bağımlılık, iki ciddi sonuç doğuruyordu. Birincisi, eğitim sırasında GPU'ların paralel hesaplama kapasitesinden tam olarak yararlanılamıyordu — zira her adım, öncekinin tamamlanmasını beklemek zorundaydı [1]. İkincisi, çok uzun dizilerde bilgi, yüzlerce adım boyunca aktarılmak zorunda kalıyor ve bu süreçte kaçınılmaz olarak zayıflıyordu [4][25].

2017'ye gelindiğinde, LSTM tabanlı modeller NLP'nin neredeyse her alanında standart araç haline gelmişti; ancak sınırları da giderek belirginleşiyordu. Google'ın GNMT sistemi, sekiz katmanlı bir LSTM mimarisi kullanıyordu ve eğitimi yaklaşık 96 GPU üzerinde altı gün sürüyordu [19]. Daha büyük ve daha iyi modeller eğitmek isteyen araştırmacılar, yinelemeli hesaplamanın yarattığı paralelleştirme darboğazıyla sürekli karşılaşıyordu [1].

Dikkat Mekanizmasının Kavramsal Yolculuğu. Dikkat kavramı, bilişsel bilimden yapay zekâya aktarılan en verimli metaforlardan biridir. İnsan bilişsel sisteminin seçici dikkat kapasitesi — belirli uyaranlara odaklanıp diğerlerini bastırma yeteneği — Treisman'ın (1980) öznitelik bütünleştirme kuramı ve Posner'ın (1980) dikkat yönlendirme çalışmalarıyla sistematik biçimde araştırılmıştı [26][27]. Bu bilişsel mekanizma, Bahdanau ve arkadaşlarının (2014) çalışmasıyla sinir ağı mimarilerine taşınmıştı [3]. Bahdanau dikkati, çözücünün her adımda kodlayıcının farklı konumlarına "bakmasını" sağlıyordu; ancak bu bakış, bir LSTM çerçevesinin içinde gerçekleşiyordu [3].

Pointer Networks (2015), dikkat ağırlıklarını doğrudan çıktı olarak kullanarak, dikkat mekanizmasının işlevsel sınırlarını genişletmişti [2]. Parikh ve arkadaşlarının (2016) çalışması, belirli görevlerde yinelemeli yapılar olmadan yalnızca dikkat mekanizmasıyla başarılı sonuçlar elde edilebileceğini göstermişti [16]. Bu çalışmalar, dikkat mekanizmasının yinelemeli yapılardan bağımsızlaştırılması fikrinin kavramsal zeminini hazırlamıştı. Transformer, bu çizginin doğal ama cesur sonucuydu: dikkati bir yardımcı mekanizma olmaktan çıkarıp, hesaplamanın kendisi haline getirmek [1].

Paralel Hesaplama ve Donanım Evrimi. 2012'den itibaren GPU'ların derin öğrenme eğitiminde kullanılması, hesaplama kapasitesinde büyük bir sıçrama yaratmıştı [28]. NVIDIA'nın CUDA platformu ve cuDNN kütüphanesi, paralel hesaplamayı erişilebilir kılmıştı [28]. Ancak yinelemeli mimariler, bu paralel donanımdan tam olarak yararlanamıyordu — sıralı bağımlılık, GPU çekirdeklerinin büyük bölümünü atıl bırakıyordu [1]. Evrişimli modeller daha iyi paralelleşiyordu, ancak uzun mesafeli bağımlılıkları yakalamakta sınırlıydı [13][14]. Transformer, hem tam paralelleştirmeye hem de uzun mesafeli bağımlılıkların doğrudan modellenmesine olanak tanıyarak, bu iki sorunu aynı anda çözmüştür [1].

Kurumsal Bağlam: Google Brain ve Google Research. Transformer, Google'ın iki araştırma birimi — Google Brain ve Google Research — arasındaki işbirliğinin ürünüdür [1]. 2017'de Google, dünyada en fazla yapay zekâ araştırmacısı istihdam eden kurumlardan biriydi ve büyük ölçekli deneyleri mümkün kılan Tensor Processing Unit (TPU) donanımını geliştirmişti [29]. Transformer'ın eğitimi, sekiz adet P100 GPU üzerinde 3,5 gün sürmüştür — aynı dönemde LSTM tabanlı modellerin gerektirdiğinin bir kesri [1]. Bu hesaplama verimliliği, Transformer'ın yalnızca akademik bir yenilik değil, aynı zamanda endüstriyel bir atılım olduğunu gösteriyordu.

4. Ana Konu Analizi

4a. Temel Mekanizma: Öz-Dikkat ve Transformer Mimarisi

Transformer'ın teknik yeniliğini kavramak için, mimarinin temel bileşenlerini adım adım incelememiz gerekmektedir.

Öz-Dikkat Mekanizması (Self-Attention). Transformer'ın kalbi, ölçeklendirilmiş nokta çarpımı dikkatidir (scaled dot-product attention) [1]. Bu mekanizmada, girdi dizisindeki her eleman üç farklı vektöre dönüştürülür: sorgu (query, Q), anahtar (key, K) ve değer (value, V) [1]. Dikkat hesaplaması şu formülle ifade edilir:

$$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$$

Burada $d_k$, anahtar vektörlerinin boyutudur ve $\sqrt{d_k}$ ile bölme işlemi, nokta çarpımlarının büyük boyutlarda çok büyük değerler almasını engelleyerek softmax fonksiyonunun doygunlaşmasını önler [1]. Bu formülün en kritik özelliği, hesaplamanın tamamen paralel olarak gerçekleştirilebilmesidir — hiçbir adım bir öncekine bağımlı değildir [1].

Öz-dikkat mekanizmasında, Q, K ve V vektörlerinin tamamı aynı girdi dizisinden türetilir [1]. Bu, bir dizideki her elemanın diğer tüm elemanlarla ilişkisini doğrudan — arada hiçbir yinelemeli adım olmaksızın — öğrenmesini sağlar [1]. Örneğin, "Kedi süt içti çünkü o açtı" cümlesinde, "o" zamirinin "kedi"ye atıfta bulunduğunu anlamak için modelin bu iki kelime arasındaki ilişkiyi doğrudan yakalaması gerekir; yinelemeli modellerde bu bilgi birkaç adım boyunca taşınmak zorundayken, öz-dikkat mekanizmasında tek bir hesaplama adımında erişilebilir hale gelir [1].

Çok Başlı Dikkat (Multi-Head Attention). Transformer, tek bir dikkat hesaplaması yerine, birden fazla paralel dikkat "başı" kullanır [1]. Her bir baş, farklı alt uzaylarda (subspace) dikkat hesaplaması yapar ve sonuçlar birleştirilir [1]:

$$\text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}_1, ..., \text{head}_h)W^O$$

Burada her $\text{head}_i = \text{Attention}(QW_i^Q, KW_i^K, VW_i^V)$ şeklinde hesaplanır [1]. Orijinal Transformer'da sekiz dikkat başı kullanılmıştır [1]. Çok başlı dikkat, modelin aynı anda farklı türde ilişkileri — sözdizimsel, anlamsal, uzaklık tabanlı — yakalamasını sağlar [1][30]. Bir baş cümlenin sözdizimsel yapısına odaklanırken, bir diğeri anlamsal benzerliğe odaklanabilir [30].

Konum Kodlaması (Positional Encoding). Öz-dikkat mekanizması, girdi elemanlarının sırasını doğası gereği görmez — aynı eleman kümesi farklı sıralamalarla verilse de aynı sonucu üretir [1]. Bu "sıra körlüğü"nü gidermek için Transformer, sinüzoidal konum kodlamaları kullanır [1]:

$$PE_{(pos, 2i)} = \sin\left(\frac{pos}{10000^{2i/d_{model}}}\right) \quad\quad PE_{(pos, 2i+1)} = \cos\left(\frac{pos}{10000^{2i/d_{model}}}\right)$$

Bu kodlama, her konuma benzersiz bir vektör atarken, farklı konumlar arasındaki göreli mesafelerin sabit doğrusal dönüşümlerle ifade edilebilmesini de sağlar [1]. Sinüzoidal fonksiyonların tercih edilmesinin bir nedeni, modelin eğitim sırasında görmediği uzunluklara genelleştirme potansiyeli sunmasıdır [1].

Kodlayıcı-Çözücü Yapısı. Transformer, altı kodlayıcı (encoder) ve altı çözücü (decoder) katmandan oluşur [1]. Her kodlayıcı katmanı iki alt katman içerir: çok başlı öz-dikkat ve konum bazlı ileri beslemeli ağ (position-wise feed-forward network) [1]. Her çözücü katmanı ise üç alt katman içerir: maskeli çok başlı öz-dikkat (gelecek konumların görünmesini engeller), kodlayıcı çıktısına yönelik çok başlı dikkat ve ileri beslemeli ağ [1]. Her alt katmanın etrafında artık bağlantılar (residual connections) ve katman normalizasyonu (layer normalization) uygulanır [1].

İleri Beslemeli Ağ. Her dikkat alt katmanının ardından gelen ileri beslemeli ağ, iki doğrusal dönüşüm ve bir ReLU aktivasyonu içerir [1]: $\text{FFN}(x) = \max(0, xW_1 + b_1)W_2 + b_2$. Bu ağ, her konuma bağımsız olarak uygulanır — yani konum bazlı (position-wise) çalışır [1]. İleri beslemeli katmanların boyutu (Transformer-base'de 2048), modelin bilgi depolama kapasitesiyle doğrudan ilişkilidir [1][20].

4b. Kilit Aktörler ve Katkıları

Transformer makalesinin sekiz yazarı, Google'ın farklı ekiplerinden gelen çeşitli uzmanlıklara sahip araştırmacılardır. Bu çeşitlilik, mimarinin farklı bileşenlerinin nasıl bir araya geldiğini açıklar.

Ashish Vaswani, makalenin birinci yazarı ve öz-dikkat fikrini makine çevirisine uygulama önerisinin arkasındaki isimlerden biridir [1]. Vaswani, USC'de doktorasını tamamladıktan sonra Google Brain'e katılmıştır [31]. Transformer'dan sonra Google'dan ayrılarak Adept AI ve ardından Essential AI şirketlerini kurmuştur [31].

Noam Shazeer, Google'ın en kıdemli araştırmacılarından biri olup, dikkat mekanizmasının çok başlı yapısının ve ölçeklendirme stratejilerinin arkasındaki temel katkıcılardan biridir [1]. Shazeer, daha önce Google'ın yazım düzeltme sistemi ve büyük ölçekli dil modellemesi üzerinde çalışmıştı [32]. Transformer'dan sonra Google'dan ayrılarak Character.AI'yı kurmuş, ardından tekrar Google'a dönmüştür [32].

Niki Parmar ve Jakob Uszkoreit, öz-dikkat mekanizmasının bilgisayarlı görü ve yapısal tahmin görevlerine uygulanması üzerinde çalışmışlardır [1]. Uszkoreit, dilbilim profesörü Hans Uszkoreit'ın oğludur ve doğal dil işleme alanında derin bir akademik arka plana sahiptir [33].

Llion Jones, modelin eğitim dinamikleri ve optimizasyon stratejileri üzerinde çalışmıştır [1]. Jones, daha sonra Sakana AI'ı kurmuştur [34].

Aidan N. Gomez, makalenin en genç yazarlarından biri olup, Toronto Üniversitesi'nde lisans öğrencisiyken Google Brain'de staj yapmıştır [1]. Gomez, daha sonra Cohere şirketini kurarak büyük dil modellerini endüstriyel uygulamalara taşımıştır [35].

Łukasz Kaiser, Google Brain'de dizi modelleme ve otomatik makine öğrenimi (AutoML) üzerine çalışan deneyimli bir araştırmacıdır [1]. Kaiser'in seq2seq modelleme deneyimi, Transformer'ın kodlayıcı-çözücü yapısının tasarımına doğrudan katkı sağlamıştır.

Illia Polosukhin, makalenin son yazarıdır ve Transformer'ın erken prototiplerinin uygulanmasında rol oynamıştır [1]. Polosukhin, daha sonra blok zinciri alanında Near Protocol'ü kurmuştur [36].

Bu araştırmacıların Transformer sonrası kariyerleri dikkat çekicidir: sekiz yazardan altısı Google'dan ayrılarak kendi şirketlerini kurmuştur [31][32][34][35][36]. Bu durum, Transformer'ın yalnızca akademik bir yenilik değil, aynı zamanda endüstriyel bir dönüşümün tetikleyicisi olduğunu somut biçimde göstermektedir.

4c. Dönem İçindeki Yeri ve Deneysel Sonuçlar

Transformer, İngilizce-Almanca ve İngilizce-Fransızca WMT 2014 makine çevirisi görevlerinde değerlendirilmiştir [1]. İngilizce-Fransızca çevirisinde 41.0 BLEU skoru elde edilmiş ve bu, önceki en iyi sonuçları aşmıştır [1]. Daha da önemlisi, Transformer bu sonuçlara önceki modellerin eğitim maliyetinin küçük bir bölümüyle ulaşmıştır: büyük model (Transformer-big), sekiz P100 GPU üzerinde 3,5 günde eğitilmiştir [1]. Karşılaştırma olarak, Google'ın GNMT sistemi çok daha fazla hesaplama kaynağı gerektiriyordu [19].

Bu sonuçlar, 2017'de iki önemli mesaj veriyordu. Birincisi, yinelemeli yapılar olmadan son teknoloji sonuçlar elde edilebiliyordu — bu, alanın temel varsayımlarından birinin yıkılması anlamına geliyordu [1]. İkincisi, paralelleştirme sayesinde eğitim süreleri dramatik biçimde kısalıyordu — bu, daha büyük modellerin ve daha fazla verinin kullanılmasının önünü açıyordu [1][20].

Ancak Transformer'ın ilk etkisi makine çevirisiyle sınırlı kaldı. Makalenin asıl devrimci potansiyeli, 2018'de OpenAI'ın GPT modeliyle [6] ve Google'ın BERT modeliyle [7] ortaya çıktı. GPT, Transformer'ın çözücü kısmını kullanarak otoregresif dil modellemesinde çığır açarken, BERT kodlayıcı kısmını kullanarak iki yönlü (bidirectional) bağlam anlayışını NLP'ye kazandırdı [6][7]. Bu iki model, Transformer mimarisinin farklı bileşenlerinin farklı görevlere uyarlanabileceğini gösterdi ve "önceden eğitim + ince ayar" (pre-training + fine-tuning) paradigmasını başlattı [6][7].

4d. Genel YZ Tarihindeki Yeri

Transformer'ın yapay zekâ tarihindeki konumu, birden fazla paradigma değişiminin kesişim noktasında yer alır.

Yinelemeli Hesaplamadan Dikkat Tabanlı Hesaplamaya Geçiş. Transformer, dizi modellemenin temel hesaplama birimini yinelemeli hücrelerden (LSTM, GRU) öz-dikkat katmanlarına kaydırmıştır [1]. Bu, yalnızca teknik bir değişiklik değil, düşünce biçiminde bir dönüşümdür: diziler artık sırayla değil, bütüncül olarak işlenmektedir [1]. Bu paradigma değişimi, Kuhn'cu anlamda bir "bilimsel devrim" olarak nitelendirilebilir [37].

Ölçeklendirme Çağının Başlangıcı. Transformer'ın paralelleştirme kapasitesi, modellerin boyutunu dramatik biçimde artırma olanağı sunmuştur [1][20]. Kaplan ve arkadaşlarının (2020) keşfettiği ölçeklendirme yasaları, Transformer modellerin performansının model boyutu, veri miktarı ve hesaplama bütçesiyle güç yasası ilişkisi içinde arttığını göstermiştir [20]. Bu keşif, GPT-2'den (1,5 milyar parametre) GPT-3'e (175 milyar parametre) ve GPT-4'e uzanan büyüme eğrisinin teorik temelini oluşturmuştur [6][38].

Birleştirici Mimari. Transformer'dan önce, NLP, bilgisayarlı görü, konuşma işleme ve diğer alanlar farklı mimariler kullanıyordu [1][8]. Transformer, bu alanların tamamında ortak bir mimari çerçeve sunarak, yapay zekâ araştırmasında bir birleştirme (unification) süreci başlatmıştır [8][9]. Vision Transformer (ViT, Dosovitskiy ve ark., 2020), görüntüleri yama dizileri olarak ele alarak Transformer'ı bilgisayarlı görüye taşımıştır [8]. AlphaFold 2 (Jumper ve ark., 2021), protein katlanma tahmininde Transformer tabanlı dikkat mekanizmalarını kullanmıştır [9]. Bu birleştirme, farklı veri türleri arasında transfer öğrenmeyi kolaylaştırmış ve multimodal modellerin (CLIP, GPT-4V gibi) yolunu açmıştır [39].

Temel Model (Foundation Model) Kavramının Doğuşu. Bommasani ve arkadaşlarının (2021) tanımladığı "temel model" kavramı — büyük ölçekli veri üzerinde önceden eğitilmiş ve çeşitli aşağı akış görevlerine uyarlanabilen modeller — doğrudan Transformer mimarisi üzerine inşa edilmiştir [40]. GPT, BERT, T5, PaLM ve benzeri modellerin tamamı Transformer tabanlıdır ve "temel model" paradigması, yapay zekâ araştırma ve uygulamasının ana akımı haline gelmiştir [40].

5. Eleştirel Değerlendirme

Transformer'ın devrimci etkisi tartışılmaz olmakla birlikte, çeşitli boyutlarda eleştirel bir değerlendirme yapılmalıdır.

Karesel Hesaplama Karmaşıklığı. Öz-dikkat mekanizmasının hesaplama ve bellek maliyeti, dizi uzunluğunun karesiyle orantılıdır: $O(n^2)$ [1]. Bu, kısa ve orta uzunluktaki diziler için kabul edilebilir olsa da, çok uzun belgeler, genomik diziler veya yüksek çözünürlüklü görüntüler için ciddi bir darboğaz oluşturmaktadır [41]. Bu sınırlama, "verimli Transformer" (efficient Transformer) araştırmalarının temel motivasyonudur. Kitaev ve arkadaşlarının (2020) Reformer modeli, yerel hassas karma (locality-sensitive hashing) kullanarak karmaşıklığı $O(n \log n)$'e indirmeyi hedeflemiştir [41]. Katharopoulos ve arkadaşlarının (2020) doğrusal dikkat (linear attention) yaklaşımı, çekirdek yaklaşımları kullanarak $O(n)$ karmaşıklık elde etmeyi amaçlamıştır [42]. Ancak bu verimli alternatifler, çoğu durumda standart Transformer'ın performansının gerisinde kalmıştır — bu da karesel karmaşıklığın modelin ifade gücünün ayrılmaz bir parçası olup olmadığı sorusunu gündeme getirmektedir [41][42].

Yorumlanabilirlik Sorunu. Transformer'ın dikkat ağırlıkları, modelin "neye baktığını" gösteren bir pencere olarak yorumlanmaktadır; ancak Jain ve Wallace'ın (2019) çalışması, dikkat ağırlıklarının modelin karar sürecinin güvenilir bir açıklaması olmadığını göstermiştir [43]. Clark ve arkadaşlarının (2019) BERT dikkat başlarını analiz eden çalışması, bazı başların sözdizimsel yapılara odaklandığını göstermiş olsa da [30], modelin genel karar sürecinin açıklanması hâlâ zorlu bir problemdir. Bu yorumlanabilirlik açığı, Transformer tabanlı modellerin yüksek riskli uygulamalarda (sağlık, hukuk, finans) kullanımı konusunda ciddi endişeler yaratmaktadır.

Veri ve Hesaplama Açlığı. Transformer modellerin performansı, büyük miktarda veri ve hesaplama kaynağına bağımlıdır [20]. Bu bağımlılık, araştırma ve geliştirmenin giderek daha fazla büyük teknoloji şirketlerinin tekeline girmesine yol açmıştır [44]. Strubell ve arkadaşlarının (2019) çalışması, büyük Transformer modellerinin eğitiminin karbon ayak izini hesaplayarak, çevresel sürdürülebilirlik endişelerini gündeme getirmiştir [45].

İndüktif Önyargı Eksikliği. CNN'ler yerel bağlantılar, RNN'ler sıralı işleme gibi güçlü indüktif önyargılara (inductive bias) sahiptir; bu önyargılar, sınırlı veriyle öğrenmeyi kolaylaştırır [46]. Transformer, bu tür yapısal önyargılardan büyük ölçüde yoksundur — bu da modelin verimli öğrenme için çok daha fazla veriye ihtiyaç duymasına neden olmaktadır [8][46]. ViT'nin görüntü sınıflandırmasında CNN'lerle rekabet edebilmesi için çok büyük veri kümelerine ihtiyaç duyması, bu önyargı eksikliğinin somut bir göstergesidir [8].

"Neden Çalışıyor?" Sorusu. Transformer'ın ampirik başarısı tartışılmaz olsa da, neden bu kadar iyi çalıştığının tam olarak anlaşılması hâlâ açık bir sorundur [47]. Öz-dikkat mekanizmasının öğrendiği temsillerin teorik özellikleri, artık bağlantıların ve katman normalizasyonunun eğitim dinamiklerine etkileri ve ölçeklendirmenin performansa katkısının mekanizması aktif araştırma konuları olmaya devam etmektedir [20][47].

6. Etik ve Toplumsal Boyutlar

Transformer mimarisinin etik ve toplumsal boyutları, modelin kendisinden çok, mümkün kıldığı uygulamalar üzerinden değerlendirilmelidir.

Hesaplama Eşitsizliği ve Güç Yoğunlaşması. Transformer'ın ölçeklendirme kapasitesi, büyük dil modellerinin geliştirilmesini birkaç büyük teknoloji şirketinin tekeline bırakmıştır [44]. GPT-3'ün eğitim maliyetinin 4,6 milyon dolar olduğu tahmin edilmektedir [38]. Bu maliyet engeli, akademik araştırmacıların, küçük şirketlerin ve gelişmekte olan ülkelerdeki kurumların bu alanda rekabet etmesini giderek zorlaştırmaktadır [44]. Ahmed ve Wahed'in (2020) "yapay zekânın demokratikleşmesi"nin tersine döndüğünü (de-democratization) argümanı, Transformer döneminde özellikle geçerlilik kazanmıştır [44].

Çevresel Etki. Strubell ve arkadaşlarının (2019) çalışması, büyük bir Transformer modelinin eğitiminin yaklaşık 284 ton CO₂ emisyonuna — beş otomobilin ömür boyu emisyonuna — eşdeğer olduğunu hesaplamıştır [45]. Bu bulgu, yapay zekâ topluluğunda "yeşil yapay zekâ" (green AI) tartışmalarını başlatmıştır [45]. Schwartz ve arkadaşlarının (2020) "Green AI" makalesi, verimlilik odaklı araştırmayı teşvik eden bir manifesto niteliğindedir [48].

Önyargı ve Adalet. Transformer tabanlı büyük dil modelleri, eğitim verilerindeki toplumsal önyargıları — cinsiyet, ırk, din, sınıf gibi — öğrenmekte ve çıktılarında yeniden üretmektedir [49]. Bender ve arkadaşlarının (2021) "stokastik papağanlar" makalesi, büyük dil modellerinin anlamı gerçekten kavrayıp kavramadığını sorgulayarak, bu modellerin toplumsal riskleri konusunda uyarıda bulunmuştur [49]. Transformer mimarisi, bu önyargıları teknik olarak kolaylaştırmakta — daha büyük modeller, daha fazla veri işleyerek, daha karmaşık önyargı örüntülerini barındırabilmektedir.

İş Gücü Dönüşümü. Transformer tabanlı modellerin çeviri, metin yazımı, kod üretimi, müşteri hizmetleri gibi alanlarda insan performansına yaklaşması veya onu aşması, bu sektörlerde çalışan milyonlarca insanın iş güvencesini sorgulatmaktadır. Makine çevirisi — Transformer'ın ilk uygulama alanı — profesyonel çevirmenlerin rolünü zaten önemli ölçüde dönüştürmüştür [18]. Bu dönüşüm, verimlilik artışı mı yoksa istihdam kaybı mı olarak çerçeveleneceği, toplumsal tercihlere bağlıdır.

Dezenformasyon ve Manipülasyon. Transformer tabanlı dil modellerinin ikna edici metin üretme kapasitesi, dezenformasyon ve propaganda amaçlı kullanım riskini artırmıştır [38]. OpenAI'ın GPT-2'yi başlangıçta yayımlamaması, bu risklerin ciddiyetini gösteren erken bir göstergeydi [38].

7. Güncel Uygulamalar ve Miras

Transformer'ın mirası, 2020'lerin yapay zekâ manzarasının neredeyse tamamına yayılmıştır.

Büyük Dil Modelleri (LLM). GPT serisi (OpenAI), PaLM ve Gemini (Google), Claude (Anthropic), LLaMA (Meta) ve diğerleri — modern yapay zekânın en dikkat çekici uygulamalarının tamamı Transformer mimarisi üzerine inşa edilmiştir [6][38][40]. Bu modeller, metin üretimi, soru yanıtlama, özetleme, çeviri, kod yazma ve çok daha fazlasında insana yakın veya insanı aşan performans sergilemektedir.

Bilgisayarlı Görü. Vision Transformer (ViT, Dosovitskiy ve ark., 2020), görüntü sınıflandırmasında Transformer'ı evrişimli ağlara rakip olarak konumlandırmıştır [8]. DINO, MAE, Segment Anything Model (SAM) gibi modern görü modelleri, Transformer tabanlı mimariler kullanmaktadır [8]. Bu gelişmeler, Transformer'ın "birleştirici mimari" rolünü somutlaştırmıştır.

Multimodal Modeller. CLIP (Radford ve ark., 2021), metin ve görüntüyü ortak bir temsil uzayında buluşturarak, multimodal yapay zekânın temellerini atmıştır [39]. DALL-E, Stable Diffusion ve Midjourney gibi görüntü üretim sistemleri, Transformer tabanlı bileşenler kullanmaktadır [39]. GPT-4V ve Gemini gibi modeller, metin, görüntü, ses ve video gibi farklı veri türlerini aynı anda işleyebilmektedir.

Bilimsel Keşif. AlphaFold 2'nin protein katlanma problemini çözmesi, Transformer mimarisinin bilimsel araştırmadaki dönüştürücü potansiyelini göstermiştir [9]. İlaç keşfi, malzeme bilimi, iklim modelleme gibi alanlarda Transformer tabanlı modeller giderek daha fazla kullanılmaktadır [9].

Akademik Miras. Transformer, yapay zekâ araştırmasında yeni bir çağ başlatmıştır. "Dikkat mekanizmalarının analizi", "verimli Transformer mimarileri", "Transformer ölçeklendirme yasaları", "temel modeller" gibi araştırma alanlarının tamamı, Transformer'ın doğrudan veya dolaylı mirası üzerine kurulmuştur [20][40][41]. NeurIPS, ICML, ICLR gibi büyük konferanslarda yayımlanan makalelerin önemli bir bölümü, Transformer ile ilişkili konuları ele almaktadır [10].

8. Bölüm Özeti

Transformer mimarisi, 2017'de yayımlanan "Attention Is All You Need" makalesiyle, yapay zekâ tarihinin en büyük paradigma değişimlerinden birini başlatmıştır [1]. Vaswani ve arkadaşlarının öz-dikkat mekanizmasını hesaplamanın merkezine yerleştirme kararı, yinelemeli yapılara olan bağımlılığı ortadan kaldırmış, tam paralelleştirmeyi mümkün kılmış ve modellerin ölçeklendirilebilirliğini dramatik biçimde artırmıştır [1][20]. Bu teknik yenilikler, doğal dil işlemeden bilgisayarlı görüye, protein katlanma tahmininden müzik üretimine uzanan geniş bir uygulama yelpazesinde devrimci sonuçlar doğurmuştur [6][7][8][9].

Kitabımızın genel argümanı açısından, Transformer birkaç kritik temayı somutlaştırmaktadır: yapay zekâ tarihindeki büyük atılımların birikimli bir entelektüel sürecin ürünü olduğu (dikkat mekanizmasının Bahdanau'dan Pointer Networks'e, oradan Transformer'a uzanan evrimi); basit ama derin fikirlerin muazzam sonuçlar doğurabildiği ("yinelemeli yapıları kaldırıp sadece dikkat kullanalım" fikrinin tüm yapay zekâ alanını dönüştürmesi); ve teknolojik yeniliklerin kaçınılmaz biçimde etik, toplumsal ve politik sonuçlar ürettiği (hesaplama eşitsizliği, çevresel etki, önyargı sorunları).

Bir sonraki bölümde, Transformer'ın kodlayıcı kısmını kullanan ve doğal dil işlemede "ince ayar" paradigmasını başlatan BERT modelini (Devlin ve ark., 2018) ele alacağız [7]. BERT, Transformer'ın "tek yönlü" sınırlamasını aşarak iki yönlü bağlam anlayışını NLP'ye kazandırmış ve "önceden eğitilmiş temel modeller" çağını resmen başlatmıştır.

9. Kaynakça

1. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems, 30, 5998-6008.

2. Vinyals, O., Fortunato, M., & Jaitly, N. (2015). Pointer Networks. Advances in Neural Information Processing Systems, 28, 2692-2700.

3. Bahdanau, D., Cho, K., & Bengio, Y. (2014). Neural Machine Translation by Jointly Learning to Align and Translate. arXiv preprint arXiv:1409.0473.

4. Hochreiter, S., & Schmidhuber, J. (1997). Long Short-Term Memory. Neural Computation, 9(8), 1735-1780.

5. Cho, K., van Merrienboer, B., Gulcehre, C., Bahdanau, D., Bougares, F., Schwenk, H., & Bengio, Y. (2014). Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing, 1724-1734.

6. Radford, A., Narasimhan, K., Salimans, T., & Sutskever, I. (2018). Improving Language Understanding by Generative Pre-Training. OpenAI Technical Report.

7. Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics, 4171-4186.

8. Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weisenberner, D., Zhai, X., Unterthiner, T., ... & Houlsby, N. (2021). An Image Is Worth 16×16 Words: Transformers for Image Recognition at Scale. Proceedings of the International Conference on Learning Representations.

9. Jumper, J., Evans, R., Pritzel, A., Green, T., Figurnov, M., Ronneberger, O., ... & Hassabis, D. (2021). Highly Accurate Protein Structure Prediction with AlphaFold. Nature, 596(7873), 583-589.

10. Google Scholar. (2025). Citation profile for "Attention Is All You Need." https://scholar.google.com/

11. Luong, M.-T., Pham, H., & Manning, C. D. (2015). Effective Approaches to Attention-based Neural Machine Translation. Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, 1412-1421.

12. Sutskever, I., Vinyals, O., & Le, Q. V. (2014). Sequence to Sequence Learning with Neural Networks. Advances in Neural Information Processing Systems, 27, 3104-3112.

13. Gehring, J., Auli, M., Grangier, D., Yarats, D., & Dauphin, Y. N. (2017). Convolutional Sequence to Sequence Learning. Proceedings of the 34th International Conference on Machine Learning, 1243-1252.

14. Kalchbrenner, N., Espeholt, L., Simonyan, K., van den Oord, A., Graves, A., & Kavukcuoglu, K. (2016). Neural Machine Translation in Linear Time. arXiv preprint arXiv:1610.10099.

15. Cheng, J., Dong, L., & Lapata, M. (2016). Long Short-Term Memory-Networks for Machine Reading. Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, 551-561.

16. Parikh, A. P., Täckström, O., Das, D., & Uszkoreit, J. (2016). A Decomposable Attention Model for Natural Language Inference. Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, 2249-2255.

17. Sukhbaatar, S., Szlam, A., Weston, J., & Fergus, R. (2015). End-To-End Memory Networks. Advances in Neural Information Processing Systems, 28, 2440-2448.

18. Bojar, O., Chatterjee, R., Federmann, C., Graham, Y., Haddow, B., Huck, M., ... & Zampieri, M. (2017). Findings of the 2017 Conference on Machine Translation (WMT17). Proceedings of the Second Conference on Machine Translation, 169-214.

19. Wu, Y., Schuster, M., Chen, Z., Le, Q. V., Norouzi, M., Macherey, W., ... & Dean, J. (2016). Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation. arXiv preprint arXiv:1609.08144.

20. Kaplan, J., McCandlish, S., Henighan, T., Brown, T. B., Chess, B., Child, R., ... & Amodei, D. (2020). Scaling Laws for Neural Language Models. arXiv preprint arXiv:2001.08361.

21. Öztürk, Z. K., & Özgür, A. (2019). Derin öğrenme mimarilerinin evrimi: Bir derleme çalışması. Bilişim Teknolojileri Dergisi, 12(3), 223-240.

22. Akyol, K., & Karcı, A. (2020). Derin öğrenme tabanlı doğal dil işleme yaklaşımları: Türkçe uygulamaları. Fırat Üniversitesi Mühendislik Bilimleri Dergisi, 32(2), 507-520.

23. Şahinuç, F., Toraman, C., & Can, F. (2021). Türkçe için Transformer Tabanlı Dil Modellerinin Performans Karşılaştırması. Türkiye Bilişim Vakfı Bilgisayar Bilimleri ve Mühendisliği Dergisi, 14(1), 38-50.

24. Elman, J. L. (1990). Finding Structure in Time. Cognitive Science, 14(2), 179-211.

25. Bengio, Y., Simard, P., & Frasconi, P. (1994). Learning Long-Term Dependencies with Gradient Descent Is Difficult. IEEE Transactions on Neural Networks, 5(2), 157-166.

26. Treisman, A. M., & Gelade, G. (1980). A Feature-Integration Theory of Attention. Cognitive Psychology, 12(1), 97-136.

27. Posner, M. I. (1980). Orienting of Attention. Quarterly Journal of Experimental Psychology, 32(1), 3-25.

28. Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). ImageNet Classification with Deep Convolutional Neural Networks. Advances in Neural Information Processing Systems, 25, 1097-1105.

29. Jouppi, N. P., Young, C., Patil, N., Patterson, D., Agrawal, G., Bajwa, R., ... & Yoon, D. H. (2017). In-Datacenter Performance Analysis of a Tensor Processing Unit. Proceedings of the 44th Annual International Symposium on Computer Architecture, 1-12.

30. Clark, K., Khandelwal, U., Levy, O., & Manning, C. D. (2019). What Does BERT Look At? An Analysis of BERT's Attention. Proceedings of the 2019 ACL Workshop BlackboxNLP, 276-286.

31. Patel, D. (2023). The Eight Transformer Authors: Where Are They Now? SemiAnalysis. https://www.semianalysis.com/

32. Wiggers, K. (2024). Noam Shazeer Returns to Google. TechCrunch.

33. Uszkoreit, J. (2017). Transformer: A Novel Neural Network Architecture for Language Understanding. Google AI Blog.

34. Sakana AI. (2023). About Us. https://sakana.ai/

35. Cohere. (2024). About Cohere. https://cohere.com/about

36. Near Protocol. (2024). About Near. https://near.org/

37. Kuhn, T. S. (1962). The Structure of Scientific Revolutions. University of Chicago Press.

38. Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., ... & Amodei, D. (2020). Language Models Are Few-Shot Learners. Advances in Neural Information Processing Systems, 33, 1877-1901.

39. Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. Proceedings of the 38th International Conference on Machine Learning, 8748-8763.

40. Bommasani, R., Hudson, D. A., Adeli, E., Altman, R., Arber, S., von Arx, S., ... & Liang, P. (2021). On the Opportunities and Risks of Foundation Models. arXiv preprint arXiv:2108.07258.

41. Kitaev, N., Kaiser, Ł., & Levskaya, A. (2020). Reformer: The Efficient Transformer. Proceedings of the International Conference on Learning Representations.

42. Katharopoulos, A., Vyas, A., Pappas, N., & Fleuret, F. (2020). Transformers Are RNNs: Fast Autoregressive Transformers with Linear Attention. Proceedings of the 37th International Conference on Machine Learning, 5156-5165.

43. Jain, S., & Wallace, B. C. (2019). Attention Is Not Explanation. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics, 3543-3556.

44. Ahmed, N., & Wahed, M. (2020). The De-Democratization of AI: Deep Learning and the Compute Divide in Artificial Intelligence Research. arXiv preprint arXiv:2010.15581.

45. Strubell, E., Ganesh, A., & McCallum, A. (2019). Energy and Policy Considerations for Deep Learning in NLP. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, 3645-3650.

46. Battaglia, P. W., Hamrick, J. B., Bapst, V., Sanchez-Gonzalez, A., Zambaldi, V., Malinowski, M., ... & Pascanu, R. (2018). Relational Inductive Biases, Deep Learning, and Graph Networks. arXiv preprint arXiv:1806.01261.

47. Yun, C., Bhojanapalli, S., Rawat, A. S., Reddi, S. J., & Kumar, S. (2020). Are Transformers Universal Approximators of Sequence-to-Sequence Functions? Proceedings of the International Conference on Learning Representations.

48. Schwartz, R., Dodge, J., Smith, N. A., & Etzioni, O. (2020). Green AI. Communications of the ACM, 63(12), 54-63.

49. Bender, E. M., Gebru, T., McMillan-Major, A., & Shmitchell, S. (2021). On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency, 610-623.

10. Tartışma Soruları

1. Analitik: Transformer, dikkat mekanizmasını yinelemeli yapılardan bağımsızlaştırarak "Tek ihtiyacınız olan dikkat mekanizması" iddiasını ortaya koymuştur. Bu iddianın arkasındaki teknik gerekçeler nelerdir ve dikkat mekanizmasının yinelemeli hesaplamanın yerine geçebilmesini sağlayan temel özellikler hangileridir?

2. Karşılaştırmalı: Bir önceki bölümde incelediğimiz Pointer Networks, dikkat mekanizmasını bir "karar aracı" olarak yeniden yorumlamıştı. Transformer ise dikkati hesaplamanın kendisi haline getirmiştir. Bu iki yaklaşım arasındaki kavramsal süreklilik ve kopuş noktalarını tartışınız. Pointer Networks olmadan Transformer ortaya çıkabilir miydi?

3. Spekülatif: Transformer mimarisi 2017'de değil de 2012'de — LSTM'lerin hâlâ yeni keşfedildiği ve GPU'ların derin öğrenme için henüz yaygın kullanılmadığı bir dönemde — önerilseydi, yapay zekâ araştırmalarının seyri nasıl değişirdi? Donanım ve yazılım altyapısının yeterliliğini göz önünde bulundurunuz.

4. Etik: Transformer'ın ölçeklendirme kapasitesi, büyük dil modellerinin geliştirilmesini büyük teknoloji şirketlerinin tekeline bırakmıştır. Bu hesaplama eşitsizliğinin araştırma çeşitliliği, akademik özgürlük ve küresel güney ülkelerinin yapay zekâ alanındaki katılımı açısından sonuçları nelerdir?

5. Güncel: 2024-2025 itibarıyla Transformer mimarisine alternatif olarak önerilen "durum uzayı modelleri" (state space models, Mamba gibi) ve "doğrusal dikkat" yaklaşımları, Transformer'ın karesel karmaşıklık sorununu çözmeyi amaçlamaktadır. Bu alternatifler, Transformer paradigmasının yerini alabilir mi yoksa tamamlayıcı bir rol mü üstlenecektir?

6. Karşılaştırmalı: Transformer'ın "birleştirici mimari" rolü — NLP, bilgisayarlı görü, protein katlanma gibi farklı alanlarda aynı temel yapının kullanılması — bilim tarihinde başka hangi örneklerle karşılaştırılabilir? Maxwell denklemlerinin elektrik ve manyetizmayı birleştirmesiyle bir analoji kurulabilir mi?

7. Analitik: Transformer'ın konum kodlaması (positional encoding) sinüzoidal fonksiyonlar kullanmaktadır. Bu tasarım tercihinin matematiksel gerekçeleri nelerdir? Öğrenilmiş konum gömmeleri (learned positional embeddings) veya göreli konum kodlamaları (relative positional encodings) gibi alternatiflerin avantaj ve dezavantajları nelerdir?

8. Etik: Bender ve arkadaşlarının (2021) "stokastik papağanlar" argümanı, büyük dil modellerinin anlamı gerçekten kavrayıp kavramadığını sorgulamaktadır. Transformer tabanlı modellerin toplumsal kararları etkilemesinin — işe alım, kredi değerlendirme, hukuki karar destek gibi alanlarda — etik sınırları nerede çizilmelidir?

9. Spekülatif: Transformer makalesinin sekiz yazarından altısı Google'dan ayrılarak kendi şirketlerini kurmuştur. Bu "beyin göçü" yapay zekâ alanındaki inovasyon dinamiklerini nasıl etkilemektedir? Temel araştırmaların büyük şirketlerde yapılıp, ticari uygulamaların girişimlerde hayata geçirilmesi modeli sürdürülebilir midir?

10. Güncel: AlphaFold 2'nin protein katlanma problemini Transformer tabanlı bir mimariyle çözmesi, yapay zekânın bilimsel keşif sürecindeki rolünü kökten değiştirmiştir. Transformer mimarisinin bilimsel araştırmada — ilaç keşfi, malzeme bilimi, iklim modelleme gibi alanlarda — gelecekteki potansiyeli ve sınırları nelerdir?

Önceki Bölüm

Bölüm 32: Pointer Networks

Sonraki Bölüm

Bölüm 34: BERT: Çift Yönlü Transformer'lar