GPT ve Büyük Dil Modellerinin Doğuşu

Ayan, Buğra

Bölüm 35 2018Derin Öğrenme Çağı

GPT ve Büyük Dil Modellerinin Doğuşu

GPT modelinin ortaya çıkışı ve büyük dil modelleri çağının başlangıcı.

GPT OpenAI büyük dil modeli otoregresif dil modeli

Önemli isimler: Alec Radford

1. Giriş

2018 yılının Haziran ayında, San Francisco merkezli bir yapay zekâ araştırma kuruluşu olan OpenAI, sessiz bir makale yayımladı: "Improving Language Understanding by Generative Pre-Training" [1]. Makalenin yazarları Alec Radford, Karthik Narasimhan, Tim Salimans ve Ilya Sutskever'di. Makale, bir konferansta sunulmadı; hakemli bir dergide yayımlanmadı; yalnızca OpenAI'ın kendi web sitesinde bir blog yazısıyla duyuruldu [1]. Görünüşte mütevazı bir çalışmaydı — 117 milyon parametre, bugünün standartlarıyla küçücük bir model. Ancak bu makale, yapay zekâ tarihinin en büyük paradigma değişimlerinden birinin ilk adımını oluşturuyordu: büyük dil modellerinin (large language models, LLM) yükselişi.

GPT — Generative Pre-trained Transformer — adından da anlaşılacağı üzere üç temel fikrin bileşimiydi: üretken modelleme (generative), ön-eğitim (pre-training) ve Transformer mimarisi [1]. Bu üç bileşenin hiçbiri tek başına yeni değildi. Bir önceki bölümde incelediğimiz BERT, aynı yılın Ekim ayında Transformer'ın kodlayıcı (encoder) tarafını kullanarak çift yönlü ön-eğitimin gücünü göstermişti [2]. Peters ve arkadaşları ELMo ile bağlamsal kelime gömmelerini tanıtmıştı [3]. Howard ve Ruder ULMFiT ile ön-eğitim ve ince ayar stratejilerini sistematikleştirmişti [4]. Ancak GPT, bu unsurları özgün bir biçimde birleştiren ilk model olarak, sonraki yılları belirleyecek bir yol haritası çizdi: büyük miktarda etiketlenmemiş metin üzerinde tek yönlü (soldan sağa) bir dil modeli ön-eğitimi yapmak, ardından bu temel modeli çeşitli aşağı akış görevlerine (downstream tasks) ince ayar (fine-tuning) ile uyarlamak [1].

GPT-1'in 2018'deki etkisi, BERT kadar dramatik değildi. BERT, on bir görev kıyaslamasında eş zamanlı rekorlar kırarak manşetleri kapladı [2]; GPT-1 ise daha ölçülü, daha az gürültülü bir başarı elde etti. Ancak tarihsel perspektiften bakıldığında, GPT-1'in açtığı yol çok daha dönüştürücü oldu. GPT-2 (2019) ölçeklemenin gücünü gösterdi [5]; GPT-3 (2020) bağlam içi öğrenmeyi (in-context learning) keşfetti [6]; ChatGPT (2022) yapay zekâyı kamusal alana taşıdı [7]; GPT-4 (2023) çok modlu yetenekleri sergiledi [8]. Bu zincirleme evrimin tamamı, 2018'deki o mütevazı 117 milyon parametrelik modelde başladı.

Bu bölümde GPT-1'in teknik mimarisini, eğitim stratejisini, entelektüel kökenlerini, OpenAI'ın kurumsal bağlamını, modelin dönemindeki konumunu, BERT ile arasındaki temel farkları, üretken ön-eğitim paradigmasının felsefi boyutlarını ve bu çalışmanın yapay zekâ tarihindeki belirleyici mirasını çok katmanlı biçimde inceleyeceğiz.

2. Literatür Taraması

GPT-1'in entelektüel konumunu kavramak için, dil modelleme, transfer öğrenme, Transformer mimarisi ve üretken ön-eğitim alanlarındaki literatürü birlikte değerlendirmemiz gerekmektedir.

Kurucu Çalışma. Radford, Narasimhan, Salimans ve Sutskever'in (2018) makalesi, Transformer çözücü (decoder) bloklarını kullanarak büyük ölçekli tek yönlü dil modeli ön-eğitiminin etkinliğini gösteren temel metindir [1]. Çalışma, doğal dil çıkarımı (natural language inference), soru yanıtlama, anlamsal benzerlik ve metin sınıflandırma dahil olmak üzere on iki farklı görevde, dokuzunda yeni en iyi sonuçlar elde etmiştir [1]. Makale, hakemli bir konferansta sunulmamış olmasına rağmen, sonraki GPT serisinin kavramsal temelini oluşturarak yapay zekâ tarihinin en etkili çalışmalarından biri haline gelmiştir.

Transformer Temeli. Vaswani ve arkadaşlarının (2017) "Attention Is All You Need" makalesi, GPT'nin mimari temelini oluşturmuştur [9]. Transformer'ın öz-dikkat (self-attention) mekanizması, RNN tabanlı modellerin sıralı hesaplama sınırlılığını aşarak paralel işlemeyi mümkün kılmıştır [9]. GPT, bu mimarinin yalnızca çözücü bloklarını kullanmış ve maskelenmiş öz-dikkat (masked self-attention) ile tek yönlü — yani yalnızca önceki sözcüklere bakarak bir sonraki sözcüğü tahmin eden — bir dil modeli inşa etmiştir [1][9].

Dil Modelleme Geleneği. Bengio, Ducharme, Vincent ve Jauvin'in (2003) çalışması, sinir ağı tabanlı dil modellerinin kurucu metnidir [10]. Kelimeleri yoğun vektörlerle temsil etme ve bir sonraki kelimeyi tahmin etme fikri, GPT'nin temel prensibiyle doğrudan örtüşmektedir [10]. Mikolov ve arkadaşlarının (2010) yinelemeli sinir ağı dil modeli (RNNLM) çalışması, bu yaklaşımı RNN'lerle ölçeklendirmiş ve dil modellemede derin öğrenme çağını başlatmıştır [11]. Jozefowicz ve arkadaşlarının (2016) çalışması, büyük ölçekli LSTM dil modellerinin şaşırtıcı düzeyde güçlü performans gösterdiğini kanıtlamış ve ölçeklemenin dil modellemede kritik bir değişken olduğunu ortaya koymuştur [12].

Bağlamsal Kelime Gömmeleri. Peters ve arkadaşlarının (2018) ELMo çalışması, çift yönlü LSTM kullanarak bağlama duyarlı kelime temsilleri üretmiş ve bu temsillerin aşağı akış görevlerini kayda değer biçimde iyileştirdiğini göstermiştir [3]. ELMo, önceden eğitilmiş temsillerin transfer değerini somut biçimde kanıtlamış, ancak özellik çıkarımı (feature extraction) yaklaşımını benimsemiş — yani ön-eğitimli temsiller aşağı akış modeline sabit özellikler olarak eklenmiş, modelin kendisi ince ayar görmemiştir [3]. GPT ise ince ayar (fine-tuning) yaklaşımını benimseyerek, ön-eğitimli modelin tamamını görev-özel verilerle güncellemiş ve bu stratejinin daha etkili olduğunu göstermiştir [1][3].

Transfer Öğrenme ve ULMFiT. Howard ve Ruder'ın (2018) ULMFiT çalışması, dil modeli ön-eğitiminden ince ayara geçişin sistematik stratejilerini tanımlamıştır: ayrımcı ince ayar (discriminative fine-tuning), eğik üçgensel öğrenme hızları (slanted triangular learning rates) ve kademeli çözme (gradual unfreezing) [4]. ULMFiT, LSTM tabanlı bir mimari kullanmasına rağmen, "ön-eğitim + ince ayar" paradigmasının NLP'de genel bir strateji olarak işlevsel olduğunu gösteren ilk kapsamlı çalışmadır [4]. GPT, bu paradigmayı Transformer mimarisiyle birleştirerek bir üst düzeye taşımıştır [1].

Semi-Denetimli Öğrenme. Dai ve Le'nin (2015) çalışması, denetimsiz ön-eğitimin denetimli öğrenmeyi iyileştirdiğini erken aşamada göstermiştir [13]. Ramachandran, Liu ve Le'nin (2017) çalışması ise seq2seq modellerinde denetimsiz ön-eğitimin etkinliğini kanıtlamıştır [14]. Bu çalışmalar, GPT'nin "önce denetimsiz, sonra denetimli" stratejisinin entelektüel öncülleridir.

Çok Görevli Öğrenme ve Görev-Agnostik Temsiller. Collobert ve Weston'ın (2008) çalışması, tek bir sinir ağı mimarisinin çok sayıda NLP görevini eş zamanlı öğrenebileceğini göstermişti [15]. McCann ve arkadaşlarının (2017) CoVe çalışması, makine çevirisi ön-eğitiminin diğer görevlere transfer edilebileceğini ortaya koymuştu [16]. GPT, bu görev-agnostik temsil öğrenme geleneğini ön-eğitim + ince ayar çerçevesinde somutlaştırmıştır [1].

Eleştirel ve Karşılaştırmalı Çalışmalar. Devlin ve arkadaşlarının (2019) BERT çalışması, GPT'nin tek yönlü ön-eğitim stratejisini doğrudan eleştirerek, çift yönlü ön-eğitimin dil anlama görevlerinde daha etkili olduğunu savunmuştur [2]. Liu ve arkadaşlarının (2019) RoBERTa çalışması, BERT'in eğitim stratejisini optimize ederek her iki yaklaşımın da eğitim kararlarına duyarlı olduğunu göstermiştir [17]. Wang ve arkadaşlarının (2018) GLUE kıyaslaması, GPT dahil çeşitli ön-eğitimli modellerin karşılaştırmalı değerlendirmesi için standart bir platform sağlamıştır [18].

Ölçekleme Çalışmaları. Kaplan ve arkadaşlarının (2020) "Scaling Laws for Neural Language Models" çalışması, model boyutu, veri miktarı ve hesaplama bütçesi arasındaki ilişkiyi matematiksel olarak tanımlamıştır [19]. Bu çalışma, GPT serisinin neden her nesilde daha büyük modeller inşa ettiğini açıklayan temel referanstır. Hestness ve arkadaşlarının (2017) çalışması da benzer ölçekleme yasalarını daha erken bir dönemde tespit etmişti [20].

Türkçe Literatür. Türkçe NLP alanında GPT tabanlı modellerin kullanımına ilişkin çalışmalar görece geç başlamıştır. Safaya, Kurfalı ve Guillen'in (2022) çalışması, Türkçe ön-eğitimli modellerin çeşitli NLP görevlerindeki performansını karşılaştırmıştır [21]. Schweter'in (2020) BERTurk projesi, Türkçe ön-eğitimli dil modellerinin geliştirilmesinde önemli bir kilometre taşıdır [22].

3. Tarihsel ve Teorik Arka Plan

GPT-1'in ortaya çıkışını anlamak için, 2018 yılındaki bilimsel ortamı, kurumsal dinamikleri ve dil modelleme alanındaki evrimsel süreci birlikte değerlendirmemiz gerekmektedir.

NLP'de "Kara Çağ"dan Ön-Eğitim Devrimine. 2018 öncesinde doğal dil işleme, bilgisayarlı görüye (computer vision) kıyasla transfer öğrenme konusunda belirgin biçimde geride kalmıştı [4]. Görü alanında ImageNet üzerinde ön-eğitim almış modellerin ince ayarla farklı görevlere uyarlanması — Krizhevsky ve arkadaşlarının (2012) AlexNet'inden bu yana — standart bir uygulama haline gelmişti [23]. Ancak NLP'de her görev için sıfırdan model eğitmek hâlâ yaygın pratikti [4]. Sebastian Ruder, bu durumu NLP'nin "ImageNet anı"nın henüz yaşanmamış olması şeklinde nitelendirmişti [24]. 2018, bu anın geldiği yıl oldu: ELMo, ULMFiT, GPT ve BERT art arda yayımlanarak NLP'de ön-eğitim çağını başlattı [1][2][3][4].

OpenAI'ın Kurumsal Bağlamı. GPT-1'in geliştirildiği kurum olan OpenAI, 2015 yılında Elon Musk, Sam Altman, Greg Brockman, Ilya Sutskever ve diğerlerinin öncülüğünde kar amacı gütmeyen bir araştırma kuruluşu olarak kurulmuştu [25]. Kuruluşun misyonu, genel yapay zekânın (artificial general intelligence, AGI) tüm insanlığa fayda sağlayacak biçimde geliştirilmesiydi [25]. 2018'de OpenAI, henüz GPT markasının gücünü keşfetmemiş, nispeten küçük bir araştırma laboratuvarıydı. Alec Radford, kuruluşun dil modelleme üzerine çalışan genç araştırmacılarından biriydi ve GPT projesi, OpenAI'ın o dönemdeki çeşitli araştırma hatlarından yalnızca biriydi [1]. Ancak bu proje, OpenAI'ın sonraki on yılını — ve yapay zekâ endüstrisinin geleceğini — tanımlayacaktı.

Transformer'dan GPT'ye: Mimari Seçim. Bir önceki bölümlerde incelediğimiz Transformer mimarisi, bir kodlayıcı (encoder) ve bir çözücü (decoder) olmak üzere iki ana bileşenden oluşuyordu [9]. 2018'de araştırmacılar, bu mimarinin hangi bileşenlerinin ön-eğitim için en uygun olduğunu henüz keşfediyordu. GPT, yalnızca çözücü bloklarını kullanarak tek yönlü (autoregressive) bir dil modeli inşa etti [1]. BERT ise yalnızca kodlayıcı bloklarını kullanarak çift yönlü bir maskelenmiş dil modeli geliştirdi [2]. Bu iki farklı mimari tercih, NLP'de iki farklı araştırma geleneğinin doğmasına yol açtı: üretken (generative) gelenek ve anlama (understanding) geleneği [1][2].

Dil Modellemenin Bilgi Sıkıştırma Olarak Yorumu. GPT'nin temel fikri — bir sonraki kelimeyi tahmin etmek — yüzeysel olarak basit görünse de, derin bir teorik temele sahipti. Shannon'ın (1951) bilgi kuramı çalışmasından bu yana, dil modellemenin aslında bir bilgi sıkıştırma problemi olduğu biliniyordu [26]. Bir dil modeli, eğitim verilerindeki istatistiksel düzenlilikleri öğrenerek, dilin yapısını — sözdizimi, anlambilim, dünya bilgisi, muhakeme kalıpları — dolaylı olarak kodluyordu [10][26]. GPT'nin ön-eğitim stratejisi, bu sıkıştırma sürecini büyük ölçekte gerçekleştirerek, ortaya çıkan temsillerin çeşitli görevlere transfer edilebilir genel bilgi içerdiğini gösterdi [1].

BookCorpus ve Veri Altyapısı. GPT-1'in ön-eğitimi için kullanılan veri seti, Zhu ve arkadaşlarının (2015) derlediği BookCorpus'tu — yaklaşık 7.000 yayımlanmamış kitaptan oluşan, 800 milyon kelimelik bir metin külliyatı [27]. Bu veri seti, ardışık ve uzun metin parçaları içermesi nedeniyle dil modellerinin uzun menzilli bağımlılıkları öğrenmesine olanak tanıyordu [1][27]. Veri setinin boyutu, 2018 standartlarıyla yeterli görülüyordu; ancak sonraki modellerde (GPT-2'de WebText, GPT-3'te Common Crawl) veri ölçeğinin katlanarak büyümesi, ön-eğitimde veri miktarının kritik bir değişken olduğunu ortaya koyacaktı [5][6].

4. Ana Konu Analizi

4a. Temel Mekanizma: Üretken Ön-Eğitim ve İnce Ayar

GPT-1'in teknik yeniliği, iki aşamalı bir eğitim stratejisinde somutlaşmaktadır [1].

Birinci Aşama: Denetimsiz Ön-Eğitim. İlk aşamada, model büyük bir etiketlenmemiş metin külliyatı (BookCorpus) üzerinde standart dil modelleme hedefiyle eğitilmiştir [1]. Bu hedef, verilen bir sözcük dizisi içinde bir sonraki sözcüğün olasılığını en yüksek düzeye çıkarmaktır — yani otoregresif (autoregressive) dil modelleme [1]. Model, Transformer çözücü bloklarını kullanmaktadır: 12 katman, 768 boyutlu gizli durum (hidden state), 12 dikkat başlığı (attention head) ve toplamda 117 milyon parametre [1]. Her katmanda maskelenmiş çok başlı öz-dikkat (masked multi-head self-attention) mekanizması uygulanmaktadır; bu maskeleme, modelin yalnızca önceki konumlardaki sözcüklere bakmasını sağlayarak, otoregresif yapıyı korumaktadır [1][9]. Konum bilgisi, öğrenilebilir konum gömmeleri (learned position embeddings) ile kodlanmıştır — Transformer'ın orijinal sinüzoidal konum kodlamasından farklı olarak [1][9].

Bu ön-eğitim sürecinde model, dilin yapısal düzenliliklerini — sözdizimi kurallarını, anlamsal ilişkileri, mantıksal kalıpları, dünya bilgisini — dolaylı biçimde öğrenmektedir [1]. Örneğin, "Güneş batıdan değil, ___'dan doğar" gibi bir cümleyi tamamlayabilmek için modelin coğrafi bilgiye; "Hasta, ateş ve öksürük şikâyetiyle geldi; doktor ___" gibi bir cümle için ise tıbbi bağlam bilgisine sahip olması gerekmektedir. Bu "dolaylı öğrenme", GPT'nin transfer gücünün kaynağıdır.

İkinci Aşama: Denetimli İnce Ayar. Ön-eğitim tamamlandıktan sonra, model belirli bir aşağı akış görevi için etiketli verilerle ince ayar görmüştür [1]. Bu aşamada, ön-eğitimli Transformer katmanlarının üzerine görev-özel bir doğrusal sınıflandırma katmanı eklenmekte ve modelin tüm parametreleri — hem ön-eğitimli katmanlar hem de yeni katman — etiketli verilerle güncellenmektedir [1]. Radford ve arkadaşları, ince ayar sırasında dil modelleme hedefinin yardımcı bir kayıp (auxiliary loss) olarak korunmasının performansı artırdığını deneysel olarak göstermiştir [1]. Bu teknik, modelin ön-eğitimde öğrendiği genel dil bilgisini ince ayar sürecinde "unutmasını" (catastrophic forgetting) engellemeye yardımcı olmaktadır [1].

Girdi Dönüşümleri. GPT-1'in önemli bir tasarım kararı, farklı görev türlerinin tek bir model mimarisine nasıl uyarlanacağıdır [1]. Radford ve arkadaşları, minimal mimari değişiklikle çeşitli görevlerin ele alınabileceğini göstermiştir: metin sınıflandırma için girdinin başına ve sonuna özel simgeler eklenmesi; metin çiftleri (ör. doğal dil çıkarımı) için iki metnin bir ayırıcı simgeyle birleştirilmesi; çoktan seçmeli sorular için her seçeneğin ayrı bir girdi olarak işlenmesi [1]. Bu yaklaşım, her görev için ayrı bir mimari tasarlama ihtiyacını ortadan kaldırmıştır.

4b. Kilit Aktörler ve Katkıları

Alec Radford, GPT projesinin birinci yazarı ve kavramsal mimarıdır [1]. Radford, OpenAI'a erken dönemde katılmış ve üretken modeller üzerine çalışmıştır. GPT-1'den önce, görüntü üretimi alanında DCGAN (Deep Convolutional Generative Adversarial Network) çalışmasıyla tanınıyordu [28]. Bu arka plan, Radford'un "üretken ön-eğitim" fikrine yaklaşımını şekillendirmiş olabilir — üretken modellerin yalnızca veri üretmek için değil, temsil öğrenmek için de güçlü araçlar olabileceği kavrayışı [1][28].

Karthik Narasimhan, doğal dil işleme ve pekiştirmeli öğrenme kesişiminde çalışan bir araştırmacıdır ve GPT makalesinin ikinci yazarıdır [1]. Tim Salimans, üretken modeller ve variasyonel çıkarım konusunda önemli çalışmaları olan bir araştırmacıdır [1]. Ilya Sutskever, GPT'nin son yazarı ve OpenAI'ın kurucu ortağı ve baş bilimcisidir (co-founder & chief scientist) [1][25]. Sutskever, derin öğrenmenin kurucu figürlerinden Geoffrey Hinton'ın öğrencisiydi ve seq2seq modelinin geliştiricilerinden biriydi [29]. Onun varlığı, GPT projesine hem entelektüel derinlik hem de kurumsal ağırlık kazandırmıştır.

Kurumsal Dinamik. GPT-1, OpenAI'ın "araştırma laboratuvarı" kimliğinin belirgin olduğu bir dönemde geliştirilmiştir [25]. 2018'de OpenAI henüz bir ticari ürün çıkarmamıştı; organizasyon, açık araştırma yayınları ve kod paylaşımıyla tanınıyordu. GPT-1'in kodu ve ağırlıkları açık kaynak olarak yayımlanmıştı — bu, GPT-2 ile başlayan ve GPT-3 ile derinleşen "kapalı model" politikasından belirgin biçimde farklıydı [1][5][6].

4c. Dönem İçindeki Yeri

2018, NLP tarihinde bir "annus mirabilis" — mucize yıl — olarak nitelendirilmektedir [24]. Yılın başında Peters ve arkadaşlarının ELMo'su bağlamsal kelime gömmelerini tanıttı [3]. Howard ve Ruder'ın ULMFiT'i ön-eğitim ve ince ayar stratejilerini sistematikleştirdi [4]. Haziran'da GPT-1, Transformer tabanlı üretken ön-eğitimi ortaya koydu [1]. Ekim'de BERT, çift yönlü ön-eğitimle on bir görev kıyaslamasında eş zamanlı rekorlar kırdı [2]. Bu dört çalışma birlikte, NLP'de "ön-eğitim devrimi" olarak adlandırılan paradigma değişimini başlattı [24].

GPT-1, bu dörtlü içinde belirli bir konuma sahiptir: kronolojik olarak BERT'ten önce gelmiş, ancak BERT'in anlık etkisi çok daha büyük olmuştur [1][2]. BERT, GPT'nin tek yönlü yaklaşımını doğrudan eleştirmiş ve çift yönlü ön-eğitimin dil anlama görevlerinde üstün olduğunu savunmuştur [2]. Bu eleştiri, 2018-2019 döneminde haklı görünmüştür: BERT, GLUE, SQuAD ve diğer kıyaslamalarda GPT-1'i geçmiştir [2][18]. Ancak tarih, GPT'nin "tek yönlü üretken" yaklaşımının, ölçeklendirildiğinde çok daha güçlü ve esnek bir paradigma olduğunu gösterecektir [5][6].

GPT-1 ile BERT arasındaki temel fark, yalnızca teknik değil, aynı zamanda felsefi bir ayrımdı [1][2]. BERT, dili "anlama" problemi olarak çerçeveledi — maskelenmiş kelimeleri doldurmak, cümle ilişkilerini sınıflandırmak [2]. GPT ise dili "üretme" problemi olarak çerçeveledi — bir sonraki kelimeyi tahmin etmek [1]. Bu iki yaklaşım, Chomsky'nin yeterlilik (competence) ve edim (performance) ayrımını, ya da dilbilimde anlama (comprehension) ve üretim (production) ikiliğini yansıtmaktaydı. 2020'lerin başında, üretken yaklaşımın — yani GPT geleneğinin — baskın paradigma haline gelmesi, dilin modellenmesinde "üretme yeteneğinin anlama yeteneğini de kapsadığı" hipotezinin ampirik doğrulanması olarak yorumlanabilir [6].

4d. Genel Yapay Zekâ Tarihindeki Yeri

GPT-1, yapay zekâ tarihinde birkaç temel açıdan dönüm noktası niteliğindedir.

Ölçekleme Paradigmasının Başlangıcı. GPT-1'in 117 milyon parametresi, GPT-2'de 1,5 milyara [5], GPT-3'te 175 milyara [6] ve GPT-4'te tahminen trilyonlarca parametreye çıkacaktır [8]. Bu ölçekleme eğilimi, Kaplan ve arkadaşlarının (2020) tanımladığı "ölçekleme yasaları"nın (scaling laws) pratik kanıtıdır [19]: model boyutu, veri miktarı ve hesaplama bütçesi arttıkça, performans öngörülebilir biçimde — ve bazen sürpriz biçimde — iyileşmektedir [19]. GPT-1, bu ölçekleme hikâyesinin ilk sayfasıdır.

Temel Model (Foundation Model) Kavramının Öncüsü. Bommasani ve arkadaşlarının (2021) tanımladığı "temel model" (foundation model) kavramı — büyük ölçekli veri üzerinde ön-eğitim almış, çeşitli aşağı akış görevlerine uyarlanabilen modeller — GPT-1'in somutlaştırdığı yaklaşımın kavramsallaştırılmasıdır [30]. GPT-1, tek bir ön-eğitimli modelin çok sayıda göreve uyarlanabileceğini göstererek, bu kavramın ampirik temelini atmıştır [1][30].

Yapay Zekâ Endüstrisinin Dönüşümü. GPT-1, doğrudan bir ticari ürüne dönüşmemiş olsa da, başlattığı araştırma hattı yapay zekâ endüstrisini kökten dönüştürmüştür. OpenAI'ın GPT-3 API'si (2020) [6], GitHub Copilot (2021), ChatGPT (2022) [7] ve GPT-4 (2023) [8] — tümü GPT-1'de kristalleşen "büyük üretken ön-eğitimli model" paradigmasının ticari uzantılarıdır.

5. Eleştirel Değerlendirme

GPT-1, önemli yenilikleri yanında çeşitli sınırlılıklar ve eleştirel sorular barındırmaktadır.

Tek Yönlülüğün Sınırlılığı. Devlin ve arkadaşlarının (2019) BERT makalesinde doğrudan vurguladığı üzere, GPT'nin tek yönlü (soldan sağa) ön-eğitim stratejisi, dil anlama görevlerinde ciddi bir dezavantaj oluşturmaktadır [2]. Bir kelimeyi anlamak için yalnızca önceki bağlama bakmak, birçok durumda yetersiz kalmaktadır — "Nehir kenarındaki bankta oturdu" cümlesinde "bank" kelimesinin anlamını belirlemek için sonraki bağlama da ihtiyaç vardır [2]. Bu eleştiri, 2018-2019 döneminde son derece haklıydı ve BERT'in anlık üstünlüğünü açıklamaktadır. Ancak sonraki yıllar, yeterli ölçekte eğitilmiş otoregresif modellerin de güçlü anlama yetenekleri geliştirebildiğini göstermiştir [6].

Mütevazı Ölçek. GPT-1'in 117 milyon parametresi ve BookCorpus üzerindeki eğitimi, modelin kapasitesini sınırlamıştır [1]. Bu ölçek, 2018 standartlarıyla makul olsa da, sonraki çalışmalar ölçeğin kritik önemini ortaya koymuştur [19]. GPT-1'in bazı görevlerdeki yetersiz performansı, mimari sınırlılıklardan çok ölçek yetersizliğinden kaynaklanmış olabilir [5][6].

Değerlendirme Sınırlılıkları. GPT-1, ağırlıklı olarak doğal dil çıkarımı, soru yanıtlama ve metin sınıflandırma gibi görevlerde değerlendirilmiştir [1]. Modelin üretken yetenekleri — tutarlı metin üretme, yaratıcı yazma, diyalog — sistematik biçimde test edilmemiştir [1]. Bu boyut, GPT-2 ve GPT-3 ile ortaya çıkacak ve büyük dil modellerinin asıl gücünün üretken kapasitede yattığını gösterecektir [5][6].

Veri Etiği Sorunları. BookCorpus, yayımlanmamış kitaplardan oluşmasına rağmen, yazarların açık rızası alınmadan derlenmiştir [27]. Bu durum, ön-eğitim verilerinin telif hakları ve etik boyutlarına ilişkin soruları gündeme getirmektedir. Bender ve arkadaşlarının (2021) "stokastik papağanlar" (stochastic parrots) makalesi, büyük dil modellerinin eğitim verilerindeki önyargıları ve etik sorunları sistematik biçimde ele almıştır [31]. GPT-1 döneminde bu sorunlar henüz yeterince tartışılmamıştı; ancak sonraki yıllarda merkezi bir endişe haline gelmiştir.

Yeniden Üretilebilirlik ve Erişim. GPT-1'in kodunun ve ağırlıklarının açık kaynak olarak yayımlanması, yeniden üretilebilirlik açısından olumlu bir adımdı [1]. Ancak ön-eğitim için gereken hesaplama kaynakları — birden fazla GPU üzerinde haftalarca süren eğitim — çoğu akademik kurumun erişiminin ötesindeydi [1]. Ahmed ve Wahed'in (2020) işaret ettiği gibi, büyük ölçekli ön-eğitim, yapay zekâ araştırmasını giderek büyük teknoloji şirketleri ve iyi finanse edilen laboratuvarlarla sınırlandırmaktadır [32]. GPT-1 bu trendin erken örneklerinden biriydi.

6. Etik ve Toplumsal Boyutlar

GPT-1'in kendisi doğrudan bir kamu ürünü olmadığı için, toplumsal etkileri dolaylı biçimde — başlattığı araştırma geleneği üzerinden — değerlendirilmelidir.

Önyargı ve Temsil. GPT-1'in eğitim verisi olan BookCorpus, ağırlıklı olarak İngilizce, Batılı ve belirli demografik grupların perspektiflerini yansıtmaktadır [27]. Bu önyargılar, modelin çıktılarına — ve sonraki GPT modellerinin çıktılarına — aktarılmaktadır [31]. Zhao ve arkadaşlarının (2019) çalışması, bağlamsal kelime gömmelerindeki cinsiyet önyargısını sistematik biçimde belgelemiştir [33]. GPT-1 döneminde bu sorun yeterince ele alınmamış olsa da, sonraki yıllarda büyük dil modellerinin önyargı sorunları merkezi bir araştırma ve politika konusu haline gelmiştir.

Hesaplama Eşitsizliği. GPT-1, büyük ölçekli ön-eğitimin gücünü göstererek, yapay zekâ araştırmasında hesaplama kaynaklarının önemini artırmıştır [32]. Bu durum, büyük teknoloji şirketleri ile akademik kurumlar arasındaki eşitsizliği derinleştirmiştir. Strubell ve arkadaşlarının (2019) çalışması, büyük NLP modellerinin eğitiminin çevresel maliyetlerini de gündeme getirmiştir [34].

Güç Yoğunlaşması. GPT serisinin gelişimi, yapay zekâ geliştirme kapasitesinin birkaç büyük kuruluşta — OpenAI, Google, Meta, Anthropic — yoğunlaşmasına katkıda bulunmuştur [32]. Bu yoğunlaşma, yapay zekânın demokratik denetimi, şeffaflığı ve hesap verebilirliği konularında ciddi sorular doğurmaktadır. GPT-1'in açık kaynak olarak yayımlanması bu kaygıları kısmen hafifletmişti; ancak GPT-2'den itibaren OpenAI'ın giderek daha kapalı bir model politikasına geçmesi, bu gerilimi belirginleştirmiştir [5].

Otomasyon ve İş Gücü. GPT-1 döneminde büyük dil modellerinin iş gücü piyasasına etkileri henüz gündemde değildi. Ancak GPT-1'in başlattığı gelenek, 2022-2023'te ChatGPT'nin yaygınlaşmasıyla birlikte, metin üretimi, müşteri hizmetleri, çeviri, kodlama ve eğitim gibi alanlarda otomasyon endişelerini somutlaştırmıştır [7]. Eloundou ve arkadaşlarının (2023) çalışması, GPT modellerinin ABD iş gücünün yaklaşık %80'ini etkileyen görevlerde kullanılabileceğini tahmin etmiştir [35]. Bu etkilerin tohumu, 2018'de atılmıştır.

7. Güncel Uygulamalar ve Miras

GPT-1'in doğrudan uygulaması sınırlı olsa da, başlattığı paradigmanın mirası günümüzde yapay zekânın hemen her alanına nüfuz etmiştir.

GPT Serisi ve Ticari Uygulamalar. GPT-1'in kavramsal çerçevesi, doğrudan GPT-2 [5], GPT-3 [6], InstructGPT [36], ChatGPT [7] ve GPT-4'e [8] uzanmaktadır. ChatGPT, 2022 yılında tarihin en hızlı büyüyen tüketici uygulaması olmuş ve yapay zekâyı kamusal alanın merkezine taşımıştır [7]. GPT-4, çok modlu yetenekleri ve gelişmiş muhakeme kapasitesiyle, GPT-1'in başlattığı ölçekleme vizyonunun somut bir kanıtıdır [8].

Rakip Modeller ve Ekosistem. GPT-1'in başlattığı "büyük üretken ön-eğitimli model" paradigması, yalnızca OpenAI'ın tekelinde kalmamıştır. Google'ın PaLM ve Gemini modelleri [37], Meta'nın LLaMA serisi [38], Anthropic'in Claude modelleri — tümü GPT-1'de kristalleşen temel kavramlar üzerine inşa edilmiştir. Bu ekosistem, yapay zekâ araştırmasının en dinamik ve rekabetçi alanını oluşturmaktadır.

Açık Kaynak Hareketi. GPT-1'in açık kaynak yayınlanması, NLP'de ön-eğitimli modellerin demokratikleşmesine katkıda bulunmuştur [1]. Bu gelenek, Hugging Face'in Transformers kütüphanesi [39], EleutherAI'ın GPT-Neo ve GPT-J modelleri ve Meta'nın LLaMA serisi ile devam etmiştir [38]. Wolf ve arkadaşlarının (2020) Transformers kütüphanesi, ön-eğitimli modellerin kolay erişim ve kullanımını mümkün kılarak, NLP araştırmasının demokratikleşmesinde kritik bir rol oynamıştır [39].

Akademik Miras. GPT-1, "ön-eğitim + ince ayar" paradigmasının NLP'deki standart uygulama haline gelmesine katkıda bulunmuştur [1]. Bu paradigma, daha sonra "ön-eğitim + yönergeli ince ayar" (instruction tuning) [36], "ön-eğitim + insan geri bildiriminden pekiştirmeli öğrenme" (RLHF) [36] ve "bağlam içi öğrenme" (in-context learning) [6] gibi varyantlarla evrilmiştir. Her bir varyant, GPT-1'in temel kavrayışı — büyük ölçekli denetimsiz ön-eğitimin güçlü transfer temsilleri ürettiği — üzerine inşa edilmiştir.

8. Bölüm Özeti

GPT-1, 2018 yılında OpenAI'da Alec Radford ve arkadaşları tarafından geliştirilen, Transformer çözücü bloklarını kullanarak büyük ölçekli tek yönlü dil modeli ön-eğitiminin etkinliğini gösteren bir çalışmadır [1]. Model, 117 milyon parametre ile BookCorpus üzerinde eğitilmiş ve on iki farklı NLP görevinde, dokuzunda yeni en iyi sonuçlar elde etmiştir [1]. GPT-1'in temel katkısı, üretken ön-eğitim (generative pre-training) ve ince ayar (fine-tuning) stratejisinin, minimal mimari değişiklikle çeşitli görevlere uyarlanabilen güçlü dil temsilleri ürettiğini göstermesidir.

GPT-1, döneminde BERT'in gölgesinde kalmış olsa da, başlattığı araştırma geleneği — otoregresif dil modelleme, ölçekleme, üretken yaklaşım — yapay zekâ tarihinin en dönüştürücü paradigmalarından birini oluşturmuştur. GPT-2, GPT-3, ChatGPT ve GPT-4, bu paradigmanın doğrudan uzantılarıdır. GPT-1'in hikâyesi, yapay zekâ tarihinde sıkça karşılaşılan bir örüntüyü yansıtmaktadır: en etkili fikirler her zaman en gürültülü olanlar değildir; bazen sessiz bir başlangıç, on yılları tanımlayan bir devrime dönüşür.

Bir sonraki bölümde, BERT'in NLP ekosistemindeki yaygın etkisini ve uygulamalarını inceleyeceğiz — GPT'nin üretken geleneğinin karşısında, kodlayıcı tabanlı modellerin dil anlama görevlerinde nasıl baskın hale geldiğini ve bu iki geleneğin sonraki yıllarda nasıl etkileşime girdiğini ele alacağız.

9. Kaynakça

1. Radford, A., Narasimhan, K., Salimans, T., & Sutskever, I. (2018). Improving Language Understanding by Generative Pre-Training. OpenAI Preprint.

2. Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics, 4171-4186.

3. Peters, M. E., Neumann, M., Iyyer, M., Gardner, M., Clark, C., Lee, K., & Zettlemoyer, L. (2018). Deep Contextualized Word Representations. Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics, 2227-2237.

4. Howard, J., & Ruder, S. (2018). Universal Language Model Fine-tuning for Text Classification. Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics, 328-339.

5. Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). Language Models are Unsupervised Multitask Learners. OpenAI Preprint.

6. Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., ... & Amodei, D. (2020). Language Models are Few-Shot Learners. Advances in Neural Information Processing Systems, 33, 1877-1901.

7. OpenAI. (2022). Introducing ChatGPT. OpenAI Blog.

8. OpenAI. (2023). GPT-4 Technical Report. arXiv preprint arXiv:2303.08774.

9. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems, 30, 5998-6008.

10. Bengio, Y., Ducharme, R., Vincent, P., & Jauvin, C. (2003). A Neural Probabilistic Language Model. Journal of Machine Learning Research, 3, 1137-1155.

11. Mikolov, T., Karafiát, M., Burget, L., Černocký, J., & Khudanpur, S. (2010). Recurrent Neural Network Based Language Model. Proceedings of the 11th Annual Conference of the International Speech Communication Association, 1045-1048.

12. Jozefowicz, R., Vinyals, O., Schuster, M., Shazeer, N., & Wu, Y. (2016). Exploring the Limits of Language Modeling. arXiv preprint arXiv:1602.02410.

13. Dai, A. M., & Le, Q. V. (2015). Semi-supervised Sequence Learning. Advances in Neural Information Processing Systems, 28, 3079-3087.

14. Ramachandran, P., Liu, P., & Le, Q. V. (2017). Unsupervised Pretraining for Sequence to Sequence Learning. Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, 383-391.

15. Collobert, R., & Weston, J. (2008). A Unified Architecture for Natural Language Processing: Deep Neural Networks with Multitask Learning. Proceedings of the 25th International Conference on Machine Learning, 160-167.

16. McCann, B., Bradbury, J., Xiong, C., & Socher, R. (2017). Learned in Translation: Contextualized Word Vectors. Advances in Neural Information Processing Systems, 30, 6294-6305.

17. Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., Levy, O., Lewis, M., Zettlemoyer, L., & Stoyanov, V. (2019). RoBERTa: A Robustly Optimized BERT Pretraining Approach. arXiv preprint arXiv:1907.11692.

18. Wang, A., Singh, A., Michael, J., Hill, F., Levy, O., & Bowman, S. R. (2018). GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding. arXiv preprint arXiv:1804.07461.

19. Kaplan, J., McCandlish, S., Henighan, T., Brown, T. B., Chess, B., Child, R., Gray, S., Radford, A., Wu, J., & Amodei, D. (2020). Scaling Laws for Neural Language Models. arXiv preprint arXiv:2001.08361.

20. Hestness, J., Narang, S., Ardalani, N., Diamos, G., Jun, H., Kianinejad, H., Patwary, M., Yang, Y., & Zhou, Y. (2017). Deep Learning Scaling is Predictable, Empirically. arXiv preprint arXiv:1712.01208.

21. Safaya, A., Kurfalı, M., & Guillen, P. (2022). Evaluating Turkish Language Models. Proceedings of the Thirteenth Language Resources and Evaluation Conference, 2614-2621.

22. Schweter, S. (2020). BERTurk — BERT Models for Turkish. Zenodo. https://doi.org/10.5281/zenodo.3770924

23. Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). ImageNet Classification with Deep Convolutional Neural Networks. Advances in Neural Information Processing Systems, 25, 1097-1105.

24. Ruder, S. (2018). NLP's ImageNet Moment Has Arrived. The Gradient Blog.

25. OpenAI. (2015). Introducing OpenAI. OpenAI Blog.

26. Shannon, C. E. (1951). Prediction and Entropy of Printed English. Bell System Technical Journal, 30(1), 50-64.

27. Zhu, Y., Kiros, R., Zemel, R., Salakhutdinov, R., Urtasun, R., Torralba, A., & Fidler, S. (2015). Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books. Proceedings of the IEEE International Conference on Computer Vision, 19-27.

28. Radford, A., Metz, L., & Chinta, S. (2016). Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks. Proceedings of the International Conference on Learning Representations.

29. Sutskever, I., Vinyals, O., & Le, Q. V. (2014). Sequence to Sequence Learning with Neural Networks. Advances in Neural Information Processing Systems, 27, 3104-3112.

30. Bommasani, R., Hudson, D. A., Adeli, E., Altman, R., Arber, S., von Arx, S., ... & Liang, P. (2021). On the Opportunities and Risks of Foundation Models. arXiv preprint arXiv:2108.07258.

31. Bender, E. M., Gebru, T., McMillan-Major, A., & Shmitchell, S. (2021). On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency, 610-623.

32. Ahmed, N., & Wahed, M. (2020). The De-Democratization of AI: Deep Learning and the Compute Divide in Artificial Intelligence Research. arXiv preprint arXiv:2010.15581.

33. Zhao, J., Wang, T., Yatskar, M., Cotterell, R., Ordonez, V., & Chang, K.-W. (2019). Gender Bias in Contextualized Word Embeddings. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics, 629-634.

34. Strubell, E., Ganesh, A., & McCallum, A. (2019). Energy and Policy Considerations for Deep Learning in NLP. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, 3645-3650.

35. Eloundou, T., Manning, S., Mishkin, P., & Rock, D. (2023). GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models. arXiv preprint arXiv:2303.10130.

36. Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C., Mishkin, P., ... & Lowe, R. (2022). Training Language Models to Follow Instructions with Human Feedback. Advances in Neural Information Processing Systems, 35, 27730-27744.

37. Google DeepMind. (2023). Gemini: A Family of Highly Capable Multimodal Models. arXiv preprint arXiv:2312.11805.

38. Touvron, H., Lavril, T., Izacard, G., Martinet, X., Lachaux, M.-A., Lacroix, T., ... & Lample, G. (2023). LLaMA: Open and Efficient Foundation Language Models. arXiv preprint arXiv:2302.13971.

39. Wolf, T., Debut, L., Sanh, V., Chaumond, J., Delangue, C., Moi, A., ... & Rush, A. M. (2020). Transformers: State-of-the-Art Natural Language Processing. Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations, 38-45.

10. Tartışma Soruları

1. Analitik: GPT-1'in otoregresif (soldan sağa) ön-eğitim stratejisi, neden dil üretimi görevlerinde doğal bir avantaj sağlamaktadır? Bu avantaj, dil anlama görevlerinde neden bir dezavantaja dönüşmektedir?

2. Karşılaştırmalı: GPT-1 (çözücü tabanlı, tek yönlü) ile BERT (kodlayıcı tabanlı, çift yönlü) arasındaki mimari ve felsefi farklar, bu iki modelin performans profillerini nasıl şekillendirmiştir? 2018'de BERT'in üstünlüğü açıkken, neden uzun vadede GPT geleneği baskın hale gelmiştir?

3. Spekülatif: GPT-1 Transformer çözücüsü yerine Transformer kodlayıcısını kullansaydı — yani BERT'e benzer bir mimari tercih yapsaydı — büyük dil modellerinin evrimi nasıl farklılaşırdı? Otoregresif dil modellemesinin üretken yapay zekâ için vazgeçilmez olup olmadığını tartışınız.

4. Etik: GPT-1'in eğitim verisi olan BookCorpus, yazarların açık rızası alınmadan derlenmiştir. Büyük dil modellerinin eğitiminde kullanılan verilerin telif hakları ve etik boyutları günümüzde nasıl tartışılmaktadır? Bu sorun için ne gibi çözümler önerilmektedir?

5. Güncel: GPT-1'den GPT-4'e uzanan ölçekleme eğilimi, "daha büyük = daha iyi" hipotezini desteklemektedir. Ancak ölçeklemenin fiziksel, ekonomik ve çevresel sınırları nelerdir? Bu sınırlar, büyük dil modellerinin geleceğini nasıl şekillendirebilir?

6. Analitik: GPT-1'in ince ayar sırasında dil modelleme hedefini yardımcı kayıp olarak korumasının, performansı artırdığı deneysel olarak gösterilmiştir. Bu bulgu, felaket düzeyinde unutma (catastrophic forgetting) problemiyle nasıl ilişkilidir ve ön-eğitim bilgisinin korunması için ne gibi stratejiler geliştirilmiştir?

7. Karşılaştırmalı: GPT-1'in "ön-eğitim + ince ayar" paradigması ile GPT-3'ün "bağlam içi öğrenme" (in-context learning) paradigması arasındaki temel farklar nelerdir? Bu geçiş, yapay zekânın öğrenme biçimine ilişkin ne gibi felsefi sorular doğurmaktadır?

8. Etik: GPT-1'in açık kaynak yayımlanması, GPT-2'den itibaren giderek kapalı bir model politikasına evrilmiştir. Büyük dil modellerinde açıklık ile güvenlik arasındaki denge nasıl kurulmalıdır? Açık kaynak modellerin araştırma demokratizasyonuna katkısı, potansiyel kötüye kullanım risklerine karşı nasıl tartılmalıdır?

9. Spekülatif: GPT-1, OpenAI yerine bir akademik kurum tarafından geliştirilseydi, büyük dil modellerinin ticarileşme süreci nasıl farklılaşırdı? Yapay zekâ araştırmasında ticari laboratuvarların baskın hale gelmesinin bilimsel ilerleme üzerindeki etkileri nelerdir?

10. Güncel: 2025 itibarıyla, GPT-1'in başlattığı otoregresif üretken gelenek, yapay zekânın baskın paradigması haline gelmiştir. Bu baskınlık kalıcı mıdır, yoksa kodlayıcı tabanlı modeller, difüzyon modelleri veya tamamen farklı yaklaşımlar bu paradigmayı sorgulayabilir mi?

Önceki Bölüm

Bölüm 34: BERT: Çift Yönlü Transformer'lar

Sonraki Bölüm

Bölüm 36: Ön-Eğitimli Modellerin NLP'yi Yeniden Biçimlendirişi