Ön-Eğitimli Modellerin NLP'yi Yeniden Biçimlendirişi

Ayan, Buğra

Bölüm 36 2018–2019Büyük Dil Modelleri

Ön-Eğitimli Modellerin NLP'yi Yeniden Biçimlendirişi

Ön-eğitimli modellerin doğal dil işleme alanını kökten değiştirmesi.

ön-eğitimli modeller NLP transfer öğrenme ince ayar BERT GPT

1. Giriş

2018'in son aylarında Google AI'dan Jacob Devlin ve arkadaşlarının BERT'i tanıtması, doğal dil işleme (natural language processing, NLP) tarihinin en keskin kırılma noktalarından birini oluşturmuştu [1]. Ancak BERT'in asıl etkisi, yayımlandığı Ekim 2018'de değil, 2019 yılı boyunca ortaya çıktı. 2019, NLP'nin "ImageNet anı"nın tam olarak gerçekleştiği yıldır — tıpkı 2012'de AlexNet'in görüntü tanımada devrim yapmasının ardından evrişimli sinir ağlarının (convolutional neural networks, CNN) birkaç yıl içinde görsel yapay zekânın tamamını dönüştürmesi gibi, BERT de ön-eğitimli dil modellerinin NLP'nin her köşesine yayılmasının fitilini ateşledi [2][3].

2019 yılında olan şey, tek bir modelin başarısı değil, bir paradigma değişiminin kristalleşmesidir. Bu yıl boyunca onlarca araştırma grubu, BERT'in açtığı yolda ilerleyerek daha büyük, daha verimli, daha özelleşmiş veya daha iyi eğitilmiş modeller geliştirdi. Liu ve arkadaşları RoBERTa ile BERT'in eğitim stratejisindeki eksiklikleri ortaya koydu [4]. Yang ve arkadaşları XLNet ile otoregresif ve oto-kodlama yaklaşımlarını birleştiren karma bir strateji önerdi [5]. Lan ve arkadaşları ALBERT ile parametre verimliliğini radikal biçimde artırdı [6]. Sanh ve arkadaşları DistilBERT ile bilgi damıtma (knowledge distillation) yoluyla daha küçük ve hızlı modeller üretti [7]. Clark ve arkadaşları ELECTRA ile ön-eğitim görevinin kendisini yeniden tasarladı [8]. Conneau ve Lample, çok dilli ön-eğitimin kapılarını XLM ile araladı [9].

Bu patlama, yalnızca akademik bir yarış değildi. 2019, ön-eğitimli modellerin endüstriyel uygulamalara geçişinin de başlangıç yılı oldu. Google, BERT'i arama motorunun temel bileşenlerinden biri haline getirdiğini Ekim 2019'da duyurdu — bu, şirketin beş yılda arama algoritmasına yaptığı en büyük değişiklik olarak nitelendirildi [10]. Microsoft, Bing arama motorunda benzer bir entegrasyonu hayata geçirdi [11]. Hugging Face'in Transformers kütüphanesi, ön-eğitimli modelleri birkaç satır kodla kullanılabilir hale getirerek demokratikleşme sürecini hızlandırdı [12].

2019'un NLP için anlamı, bir önceki bölümde incelediğimiz GPT-1'in ve Bölüm 34'te ele aldığımız BERT'in bireysel başarılarının ötesindedir. Bu yıl, "ön-eğitim + ince ayar" (pre-training + fine-tuning) paradigmasının artık istisnai değil normatif hale geldiği; NLP araştırmacılarının çalışma biçiminin, kaynak ihtiyaçlarının, kariyer yapılarının ve hatta bilimsel sorularının köklü biçimde değiştiği bir eşik yılıdır. Bu bölümde, 2019'daki bu çok katmanlı dönüşümü — teknik yenilikler, kurumsal dinamikler, endüstriyel uygulamalar, epistemolojik tartışmalar ve etik sorular düzleminde — derinlemesine inceleyeceğiz.

2. Literatür Taraması

2019'daki ön-eğitimli model patlamasını anlamak için, hem bu patlamayı tetikleyen kurucu çalışmaları hem de yıl içinde üretilen temel katkıları birlikte değerlendirmemiz gerekmektedir.

Kurucu Çalışmalar. Devlin, Chang, Lee ve Toutanova'nın (2019) NAACL konferansında sunulan BERT makalesi, çift yönlü Transformer kodlayıcısıyla ön-eğitimin gücünü kanıtlayarak 2019'daki tüm türev çalışmaların temelini oluşturmuştur [1]. Radford ve arkadaşlarının (2018) GPT-1 çalışması, Transformer çözücüsüyle tek yönlü ön-eğitimin etkinliğini göstermişti [13]. Vaswani ve arkadaşlarının (2017) Transformer mimarisi ise bu çalışmaların tamamının mimari omurgasını sağlamıştır [14]. Peters ve arkadaşlarının (2018) ELMo çalışması, bağlamsal kelime gömmelerinin transfer değerini kanıtlayarak BERT'e giden yolu açmıştır [15]. Howard ve Ruder'ın (2018) ULMFiT çalışması, ön-eğitim ve ince ayar stratejilerini NLP için sistematikleştiren ilk kapsamlı çerçeveydi [16].

RoBERTa ve Eğitim Stratejisi Tartışması. Liu, Ott, Goyal ve arkadaşlarının (2019) RoBERTa çalışması, BERT'in mimari olarak değil, eğitim stratejisi olarak yetersiz optimize edildiğini göstermiştir [4]. Sonraki cümle tahmini (next sentence prediction, NSP) görevinin kaldırılması, daha büyük mini-parti boyutları (batch size), daha uzun eğitim süreleri ve dinamik maskeleme (dynamic masking) stratejilerinin uygulanmasıyla, aynı BERT mimarisinin çok daha yüksek performans gösterdiğini kanıtlamıştır [4]. Bu çalışma, ön-eğitimli modellerin başarısının yalnızca mimariye değil, eğitim mühendisliğine (training engineering) de kritik düzeyde bağlı olduğunu ortaya koymuştur.

XLNet ve Permütasyon Dil Modeli. Yang, Dai, Yang, Carbonell, Salakhutdinov ve Le'nin (2019) XLNet çalışması, BERT'in maskelenmiş dil modeli (masked language model, MLM) yaklaşımının ön-eğitim ile ince ayar arasında uyumsuzluk (pretrain-finetune discrepancy) yarattığını eleştirmiştir [5]. Alternatif olarak, Transformer-XL'in göreli konum kodlamasını ve yineleme mekanizmasını permütasyon dil modellemesiyle birleştiren bir strateji geliştirmiştir [5]. XLNet, yayımlandığında yirmi farklı görev kıyaslamasında BERT'i geçerek büyük yankı uyandırmıştır [5].

ALBERT ve Parametre Verimliliği. Lan, Chen, Goodman, Gimpel, Sharma ve Soricut'un (2020, ilk ön baskı 2019) ALBERT çalışması, BERT'in parametre sayısını dramatik biçimde azaltırken performansı koruyan iki teknik önermiştir: katmanlar arası parametre paylaşımı (cross-layer parameter sharing) ve gömme matrisinin çarpanlara ayrılması (factorized embedding parameterization) [6]. Bu çalışma, "daha büyük her zaman daha iyidir" varsayımını sorgulayarak verimlilik tartışmasını başlatmıştır.

DistilBERT ve Bilgi Damıtma. Sanh, Debut, Chaumond ve Wolf'un (2019) DistilBERT çalışması, Hinton ve arkadaşlarının (2015) bilgi damıtma (knowledge distillation) tekniğini [17] BERT'e uygulayarak, orijinal modelin %97 performansını yalnızca %60 parametreyle koruyan kompakt bir model üretmiştir [7]. Bu çalışma, ön-eğitimli modellerin mobil cihazlara ve sınırlı kaynaklara sahip ortamlara taşınması açısından kritik bir adımdır.

ELECTRA ve Verimli Ön-Eğitim. Clark, Luong, Le ve Manning'in (2020, ilk ön baskı 2019) ELECTRA çalışması, maskelenmiş dil modeli yerine "değiştirilmiş belirteç algılama" (replaced token detection) adlı yeni bir ön-eğitim görevi önermiştir [8]. Bu yaklaşım, tüm giriş belirteçlerinden öğrenme sinyali çıkararak, BERT'e kıyasla çok daha az hesaplama kaynağıyla karşılaştırılabilir performans elde etmiştir [8].

Çok Dilli Modeller. Conneau ve Lample'ın (2019) XLM çalışması ve Conneau ve arkadaşlarının (2020) XLM-RoBERTa çalışması, ön-eğitimin tek dille sınırlı kalmayacağını göstermiştir [9][18]. Çok dilli ön-eğitim, düşük kaynaklı diller için transfer öğrenmenin kapılarını açmıştır.

Endüstriyel Uygulama. Nayak'ın (2019) Google arama blogu yazısı, BERT'in Google arama motoruna entegrasyonunu duyurmuş ve bu değişikliğin İngilizce aramaların yaklaşık %10'unu etkilediğini belirtmiştir [10]. Bu, ön-eğitimli modellerin milyarlarca kullanıcıyı doğrudan etkileyen ilk büyük ölçekli dağıtımıdır.

Demokratikleşme Altyapısı. Wolf ve arkadaşlarının (2020) Hugging Face Transformers kütüphanesi makalesi, ön-eğitimli modellere erişimi demokratikleştiren yazılım altyapısını tanımlamıştır [12]. Bu kütüphane, araştırmacıların ve geliştiricilerin modelleri birkaç satır kodla kullanmasını mümkün kılarak, alanın genişlemesinde belirleyici bir rol oynamıştır.

Ölçekleme ve Kaynak Tartışmaları. Strubell, Ganesh ve McCallum'ın (2019) çalışması, büyük ön-eğitimli modellerin eğitiminin karbon ayak izini hesaplamış ve NLP araştırmalarının çevresel maliyetini gündeme taşımıştır [19]. Bender, Gebru, McMillan-Major ve Shmitchell'ın (2021) "stokastik papağanlar" makalesi, bu endişeleri daha geniş bir etik çerçeveye oturtmuştur [20]. Schwartz, Dodge, Smith ve Etzioni'nin (2020) "Green AI" makalesi, verimlilik odaklı araştırmayı savunmuştur [21].

Türkçe Katkılar. Stefan Schweter'ın (2020) BERTurk çalışması, Türkçe için özel olarak eğitilmiş BERT modellerini sunarak, ön-eğitimli modellerin Türkçe NLP uygulamalarına adaptasyonunu sağlamıştır [22]. Safaya, Kurfalı ve Guillen'in (2020) çalışması ise çok dilli BERT modellerinin Türkçe metin sınıflandırmadaki performansını değerlendirmiştir [23].

3. Tarihsel ve Teorik Arka Plan

2019'daki ön-eğitimli model patlamasını anlamak için, bu patlamanın entelektüel ve kurumsal kökenlerine bakmak gerekmektedir.

Transfer Öğrenmenin Kökenleri. Transfer öğrenme (transfer learning) fikri, yapay zekâda en az 1990'lara kadar uzanır. Thrun'un (1996) "öğrenmeyi öğrenme" (learning to learn) çerçevesi, bir görevde edinilen bilginin başka görevlere aktarılabileceğini öne sürmüştür [24]. Ancak bu fikrin NLP'de pratik gerçekliğe dönüşmesi uzun zaman almıştır. Görüntü işlemede ImageNet üzerinde ön-eğitim ve ardından ince ayar stratejisi 2014'ten itibaren standart hale gelmişken [25], NLP'de benzer bir paradigma ancak 2018-2019'da olgunlaşmıştır. Bunun temel nedeni, dilin görüntülerden daha farklı bir yapıya sahip olmasıdır: dil sıralı, ayrık ve kombinatoryal biçimde karmaşıktır; bu özellikler, genel amaçlı temsillerinin öğrenilmesini zorlaştırmıştır [26].

Dil Temsillerinin Evrimi. NLP'deki temsil öğrenme, kabaca üç aşamadan geçmiştir. İlk aşamada, Bengio ve arkadaşlarının (2003) sinir ağı dil modeli, kelimeleri yoğun vektörlerle temsil etme fikrini ortaya koymuştur [27]. İkinci aşamada, Mikolov ve arkadaşlarının (2013) Word2Vec'i ve Pennington ve arkadaşlarının (2014) GloVe'u, statik kelime gömmelerini üretmiş — ancak bu gömmeler bağlamdan bağımsızdı; yani "bank" kelimesi her yerde aynı vektörle temsil ediliyordu [28][29]. Üçüncü aşamada, Peters ve arkadaşlarının (2018) ELMo'su bağlamsal gömmeleri tanıtmış ve BERT bu yaklaşımı Transformer mimarisiyle zirveye taşımıştır [15][1]. 2019'daki patlama, bu üçüncü aşamanın olgunlaşması ve çeşitlenmesidir.

Kurumsal Altyapı. 2019'daki model patlamasını mümkün kılan kritik bir faktör, hesaplama kaynaklarının belirli kurumlarda yoğunlaşmasıdır. Google, Facebook AI Research (FAIR), Microsoft Research, OpenAI ve bir avuç büyük teknoloji şirketi, yüzlerce hatta binlerce GPU veya TPU'dan oluşan hesaplama kümelerine sahipti [19]. BERT'in orijinal eğitimi 16 Cloud TPU üzerinde 4 gün sürmüştü [1]; RoBERTa'nın eğitimi 1024 V100 GPU üzerinde yaklaşık bir gün sürmüştür [4]. Bu ölçekteki hesaplama kaynakları, büyük üniversitelerin bile erişiminin ötesindeydi ve araştırmanın endüstri laboratuvarlarında yoğunlaşmasına yol açmıştır.

Kıyaslama Altyapısı. 2019'daki yarışı somutlaştıran bir diğer faktör, standartlaşmış kıyaslama veri setlerinin varlığıdır. Wang ve arkadaşlarının (2019) GLUE (General Language Understanding Evaluation) ve ardından SuperGLUE kıyaslamaları, modellerin performansını karşılaştırılabilir biçimde ölçen ortak bir zemin sağlamıştır [30][31]. Bu kıyaslamalar, araştırma grupları arasında şiddetli bir "skor yarışı" (leaderboard race) başlatmış ve 2019 boyunca neredeyse her ay yeni bir model rekor kırmıştır.

Açık Kaynak Kültürü. BERT'in etkisini katlayan kritik bir karar, Google'ın modeli ve kodunu açık kaynak olarak yayımlamasıdır [1]. Bu karar, dünyanın her yerindeki araştırmacıların model üzerinde deneyler yapmasını, onu uyarlamasını ve geliştirmesini mümkün kılmıştır. Hugging Face'in Transformers kütüphanesi bu açık kaynak kültürünü bir adım ileri taşıyarak, farklı modelleri birleşik bir arayüzle kullanılabilir hale getirmiştir [12].

4. Ana Konu Analizi

4a. Temel Mekanizma: Ön-Eğitimli Model Tasarımının Çeşitlenmesi

2019'daki model patlamasının merkezinde, BERT'in temel yaklaşımının — büyük bir metin külliyatı üzerinde öz-denetimli (self-supervised) ön-eğitim, ardından görev-özel ince ayar — farklı boyutlarda optimize edilmesi yer almaktadır. Bu optimizasyon çabaları birkaç ana eksende ilerlemiştir.

Eğitim Stratejisi Optimizasyonu. RoBERTa, BERT'in mimari yapısını değiştirmeden, yalnızca eğitim sürecini iyileştirerek ne denli büyük kazanımlar elde edilebileceğini göstermiştir [4]. İlk olarak, BERT'in sonraki cümle tahmini (NSP) görevini kaldırmış ve bunun performansı artırdığını gözlemlemiştir — bu, NSP'nin BERT'in başarısına aslında katkı sağlamadığını, hatta zararlı olduğunu ortaya koymuştur [4]. İkinci olarak, statik maskeleme yerine dinamik maskeleme kullanarak, modelin her seferinde farklı belirteçleri maskelemesini sağlamıştır [4]. Üçüncü olarak, 256 diziden 8.000 diziye kadar büyütülmüş mini-parti boyutlarıyla eğitimin kararlılığını artırmıştır [4]. Son olarak, eğitim verisini BookCorpus'tan çok daha geniş bir külliyata (CC-News, OpenWebText, Stories dahil) genişletmiştir [4]. RoBERTa'nın mesajı açıktı: ön-eğitimli modellerin potansiyeli, mimari yeniliklerden önce eğitim mühendisliği ile açığa çıkarılabilir.

Ön-Eğitim Görevinin Yeniden Tasarımı. BERT'in maskelenmiş dil modeli (MLM), giriş dizisindeki belirteçlerin %15'ini rastgele maskeleyerek modelin bunları tahmin etmesini ister [1]. Bu yaklaşımın iki temel sorunu vardır: birincisi, model yalnızca maskelenen belirteçlerden öğrenme sinyali alır (giriş belirteçlerinin %85'i israf edilir); ikincisi, ince ayar sırasında [MASK] belirteci bulunmaz, bu da ön-eğitim ile ince ayar arasında uyumsuzluk yaratır [8]. ELECTRA bu sorunları zarif bir çözümle aşmıştır: küçük bir "üretici" (generator) model maskelenen belirteçleri doldurmaya çalışır, ardından ana "ayırıcı" (discriminator) model, hangi belirteçlerin üretici tarafından değiştirildiğini tespit eder [8]. Bu ikili yapı, tüm giriş belirteçlerinden öğrenme sinyali çıkararak verimliliği dramatik biçimde artırmıştır — ELECTRA, BERT'in hesaplama bütçesinin dörtte biriyle karşılaştırılabilir performans elde etmiştir [8].

XLNet ise farklı bir yol izlemiştir. Permütasyon dil modellemesi (permutation language modeling) adı verilen teknikte, giriş dizisinin olası tüm sıralamalarının beklenen olabilirliğini en büyüklemeye çalışır [5]. Bu yaklaşım, BERT gibi çift yönlü bağlamı kullanabilmekte, ancak MLM'nin [MASK] belirtecine bağımlılığından kaçınmaktadır [5]. Ayrıca Transformer-XL'in segment düzeyinde yineleme mekanizmasını devralarak uzun bağımlılıkları daha iyi modelleyebilmektedir [5].

Parametre Verimliliği ve Model Sıkıştırma. BERT-Large'ın 340 milyon parametresi, 2019'da bile ciddi bir hesaplama ve bellek yükü oluşturuyordu [1]. ALBERT, iki temel teknikle bu yükü azaltmıştır: katmanlar arası parametre paylaşımı (tüm Transformer katmanları aynı parametreleri kullanır) ve gömme matrisinin çarpanlara ayrılması (büyük kelime dağarcığı gömme matrisini iki küçük matrisin çarpımına ayırır) [6]. Bu tekniklerle ALBERT, BERT-Large'dan 18 kat daha az parametreyle karşılaştırılabilir sonuçlar elde etmiştir [6]. DistilBERT ise farklı bir strateji izleyerek, büyük "öğretmen" modelin (BERT) bilgisini küçük bir "öğrenci" modele aktarmış ve %40 daha küçük, %60 daha hızlı bir model üretmiştir [7].

4b. Kilit Aktörler ve Katkıları

2019'daki ön-eğitimli model yarışı, birkaç büyük kurumun liderliğinde şekillenmiştir.

Google AI / Google Brain. BERT'in doğduğu kurum olan Google, 2019'da da alan üzerindeki etkisini sürdürmüştür. ALBERT (Google Research ve Toyota Teknoloji Enstitüsü işbirliğiyle) ve ELECTRA (Stanford Üniversitesi ve Google Brain işbirliğiyle) çalışmaları, Google'ın hem verimlilik hem de ön-eğitim görev tasarımı alanlarına katkıda bulunduğunu göstermektedir [6][8]. Google'ın T5 (Text-to-Text Transfer Transformer) modeli de 2019'un sonunda duyurulmuş ve NLP görevlerinin tamamını metin-metne dönüşüm olarak birleştiren kapsamlı bir çerçeve sunmuştur [32].

Facebook AI Research (FAIR). RoBERTa, FAIR'in en belirgin katkısıdır [4]. FAIR ayrıca XLM ile çok dilli ön-eğitim alanına öncülük etmiştir [9]. Bu çalışmalar, FAIR'in pragmatik mühendislik yaklaşımını yansıtmaktadır: radikal mimari yenilikler yerine mevcut modellerin daha iyi eğitilmesi ve farklı dillere genişletilmesi.

Carnegie Mellon Üniversitesi (CMU). XLNet, CMU'nun Google Brain ile ortak çalışmasıdır [5]. Zhilin Yang, Zihang Dai ve Ruslan Salakhutdinov'un liderliğindeki bu çalışma, akademik kurumların büyük ölçekli model araştırmalarına hâlâ anlamlı katkılar yapabildiğini göstermiştir — ancak bu, Google Brain'in hesaplama kaynaklarına erişim sayesinde mümkün olmuştur [5].

Hugging Face. 2016'da bir sohbet robotu girişimi olarak kurulan Hugging Face, 2019'da NLP ekosisteminin en kritik altyapı sağlayıcısı haline gelmiştir [12]. Thomas Wolf liderliğinde geliştirilen Transformers kütüphanesi, BERT, GPT-2, XLNet, RoBERTa ve diğer modelleri birleşik bir Python arayüzüyle kullanılabilir kılmıştır [12]. Bu kütüphane, ön-eğitimli modelleri yalnızca büyük laboratuvarların değil, bireysel araştırmacıların ve küçük şirketlerin de kullanmasını sağlayarak, alanın demokratikleşmesinde belirleyici bir rol oynamıştır.

4c. Dönem İçindeki Yeri: NLP'nin "Kambriyen Patlaması"

2019'daki model patlamasını anlamak için dönemin atmosferini yakalamak önemlidir. NLP araştırma topluluğunda bir tür "altına hücum" (gold rush) havası hakimdi [33]. Her ay yeni bir model GLUE veya SuperGLUE sıralama listesinin zirvesine oturuyor, arXiv'de her hafta ön-eğitimli modellerle ilgili onlarca yeni makale yayımlanıyordu. Rogers, Kovaleva ve Rumshisky'nin (2020) kapsamlı tarama çalışması, yalnızca BERT hakkında yapılan araştırmaların yüzlerce makaleye ulaştığını belgelemiştir [34].

Bu durum bazı araştırmacılarda tedirginlik yaratmıştır. "BERToloji" (BERTology) olarak adlandırılan bu yoğun çalışma akımı, bir yandan BERT'in nasıl çalıştığını anlama çabalarını hızlandırırken [34], diğer yandan NLP araştırmalarının homojenleştiğine dair endişeleri de beraberinde getirmiştir. Bazı araştırmacılar, alanın "daha büyük model, daha fazla veri, daha yüksek skor" döngüsüne hapsolduğunu ve temel dilbilimsel soruların göz ardı edildiğini savunmuştur [20].

2019 aynı zamanda, ön-eğitimli modellerin NLP'nin geleneksel görev tanımlarını sorgulamaya başladığı yıldır. BERT ve türevleri, duygu analizi, soru yanıtlama, doğal dil çıkarımı ve adlandırılmış varlık tanıma gibi görevlerin tamamında en iyi sonuçları elde ettiğinde, NLP araştırmasının temel sorusu "bu görevi nasıl çözeriz?" yerine "bu modeli nasıl daha iyi eğitiriz?" haline gelmiştir. Raffel ve arkadaşlarının (2020) T5 çalışması, bu eğilimi mantıksal sonucuna taşıyarak, tüm NLP görevlerini metin-metne dönüşüm olarak birleştiren tek bir çerçeve önermiştir [32].

4d. Genel YZ Tarihindeki Yeri: Paradigma Değişiminin Kristalleşmesi

2019, yapay zekâ tarihinde "ön-eğitim paradigması"nın kesinleştiği yıl olarak anılmaktadır. Bu paradigmanın temel bileşenleri şöyle özetlenebilir: (1) büyük, etiketlenmemiş bir veri külliyatı üzerinde öz-denetimli ön-eğitim; (2) ön-eğitimli modelin görev-özel etiketli verilerle ince ayar yapılması; (3) modelin çok sayıda farklı aşağı akış görevine uyarlanabilmesi [3][26].

Bu paradigma, NLP'nin ötesine geçerek yapay zekânın diğer alt alanlarını da etkilemiştir. Görüntü işlemede Vision Transformer (ViT) [35], biyolojide protein yapı tahmini için kullanılan dil modelleri [36], müzikte ve konuşmada ön-eğitimli modeller — bunların tamamı 2019'da NLP'de kristalleşen paradigmanın genelleştirilmiş uzantılarıdır.

Daha da önemlisi, 2019'daki model patlaması, bir sonraki bölümde inceleyeceğimiz GPT-2'nin yarattığı ölçekleme tartışmalarının ve 2020'deki GPT-3'ün bağlam içi öğrenme (in-context learning) keşfinin zeminini hazırlamıştır. BERT ve türevleri "ön-eğitim + ince ayar" paradigmasını mükemmelleştirirken, GPT serisi aynı dönemde "ön-eğitim + istem" (pre-training + prompting) paradigmasına doğru evrilmekteydi [37]. Bu iki yolun 2019'daki ayrışması, sonraki yılların en büyük tartışmalarından birini — modellerin göreve özel mi yoksa genel amaçlı mı olması gerektiğini — biçimlendirmiştir.

5. Eleştirel Değerlendirme

2019'daki ön-eğitimli model patlaması, NLP'de tartışmasız bir ilerleme sağlamıştır. Ancak bu ilerlemenin doğası, kapsamı ve maliyetleri konusunda önemli eleştiriler de yükselmiştir.

"Anlama" Yanılsaması. BERT ve türevlerinin kıyaslama testlerindeki etkileyici performansı, bu modellerin dili gerçekten "anladığı" izlenimini yaratmıştır. Ancak Bender ve Koller (2020), yalnızca metin formundaki dilsel veriden anlam öğrenmenin prensipte mümkün olmadığını savunmıştır — çünkü anlam, dilin dünyayla ilişkisini gerektirir ve bu ilişki metinde bulunmaz [38]. McCoy, Pavlick ve Linzen (2019), BERT'in doğal dil çıkarımı testlerinde başarılı görünmesinin büyük ölçüde yüzeysel istatistiksel örüntülere (heuristics) dayandığını deneysel olarak göstermiştir [39]. Bu bulgular, kıyaslama testlerinin modellerin gerçek yetkinliğini ölçme kapasitesini sorgulamıştır.

Kıyaslama Testlerinin Sınırlılıkları. 2019'daki "skor yarışı", kıyaslama testlerinin kendi sınırlılıklarını da gün yüzüne çıkarmıştır. GLUE kıyaslaması, modellerin hızla tavan performansına ulaşmasıyla yetersiz kalmış ve yerine daha zorlu olan SuperGLUE geliştirilmiştir [30][31]. Ancak SuperGLUE da kısa sürede benzer bir kaderi paylaşmıştır. Bu durum, Goodhart Yasası'nın (bir ölçüt hedef haline geldiğinde iyi bir ölçüt olmaktan çıkar) yapay zekâ araştırmalarındaki tezahürüdür [40]. Raji ve arkadaşlarının (2021) eleştirisi, kıyaslama odaklı araştırmanın modellerin gerçek dünya performansını sistematik olarak abartabileceğini göstermiştir [41].

Hesaplama Eşitsizliği. Strubell, Ganesh ve McCallum'ın (2019) hesaplama maliyeti analizi, NLP araştırmalarındaki eşitsizliği somutlaştırmıştır [19]. Büyük bir ön-eğitimli modeli eğitmek, düzinelerce GPU'nun haftalarca çalıştırılmasını gerektirir — bu da onlarca hatta yüzlerce bin dolar hesaplama maliyeti anlamına gelir [19]. Bu durum, akademik kurumları büyük ölçekli model araştırmalarından fiilen dışlamış ve araştırmanın endüstri laboratuvarlarında yoğunlaşmasına yol açmıştır. Ahmed ve Wahed'in (2020) analizi, üst düzey NLP konferanslarındaki makalelerin giderek artan oranda endüstri bağlantılı yazarlara ait olduğunu göstermiştir [42].

Tekrarlanabilirlik Sorunu. 2019'daki birçok model, devasa hesaplama kaynaklarıyla eğitildiği için bağımsız araştırmacılar tarafından kolayca doğrulanamazken, model ağırlıklarının açık kaynak olarak paylaşılması bu sorunu kısmen hafifletmiştir. Ancak eğitim sürecinin kendisini yeniden üretmek, çoğu araştırma grubu için ekonomik olarak mümkün değildir [19][21].

6. Etik ve Toplumsal Boyutlar

2019'daki ön-eğitimli model patlamasının etik ve toplumsal boyutları, teknik başarılarının gölgesinde kalmış ancak sonraki yıllarda giderek daha fazla tartışılmıştır.

Eğitim Verisi ve Önyargılar. Ön-eğitimli modeller, internet metninden öğrenir ve bu metin, toplumun mevcut önyargılarını yansıtır. Zhao, Wang, Yatskar, Ordonez ve Chang'ın (2019) çalışması, BERT'in toplumsal cinsiyet önyargılarını sistematik biçimde içerdiğini göstermiştir [43]. Bu önyargılar, modelin aşağı akış görevlerindeki kararlarına da yansır — örneğin, bir iş ilanı sınıflandırma sisteminde belirli mesleklerin belirli cinsiyetlerle ilişkilendirilmesi gibi [43].

Çevresel Maliyet. Strubell ve arkadaşlarının (2019) hesaplamasına göre, büyük bir Transformer modelinin eğitimi yaklaşık 284 ton CO₂ eşdeğeri karbon salımına neden olabilir — bu, ortalama bir Amerikan otomobilinin ömür boyu karbon ayak izinin beş katıdır [19]. Bu bulgu, NLP topluluğunda "yeşil yapay zekâ" (Green AI) tartışmasını başlatmıştır [21]. Ancak 2019'da bu endişeler, hâlâ marjinal kalmış ve model ölçeklendirme yarışı hız kesmeden devam etmiştir.

Erişim Eşitsizliği ve Dijital Uçurum. 2019'daki modellerin büyük çoğunluğu İngilizce metin üzerinde eğitilmiştir. Joshi, Santy, Buber, Bali ve Choudhury'nin (2020) analizi, dünya dillerinin büyük çoğunluğunun NLP kaynaklarından yoksun olduğunu belgelemiştir [44]. XLM ve XLM-RoBERTa gibi çok dilli modeller bu sorunu kısmen ele almıştır [9][18], ancak düşük kaynaklı diller için performans farkı büyük kalmaktadır. Bu durum, yapay zekâ teknolojilerinin mevcut küresel eşitsizlikleri derinleştirme riskini taşımaktadır.

Güç Yoğunlaşması. 2019'daki model yarışı, yapay zekâ araştırmasında güç yoğunlaşmasını hızlandırmıştır. En iyi modelleri eğitme kapasitesi, bir avuç büyük teknoloji şirketiyle sınırlı hale gelmiştir. Bu durum, yapay zekânın gelecek yönünü belirleme gücünün demokratik denetimden uzaklaşması anlamına gelmektedir [20][42].

7. Güncel Uygulamalar ve Miras

2019'daki ön-eğitimli model patlamasının mirası, 2025 itibarıyla yapay zekânın hemen her alanında görülebilir.

Endüstriyel Standart. "Ön-eğitim + ince ayar" (veya "ön-eğitim + istem") paradigması, 2025 itibarıyla yapay zekâ uygulamalarının fiili standardıdır. ChatGPT, Claude, Gemini ve diğer büyük dil modelleri, 2019'da kristalleşen bu paradigmanın doğrudan uzantılarıdır [37]. Google arama, Microsoft Bing, Amazon Alexa ve benzeri ürünlerde ön-eğitimli modeller temel bileşen olarak kullanılmaktadır [10][11].

Model Ekosistemi. Hugging Face'in Model Hub'ı, 2025 itibarıyla yüz binlerce ön-eğitimli modeli barındıran devasa bir ekosisteme dönüşmüştür [12]. Bu ekosistem, 2019'daki demokratikleşme hareketinin doğrudan mirasıdır. Araştırmacılar ve geliştiriciler, sıfırdan model eğitmek yerine mevcut modelleri uyarlayarak çalışabilmektedir.

Verimlilik Araştırmaları. ALBERT, DistilBERT ve ELECTRA'nın başlattığı verimlilik tartışması, 2025'te de devam etmektedir [6][7][8]. Model sıkıştırma (compression), budama (pruning), nicemleme (quantization) ve bilgi damıtma teknikleri, ön-eğitimli modellerin mobil cihazlara ve kenar bilişim (edge computing) ortamlarına taşınması için kritik araştırma alanları olmaya devam etmektedir.

Çok Dilli ve Çok Modlu Genişleme. 2019'da XLM ile başlayan çok dilli ön-eğitim geleneği, 2025 itibarıyla yüzden fazla dili kapsayan modellere genişlemiştir [9][18]. Aynı ön-eğitim paradigması, görüntü (Vision Transformer), ses (wav2vec 2.0), video ve çoklu modaliteleri birleştiren modellere de uygulanmıştır [35].

Akademik Miras. 2019, NLP araştırmalarında bir "önce-sonra" çizgisi oluşturmuştur. Araştırma soruları, yöntemleri ve hatta kariyer yapıları bu yıldan itibaren köklü biçimde değişmiştir. "BERT sonrası NLP" kavramı, alanın kendisini tanımlama biçimini yeniden şekillendirmiştir [34].

8. Bölüm Özeti

2019, doğal dil işleme tarihinde bir paradigma değişiminin kristalleştiği eşik yıldır. BERT'in 2018 sonundaki çığır açıcı çalışması, 2019 boyunca RoBERTa, XLNet, ALBERT, DistilBERT, ELECTRA ve XLM gibi onlarca türev model tarafından genişletilmiş, optimize edilmiş ve farklı eksenlerde yeniden yorumlanmıştır. Bu patlama, "ön-eğitim + ince ayar" paradigmasını NLP'nin normatif çalışma biçimi haline getirmiş; endüstriyel uygulamalara geçişi başlatmış; Hugging Face gibi altyapı sağlayıcıları aracılığıyla demokratikleşmeyi hızlandırmıştır. Ancak aynı dönem, hesaplama eşitsizliği, çevresel maliyet, kıyaslama testlerinin sınırlılıkları, önyargı sorunları ve güç yoğunlaşması gibi temel eleştirileri de beraberinde getirmiştir. 2019'un mirası, yalnızca teknik yeniliklerle değil, bu yeniliklerin yarattığı toplumsal, ekonomik ve etik sorularla birlikte değerlendirilmelidir.

Bu bölüm, bir sonraki bölümde ele alacağımız GPT-2'nin ölçekleme stratejisi ve "denetimsiz çoklu görev öğrenimi" iddiasıyla doğrudan bağlantılıdır. BERT geleneği "her görev için ince ayar" yaklaşımını mükemmelleştirirken, GPT serisi "tek model, tüm görevler" vizyonuna doğru evrilmekteydi — bu iki yolun 2019'daki ayrışması, yapay zekânın sonraki on yılını biçimlendirecek temel gerilimi oluşturmaktadır.

9. Kaynakça

1. Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of deep bidirectional transformers for language understanding. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics (NAACL), 4171–4186.

2. Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). ImageNet classification with deep convolutional neural networks. Advances in Neural Information Processing Systems, 25, 1097–1105.

3. Ruder, S. (2019). NLP's ImageNet moment has arrived. The Gradient. https://thegradient.pub/nlp-imagenet-moment-has-arrived/

4. Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., Levy, O., Lewis, M., Zettlemoyer, L., & Stoyanov, V. (2019). RoBERTa: A robustly optimized BERT pretraining approach. arXiv preprint arXiv:1907.11692.

5. Yang, Z., Dai, Z., Yang, Y., Carbonell, J., Salakhutdinov, R., & Le, Q. V. (2019). XLNet: Generalized autoregressive pretraining for language understanding. Advances in Neural Information Processing Systems, 32, 5753–5763.

6. Lan, Z., Chen, M., Goodman, S., Gimpel, K., Sharma, P., & Soricut, R. (2020). ALBERT: A lite BERT for self-supervised learning of language representations. Proceedings of the International Conference on Learning Representations (ICLR).

7. Sanh, V., Debut, L., Chaumond, J., & Wolf, T. (2019). DistilBERT, a distilled version of BERT: Smaller, faster, cheaper and lighter. arXiv preprint arXiv:1910.01108.

8. Clark, K., Luong, M.-T., Le, Q. V., & Manning, C. D. (2020). ELECTRA: Pre-training text encoders as discriminators rather than generators. Proceedings of the International Conference on Learning Representations (ICLR).

9. Conneau, A., & Lample, G. (2019). Cross-lingual language model pretraining. Advances in Neural Information Processing Systems, 32, 7059–7069.

10. Nayak, P. (2019). Understanding searches better than ever before. Google Blog. https://blog.google/products/search/search-language-understanding-bert/

11. Parekh, R. (2019). Bing delivers its largest improvement in search experience using Azure GPUs. Microsoft Blog. https://blogs.bing.com/search-quality-insights/

12. Wolf, T., Debut, L., Sanh, V., Chaumond, J., Delangue, C., Moi, A., ... & Rush, A. M. (2020). Transformers: State-of-the-art natural language processing. Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations, 38–45.

13. Radford, A., Narasimhan, K., Salimans, T., & Sutskever, I. (2018). Improving language understanding by generative pre-training. OpenAI Technical Report.

14. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). Attention is all you need. Advances in Neural Information Processing Systems, 30, 5998–6008.

15. Peters, M. E., Neumann, M., Iyyer, M., Gardner, M., Clark, C., Lee, K., & Zettlemoyer, L. (2018). Deep contextualized word representations. Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics (NAACL), 2227–2237.

16. Howard, J., & Ruder, S. (2018). Universal language model fine-tuning for text classification. Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (ACL), 328–339.

17. Hinton, G., Vinyals, O., & Dean, J. (2015). Distilling the knowledge in a neural network. arXiv preprint arXiv:1503.02531.

18. Conneau, A., Khandelwal, K., Goyal, N., Chaudhary, V., Wenzek, G., Guzmán, F., Grave, E., Ott, M., Zettlemoyer, L., & Stoyanov, V. (2020). Unsupervised cross-lingual representation learning at scale. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics (ACL), 8440–8451.

19. Strubell, E., Ganesh, A., & McCallum, A. (2019). Energy and policy considerations for deep learning in NLP. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics (ACL), 3645–3650.

20. Bender, E. M., Gebru, T., McMillan-Major, A., & Shmitchell, S. (2021). On the dangers of stochastic parrots: Can language models be too big? Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency (FAccT), 610–623.

21. Schwartz, R., Dodge, J., Smith, N. A., & Etzioni, O. (2020). Green AI. Communications of the ACM, 63(12), 54–63.

22. Schweter, S. (2020). BERTurk: BERT models for Turkish. Zenodo. https://doi.org/10.5281/zenodo.3770924

23. Safaya, A., Kurfalı, M., & Guillen, C. L. (2020). KUISAIL at SemEval-2020 task 12: BERT-CNN for offensive speech identification in social media. Proceedings of the 14th International Workshop on Semantic Evaluation (SemEval-2020), 2054–2059.

24. Thrun, S. (1996). Is learning the n-th thing any easier than learning the first? Advances in Neural Information Processing Systems, 8, 640–646.

25. Yosinski, J., Clune, J., Bengio, Y., & Lipson, H. (2014). How transferable are features in deep neural networks? Advances in Neural Information Processing Systems, 27, 3320–3328.

26. Qiu, X., Sun, T., Xu, Y., Shao, Y., Dai, N., & Huang, X. (2020). Pre-trained models for natural language processing: A survey. Science China Technological Sciences, 63(10), 1872–1897.

27. Bengio, Y., Ducharme, R., Vincent, P., & Jauvin, C. (2003). A neural probabilistic language model. Journal of Machine Learning Research, 3, 1137–1155.

28. Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781.

29. Pennington, J., Socher, R., & Manning, C. D. (2014). GloVe: Global vectors for word representation. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), 1532–1543.

30. Wang, A., Singh, A., Michael, J., Hill, F., Levy, O., & Bowman, S. R. (2019). GLUE: A multi-task benchmark and analysis platform for natural language understanding. Proceedings of the International Conference on Learning Representations (ICLR).

31. Wang, A., Pruksachatkun, Y., Nangia, N., Singh, A., Michael, J., Hill, F., Levy, O., & Bowman, S. R. (2019). SuperGLUE: A stickier benchmark for general-purpose language understanding systems. Advances in Neural Information Processing Systems, 32, 3261–3275.

32. Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., Zhou, Y., Li, W., & Liu, P. J. (2020). Exploring the limits of transfer learning with a unified text-to-text transformer. Journal of Machine Learning Research, 21(140), 1–67.

33. Jurafsky, D., & Martin, J. H. (2023). Speech and Language Processing (3rd ed. draft). Stanford University.

34. Rogers, A., Kovaleva, O., & Rumshisky, A. (2020). A primer in BERTology: What we know about how BERT works. Transactions of the Association for Computational Linguistics, 8, 842–866.

35. Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., ... & Houlsby, N. (2021). An image is worth 16x16 words: Transformers for image recognition at scale. Proceedings of the International Conference on Learning Representations (ICLR).

36. Rives, A., Meier, J., Sercu, T., Goyal, S., Lin, Z., Liu, J., ... & Fergus, R. (2021). Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences. Proceedings of the National Academy of Sciences, 118(15), e2016239118.

37. Liu, P., Yuan, W., Fu, J., Jiang, Z., Hayashi, H., & Neubig, G. (2023). Pre-train, prompt, and predict: A systematic survey of prompting methods in natural language processing. ACM Computing Surveys, 55(9), 1–35.

38. Bender, E. M., & Koller, A. (2020). Climbing towards NLU: On meaning, form, and understanding in the age of data. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics (ACL), 5185–5198.

39. McCoy, R. T., Pavlick, E., & Linzen, T. (2019). Right for the wrong reasons: Diagnosing syntactic heuristics in natural language inference. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics (ACL), 3428–3448.

40. Goodhart, C. A. E. (1984). Problems of monetary management: The U.K. experience. In Monetary Theory and Practice (pp. 91–121). Macmillan.

41. Raji, I. D., Bender, E. M., Paullada, A., Denton, E., & Hanna, A. (2021). AI and the everything in the whole wide world benchmark. Proceedings of the 35th Conference on Neural Information Processing Systems (NeurIPS) Track on Datasets and Benchmarks.

42. Ahmed, N., & Wahed, M. (2020). The de-democratization of AI: Deep learning and the compute divide in artificial intelligence research. arXiv preprint arXiv:2010.15581.

43. Zhao, J., Wang, T., Yatskar, M., Ordonez, V., & Chang, K.-W. (2019). Gender bias in contextualized word embeddings. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics (NAACL), 629–634.

44. Joshi, P., Santy, S., Buber, A., Bali, K., & Choudhury, M. (2020). The state and fate of linguistic diversity and inclusion in the NLP world. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics (ACL), 6282–6293.

10. Tartışma Soruları

1. Analitik: RoBERTa'nın, BERT'in mimarisini hiç değiştirmeden yalnızca eğitim stratejisini iyileştirerek daha yüksek performans elde etmesi, yapay zekâ araştırmalarında "mimari yenilik" ile "mühendislik optimizasyonu" arasındaki dengeye ilişkin ne söylemektedir? Bu bulgu, araştırma önceliklerini nasıl yeniden şekillendirmiştir? [4]

2. Karşılaştırmalı: BERT'in maskelenmiş dil modeli (MLM) ile ELECTRA'nın değiştirilmiş belirteç algılama (replaced token detection) yaklaşımını karşılaştırınız. Her iki ön-eğitim görevinin avantajları ve dezavantajları nelerdir? Neden MLM, ELECTRA'nın üstün verimliliğine rağmen daha yaygın kullanılmıştır? [1][8]

3. Spekülatif: 2019'da Hugging Face Transformers kütüphanesi geliştirilmemiş olsaydı, ön-eğitimli modellerin benimsenmesi nasıl farklılaşırdı? Açık kaynak altyapı araçlarının bilimsel ilerleme üzerindeki etkisini tartışınız. [12]

4. Etik: Strubell ve arkadaşlarının hesaplamasına göre büyük bir Transformer modelinin eğitimi, bir otomobilin ömür boyu karbon salımının beş katına eşdeğer CO₂ üretebilir. Bu çevresel maliyeti göz önüne alarak, büyük model eğitimine devam edilmesi ne zaman etik olarak meşru, ne zaman sorgulanabilir hale gelir? [19]

5. Güncel: 2019'da BERT ve türevlerinin benimsediği "ön-eğitim + ince ayar" paradigması, 2025 itibarıyla GPT-4 ve Claude gibi modellerin benimsediği "ön-eğitim + istem" (prompting) paradigmasıyla büyük ölçüde yer değiştirmiştir. Bu paradigma geçişi, NLP'nin temel soruları ve yöntemleri açısından ne anlama gelmektedir? [37]

6. Analitik: 2019'daki GLUE ve SuperGLUE kıyaslama yarışı, araştırma topluluğunu belirli türde ilerlemelere yönlendirirken hangi türde soruların göz ardı edilmesine yol açmış olabilir? Kıyaslama odaklı araştırmanın avantajları ve gizli maliyetleri nelerdir? [30][31][41]

7. Karşılaştırmalı: ALBERT'in parametre paylaşımı yaklaşımı ile DistilBERT'in bilgi damıtma yaklaşımını karşılaştırınız. Model verimliliğini artırmanın bu iki farklı stratejisi, hangi kullanım senaryolarında birbirine üstünlük sağlar? [6][7]

8. Etik: 2019'daki ön-eğitimli modellerin büyük çoğunluğu İngilizce metin üzerinde eğitilmiştir. Bu durum, düşük kaynaklı dilleri konuşan topluluklar için ne gibi eşitsizlikler yaratmaktadır? Çok dilli modeller bu sorunu ne ölçüde çözmektedir ve kalıcı çözümler için ne gereklidir? [9][18][44]

9. Spekülatif: 2019'daki model yarışında, akademik kurumlar endüstri laboratuvarlarıyla hesaplama kaynakları açısından rekabet edemez hale gelmiştir. Eğer bu eğilim tersine çevrilse — örneğin devlet destekli büyük ölçekli akademik hesaplama merkezleri kurulsa — yapay zekâ araştırmalarının yönü nasıl değişirdi? [19][42]

10. Güncel: McCoy ve arkadaşlarının BERT'in "yanlış nedenlerle doğru sonuçlara" ulaştığını gösteren çalışması, günümüzün çok daha büyük dil modelleri için de geçerli midir? Modellerin gerçekten "anladığı" ile yalnızca istatistiksel örüntüleri taklit ettiği arasındaki farkı nasıl test edebiliriz? [38][39]

Önceki Bölüm

Bölüm 35: GPT ve Büyük Dil Modellerinin Doğuşu

Sonraki Bölüm

Bölüm 37: GPT-2: Denetimsiz Çoklu Görev Öğrenimi