Bölüm 39 2019Büyük Dil Modelleri

RoBERTa

RoBERTa modelinin BERT'i optimize eden yaklaşımı ve NLP'deki başarıları.

RoBERTa Facebook AI BERT optimizasyonu NLP ön-eğitim
Önemli isimler: Yinhan Liu

1. Giriş

Yapay zeka tarihinde belirli dönüm noktaları, tamamen yeni mimarilerin icadıyla değil, mevcut mimarilerin ne kadar "eksik" eğitildiğinin keşfedilmesiyle şekillenir. 2019 yılında Facebook AI Research (FAIR) ve Washington Üniversitesi'nden bir ekip tarafından geliştirilen RoBERTa (Robustly Optimized BERT Pretraining Approach), tam da böyle bir dönüm noktasını temsil etmektedir [1]. Yinhan Liu, Myle Ott, Naman Goyal ve meslektaşlarının imzasını taşıyan bu çalışma, Google'ın bir yıl önce yayımladığı BERT modelinin temel mimarisine dokunmadan, yalnızca eğitim sürecindeki hiperparametreleri, veri miktarını ve ön-eğitim stratejilerini sistematik biçimde yeniden tasarlayarak tüm büyük doğal dil işleme (natural language processing, NLP) kıyaslama testlerinde yeni rekorlar kırmıştır [1].

RoBERTa'nın ortaya çıkışı, yapay zeka araştırmalarında uzun süredir ikinci planda kalan bir gerçeği ön plana taşımıştır: bir modelin mimari tasarımı kadar — hatta belki daha fazla — eğitim mühendisliği de performansı belirleyen kritik bir faktördür [2]. BERT'in 2018'deki ilk yayınında kullanılan eğitim konfigürasyonunun "yeterli" olup olmadığı sorusu, RoBERTa ekibinin sistematik ablasyon deneyleriyle cevaplandırılmıştır. Sonuç çarpıcıydı: BERT, aslında ciddi ölçüde "yetersiz eğitilmiş" (undertrained) bir modeldi [1]. Dinamik maskeleme (dynamic masking), Sonraki Cümle Tahmini (Next Sentence Prediction, NSP) görevinin kaldırılması, çok daha büyük mini-batch boyutları, daha uzun eğitim süreleri ve on kat daha büyük bir eğitim verisi — tüm bu değişiklikler bir araya geldiğinde, aynı transformer kodlayıcı mimarisi çok daha güçlü bir model haline gelmiştir [1][2].

Bu bölüm, RoBERTa'nın geliştirilme sürecini, arkasındaki deneysel metodolojini, BERT ile olan karşılaştırmalı analizini ve daha geniş bir perspektiften bakıldığında bu çalışmanın büyük dil modelleri (large language models, LLM) paradigmasındaki yerini kapsamlı biçimde ele alacaktır. RoBERTa, yalnızca teknik bir optimizasyon çalışması olmanın ötesinde, "model mimarisi mi yoksa eğitim rejimi mi daha önemlidir?" sorusunu yapay zeka topluluğunun gündemine taşıyan felsefi bir tartışmanın da fitilini ateşlemiştir. Önceki bölümlerde ele aldığımız BERT'in çığır açan iki yönlü dikkat mekanizması ve Hibrit Zeka kavramının ardından, bu bölümde odak noktamızı eğitim mühendisliğinin gücüne çevireceğiz; sonraki bölümde ise GPT-3'ün az-örnekli öğrenme (few-shot learning) kapasitesiyle ölçeklemenin farklı bir boyutunu inceleyeceğiz.

2. Literatür Taraması

RoBERTa'nın entelektüel ve teknik temelleri, 2017-2019 yılları arasında hızla gelişen ön-eğitimli dil modelleri (pretrained language models) literatürüne dayanmaktadır. Vaswani ve arkadaşlarının 2017'de yayımladığı "Attention Is All You Need" makalesi, öz-dikkat (self-attention) mekanizmasına dayalı Transformer mimarisini tanıtarak bu alandaki tüm sonraki gelişmelerin temelini atmıştır [3]. Transformer, tekrarlayan sinir ağlarının (recurrent neural networks, RNN) sıralı işleme kısıtlamalarını ortadan kaldırarak paralel hesaplamayı mümkün kılmış ve eğitim sürelerini dramatik biçimde kısaltmıştır [3].

Bu mimari üzerine inşa edilen ilk büyük ön-eğitimli model, Radford ve arkadaşlarının 2018'de OpenAI bünyesinde geliştirdiği GPT olmuştur [4]. GPT, tek yönlü (unidirectional) bir dil modeli olarak soldan sağa metin üretimi paradigmasını benimsemiş ve ince ayar (fine-tuning) yaklaşımıyla birçok NLP görevinde başarılı sonuçlar elde etmiştir [4]. Ancak GPT'nin tek yönlü yapısı, metindeki bağlamsal ilişkilerin yalnızca bir yönde öğrenilmesine olanak tanıyordu.

Devlin ve arkadaşları, 2018 sonunda yayımladıkları BERT çalışmasıyla bu sınırlamayı aşmıştır [5]. BERT, maskelenmiş dil modelleme (masked language modeling, MLM) ve Sonraki Cümle Tahmini (NSP) olmak üzere iki ön-eğitim görevi kullanarak iki yönlü (bidirectional) bağlam öğrenmeyi gerçekleştirmiştir [5]. BERT'in SQuAD, MNLI ve GLUE gibi kıyaslama testlerindeki çarpıcı başarısı, NLP topluluğunda büyük bir heyecan yaratmıştır [5]. Ancak BERT'in orijinal eğitim konfigürasyonunun optimal olup olmadığı sorusu, yayının hemen ardından tartışılmaya başlanmıştır.

Peters ve arkadaşlarının ELMo çalışması (2018), bağlama duyarlı kelime temsillerinin (contextualized word representations) NLP performansını nasıl artırabileceğini göstermiş ve bu alandaki öncü çalışmalardan biri olmuştur [6]. Howard ve Ruder'ın ULMFiT yöntemi (2018), transfer öğrenmenin NLP'deki gücünü sistematik biçimde ortaya koymuştur [7]. Yang ve arkadaşlarının XLNet modeli (2019) ise permütasyon tabanlı dil modelleme ile BERT'in maskeleme stratejisine alternatif bir yaklaşım sunmuş ve birçok kıyaslama testinde BERT'i geride bırakmıştır [8]. Ancak XLNet'in başarısının mimari yenilikten mi yoksa daha fazla veri ve hesaplama gücünden mi kaynaklandığı tartışmalıydı [1][8].

Bu tartışma, RoBERTa ekibinin temel motivasyonunu oluşturmuştur. Liu ve arkadaşları (2019), BERT ile XLNet arasındaki performans farkının büyük ölçüde eğitim prosedürlerindeki farklılıklardan kaynaklandığını öne sürmüşlerdir [1]. Lan ve arkadaşlarının ALBERT çalışması (2019) da parametre paylaşımı ve cümle sırası tahmini gibi tekniklerle BERT mimarisini daha verimli hale getirmeyi amaçlamış, ancak farklı bir optimizasyon yolunu izlemiştir [9]. Joshi ve arkadaşları (2020), SpanBERT ile maskeleme stratejisinin farklı varyantlarını araştırarak ardışık metin parçalarının (spans) maskelenmesinin performansı artırabileceğini göstermişlerdir [10].

Raffel ve arkadaşlarının kapsamlı T5 çalışması (2020), transfer öğrenmenin sınırlarını araştıran büyük ölçekli bir deneysel çalışma olarak, veri boyutu, model boyutu ve eğitim stratejisinin performans üzerindeki etkilerini sistematik biçimde analiz etmiştir [11]. Kaplan ve arkadaşlarının ölçekleme yasaları (scaling laws) çalışması (2020) ise model boyutu, veri miktarı ve hesaplama bütçesi arasındaki ilişkiyi matematiksel olarak formüle ederek bu alandaki deneysel çalışmalara teorik bir çerçeve sağlamıştır [12]. Wang ve arkadaşlarının GLUE (2018) ve SuperGLUE (2019) kıyaslama setleri, bu modellerin performansının standartlaştırılmış biçimde ölçülmesini mümkün kılmıştır [13][14].

Sun ve arkadaşları (2019), BERT ince ayarında en iyi uygulamaları araştırmış ve eğitim sırasındaki küçük değişikliklerin performans üzerinde büyük etkilere sahip olabileceğini göstermiştir [15]. Zhu ve arkadaşlarının (2015) büyük batch boyutlarıyla eğitim üzerine çalışmaları, RoBERTa'nın benimsediği büyük mini-batch stratejisinin teorik temellerini oluşturmuştur [16]. Türkçe NLP alanında ise Schweter'in BERTurk modeli (2020), RoBERTa tarzı optimizasyonların Türkçe dil modelleri üzerindeki etkisini ortaya koyan önemli bir çalışma olmuştur [17].

3. Tarihsel ve Teorik Arka Plan

RoBERTa'nın ortaya çıktığı 2019 yılı, yapay zeka tarihinde ön-eğitimli dil modellerinin "altın çağı" olarak adlandırılabilecek bir dönemin tam ortasına denk gelmektedir. BERT'in Ekim 2018'deki yayınının ardından NLP topluluğu bir tür paradigma değişimi yaşamış, neredeyse her araştırma grubu BERT'in üzerine inşa edilmiş yeni modeller geliştirmeye başlamıştır [5]. Google, Microsoft, Facebook, OpenAI ve çeşitli üniversiteler arasında kıyasıya bir rekabet sürmekteydi ve her hafta yeni bir "BERT'i geçen" model duyuruluyordu.

Bu rekabet ortamında temel bir metodolojik sorun giderek belirginleşmişti: yeni bir modelin başarısı, gerçekten mimari yeniliklerden mi kaynaklanıyordu, yoksa daha fazla veri, daha fazla hesaplama gücü ve daha iyi ayarlanmış hiperparametreler mi belirleyici faktördü? Bu soru, aslında makine öğrenmesinin tarihinde tekrar tekrar karşılaşılan bir ikilemdi. 1990'larda destek vektör makinelerinin (support vector machines, SVM) sinir ağlarını geride bırakmasının ardından, 2010'lardaki derin öğrenme devriminin büyük ölçüde veri miktarı ve GPU hesaplama gücündeki artışlarla mümkün olduğu bilinmekteydi [18].

RoBERTa'nın entelektüel soy ağacını çizebilmek için, ön-eğitimli dil modeli paradigmasının kökenlerine bakmak gerekir. Transfer öğrenme (transfer learning) fikri, bilgisayarla görme alanında ImageNet üzerinde eğitilmiş modellerin diğer görsel görevlere aktarılmasıyla büyük başarı kazanmıştı [19]. NLP'de bu fikrin sistematik biçimde uygulanması, önce kelime gömmeleri (word embeddings) — Word2Vec (Mikolov ve ark., 2013) ve GloVe (Pennington ve ark., 2014) — ile başlamış, ardından bağlama duyarlı temsillere (ELMo, ULMFiT) ve nihayet tam ön-eğitimli transformer modellerine (GPT, BERT) evrilmiştir [6][7][20][21].

BERT'in orijinal eğitim konfigürasyonu şu parametrelere dayanıyordu: BookCorpus ve İngilizce Wikipedia'dan oluşan yaklaşık 16 GB metin verisi, 256 sekans boyutunda mini-batch'ler, 1 milyon eğitim adımı ve statik maskeleme [5]. BERT-Large modeli için toplam eğitim süresi, 64 TPU çipi üzerinde yaklaşık dört gün sürmekteydi [5]. RoBERTa ekibinin temel hipotezi, bu konfigürasyonun BERT mimarisinin kapasitesini tam olarak kullanmadığıydı [1].

Dönemin kurumsal altyapısı da bu tür büyük ölçekli deneyleri mümkün kılıyordu. Facebook AI Research, NVIDIA'nın yeni nesil GPU'larını ve kendi geliştirdiği dağıtık eğitim çerçevesi fairseq'i kullanarak 1024 V100 GPU üzerinde modeller eğitebiliyordu [1][22]. Bu hesaplama gücü, RoBERTa ekibinin kapsamlı ablasyon çalışmaları yürütmesinin ve farklı eğitim konfigürasyonlarını sistematik biçimde karşılaştırmasının ön koşuluydu.

Teorik olarak RoBERTa, "ölçekleme hipotezi" (scaling hypothesis) ile doğrudan ilişkilidir. Bu hipotez, dil modellerinin performansının büyük ölçüde üç faktörün — model boyutu, veri miktarı ve hesaplama bütçesi — bir fonksiyonu olduğunu öne sürmektedir [12]. RoBERTa, model boyutunu sabit tutarak diğer iki faktörü artırmanın etkisini deneysel olarak göstermiş ve bu hipotezi destekleyen güçlü kanıtlar sunmuştur [1].

4. Ana Konu Analizi

4a. Temel Mekanizma: Sistematik Eğitim Optimizasyonu

RoBERTa'nın temel katkısı, BERT mimarisini — 12 veya 24 katmanlı transformer kodlayıcıyı, çok başlı öz-dikkat mekanizmasını ve maskelenmiş dil modelleme görevini — olduğu gibi koruyarak, yalnızca eğitim prosedürlerinde beş kritik değişiklik yapmasıdır [1].

Dinamik Maskeleme: BERT'in orijinal uygulamasında maskeleme deseni, veri ön işleme aşamasında bir kez belirlenir ve tüm eğitim boyunca sabit kalırdı; bu durum "statik maskeleme" olarak adlandırılır [5]. RoBERTa, her eğitim epoch'unda maskeleme desenini yeniden oluşturan "dinamik maskeleme" stratejisini benimsemiştir [1]. Bu değişiklik, modelin aynı girdiyi her gördüğünde farklı tokenları tahmin etmesini gerektirerek daha zengin ve çeşitli öğrenme sinyalleri sağlamıştır. Liu ve arkadaşları, dinamik maskelemenin statik maskelemeye kıyasla tutarlı biçimde daha iyi performans ürettiğini deneysel olarak kanıtlamışlardır [1].

NSP Görevinin Kaldırılması: BERT, iki farklı ön-eğitim görevi kullanmaktaydı: maskelenmiş dil modelleme (MLM) ve Sonraki Cümle Tahmini (NSP) [5]. NSP, modele ardışık iki cümle verildiğinde ikinci cümlenin gerçekten birincinin devamı olup olmadığını tahmin etmeyi öğretiyordu. RoBERTa ekibi, NSP görevinin kaldırılmasının performansı düşürmek yerine artırdığını keşfetmiştir [1]. Bu bulgu, daha sonraki çalışmalarda da doğrulanmış ve NSP'nin aslında modeli gereksiz bir sinyal ile eğittiği, hatta bazı durumlarda ana dil modelleme görevinden "dikkat çaldığı" yorumlanmıştır [1][10].

Büyük Mini-Batch Boyutları: BERT orijinal olarak 256 sekans boyutunda mini-batch'lerle eğitilmişti [5]. RoBERTa, mini-batch boyutunu kademeli olarak artırarak 2K ve 8K sekansa kadar deneyler yapmış ve büyük mini-batch'lerin hem eğitim kararlılığını hem de son performansı iyileştirdiğini göstermiştir [1]. 8K sekans boyutundaki mini-batch, BERT'in orijinal konfigürasyonuna kıyasla 32 kat daha büyüktür. Bu strateji, stokastik gradyan inişinin (stochastic gradient descent, SGD) gürültüsünü azaltarak daha düzgün bir optimizasyon yüzeyi üzerinde ilerlemeyi mümkün kılmıştır [1][16].

Daha Uzun Eğitim Süreleri: BERT 1 milyon adım eğitilmişken, RoBERTa 500K adıma kadar eğitildiğinde bile BERT'i geçmiş, ancak eğitim süresinin daha da uzatılmasının performansı artırmaya devam ettiği gözlemlenmiştir [1]. Bu bulgu, BERT'in "erken durdurulmuş" (early stopped) bir model olduğunu ve tam kapasitesine ulaşmadığını güçlü biçimde desteklemiştir.

Daha Fazla Eğitim Verisi: BERT yaklaşık 16 GB metin üzerinde eğitilmişken, RoBERTa beş farklı veri kaynağını birleştirerek toplam 160 GB metin kullanmıştır [1]. Bu kaynaklar arasında BookCorpus, İngilizce Wikipedia, CC-News (CommonCrawl haber verileri), OpenWebText (Reddit bağlantılarından derlenen web metinleri) ve Stories (CommonCrawl'dan filtrelenen hikaye benzeri metinler) yer almaktaydı [1]. Veri miktarındaki bu on katlık artış, modelin daha geniş bir dil çeşitliliğine maruz kalmasını ve daha genel dil temsilleri öğrenmesini sağlamıştır.

4b. Kilit Aktörler ve Katkıları

RoBERTa, Facebook AI Research (FAIR) bünyesinde geliştirilmiştir. Birinci yazar Yinhan Liu, o dönemde Johns Hopkins Üniversitesi'nde doktora öğrencisiydi ve FAIR'de stajyer olarak çalışmaktaydı [1]. İkinci yazar Myle Ott, FAIR'in kıdemli araştırma mühendisiydi ve daha önce fairseq araç kitinin geliştirilmesinde öncü rol oynamıştı [22]. Naman Goyal ise FAIR'de büyük ölçekli model eğitimi altyapısı üzerinde çalışan bir mühendisti. Kıdemli araştırmacılar arasında Veselin Stoyanov (Facebook AI uygulamalı araştırma direktörü) ve Luke Zettlemoyer (Washington Üniversitesi profesörü, aynı zamanda FAIR'de yarı zamanlı araştırmacı) bulunmaktaydı [1].

Bu ekibin kompozisyonu, RoBERTa'nın başarısında kritik bir rol oynamıştır. FAIR'in büyük ölçekli hesaplama altyapısına erişim, akademik kurumların tek başına gerçekleştiremeyeceği deneysel çalışmaları mümkün kılmıştır. Aynı zamanda Washington Üniversitesi bağlantısı, çalışmaya akademik titizlik ve bağımsız değerlendirme perspektifi kazandırmıştır. FAIR'in o dönemki direktörü Yann LeCun'un araştırma özgürlüğü ve açık yayın politikası, bu tür kapsamlı deneysel çalışmaların teşvik edilmesinde önemli bir etken olmuştur [23].

RoBERTa'nın geliştirilmesinde Google'ın BERT ekibiyle doğrudan bir işbirliği yoktu; aksine, bir tür "rakip doğrulama" (adversarial verification) ilişkisi söz konusuydu. Facebook araştırmacıları, Google'ın modelini alıp daha iyi eğiterek, orijinal eğitim prosedürlerinin yetersizliğini kanıtlamışlardır [1]. Bu durum, yapay zeka araştırmalarında kurumlar arası rekabetin bilimsel ilerlemeyi nasıl hızlandırabileceğinin somut bir örneğidir.

4c. Dönem İçindeki Yeri

2019 yılı, NLP dünyasında bir "silah yarışının" (arms race) yaşandığı bir dönemdi. Google'ın BERT'i, OpenAI'nin GPT-2'si, Carnegie Mellon ve Google Brain'in XLNet'i, Microsoft'un MT-DNN'i ve birçok başka model birbiri ardına yayımlanıyor, her biri bir öncekini kıyaslama testlerinde geride bıraktığını iddia ediyordu [5][8][24]. Bu ortamda RoBERTa, özel bir konuma sahipti çünkü hiçbir mimari yenilik iddiasında bulunmadan, salt mühendislik optimizasyonuyla en iyi sonuçları elde etmişti [1].

RoBERTa, GLUE, SQuAD ve RACE kıyaslama testlerinde yayımlandığı tarihte en yüksek puanları almıştır [1]. Özellikle GLUE skor tablosunda, XLNet ve BERT dahil tüm rakiplerini geride bırakması büyük yankı uyandırmıştır. Bu başarı, toplulukta iki farklı tepkiye yol açmıştır: bir kesim, sonuçları "mimari tasarımdan çok mühendislik mesaisi" olarak değerlendirirken, diğer kesim bunun yapay zeka araştırmalarındaki sistematik deneyselliğin önemini vurgulayan değerli bir katkı olduğunu savunmuştur [2].

RoBERTa aynı zamanda, o dönemde yoğun biçimde tartışılan "hesaplama kaynağı eşitsizliği" sorununu da gün yüzüne çıkarmıştır. 1024 GPU üzerinde günlerce süren eğitimler, yalnızca büyük teknoloji şirketlerinin karşılayabileceği maliyetler gerektirmekteydi [1]. Strubell ve arkadaşlarının (2019) yayımladığı, büyük NLP modellerinin enerji tüketimi ve karbon ayak izine ilişkin çalışma, bu endişeleri sayısallaştırarak somutlaştırmıştır [25].

4d. Genel Yapay Zeka Tarihindeki Yeri

RoBERTa'nın yapay zeka tarihindeki önemi, birkaç farklı boyutta değerlendirilebilir.

Birincisi, RoBERTa eğitim mühendisliğinin (training engineering) bağımsız bir araştırma alanı olarak meşrulaşmasına katkıda bulunmuştur. Bu çalışmadan önce, yeni bir model yayımlamanın birincil koşulu genellikle yeni bir mimari fikir sunmaktı. RoBERTa, sistematik ablasyon çalışmalarının ve hiperparametre optimizasyonunun kendi başına değerli bilimsel katkılar olabileceğini kanıtlamıştır [1][2].

İkincisi, RoBERTa "ölçekleme" (scaling) paradigmasının erken bir kanıtı niteliğindedir. Daha fazla veri, daha fazla hesaplama ve daha uzun eğitim süresinin performansı sistematik biçimde artırdığının gösterilmesi, bir yıl sonra GPT-3'ün 175 milyar parametrelik devasa ölçeğine zemin hazırlamıştır [26]. Kaplan ve arkadaşlarının (2020) ölçekleme yasaları da RoBERTa'nın deneysel bulgularıyla uyumlu teorik bir çerçeve sunmuştur [12].

Üçüncüsü, RoBERTa fairseq kütüphanesi aracılığıyla açık kaynak olarak yayımlanmış ve akademik topluluk tarafından yaygın biçimde benimsenmiştir [22]. Bu durum, RoBERTa'nın yalnızca İngilizce NLP'de değil, çok dilli modellerin geliştirilmesinde de temel bir yapı taşı olmasını sağlamıştır. XLM-RoBERTa (Conneau ve ark., 2020) gibi çok dilli modeller doğrudan RoBERTa'nın eğitim stratejisi üzerine inşa edilmiştir [27].

5. Eleştirel Değerlendirme

RoBERTa'nın başarısı tartışmasız olmakla birlikte, çeşitli eleştiriler ve sınırlılıklar da gündeme gelmiştir. En yaygın eleştiri, çalışmanın "yeni bir fikir" içerip içermediği sorusudur. Bazı araştırmacılar, RoBERTa'nın yalnızca daha fazla hesaplama gücü ve veri kullanarak BERT'i yeniden eğittiğini, bunun bilimsel bir katkıdan çok mühendislik çabası olduğunu ileri sürmüşlerdir [2]. Bu eleştiri, yapay zeka araştırmalarında "yenilik" kavramının tanımına ilişkin daha geniş bir tartışmayı yansıtmaktadır.

Hesaplama maliyeti, RoBERTa'nın en önemli sınırlılıklarından biridir. Modelin eğitilmesi için gereken 1024 V100 GPU ve günlerce süren eğitim, akademik araştırma gruplarının büyük çoğunluğunun erişim alanının çok ötesindeydi [1]. Strubell ve arkadaşlarının (2019) hesaplamalarına göre, bu ölçekte bir model eğitiminin karbon ayak izi, bir otomobilin yaşam boyu emisyonlarıyla karşılaştırılabilir düzeydeydi [25]. Bu durum, yapay zeka araştırmalarında "demokratikleşme" söyleminin gerçeklikle ne kadar örtüştüğü sorusunu gündeme getirmiştir.

Tekrarlanabilirlik (reproducibility) açısından da endişeler bulunmaktadır. RoBERTa'nın sonuçlarını yeniden üretmek, aynı hesaplama kaynaklarına erişim gerektirdiğinden, bağımsız doğrulama pratikte zorlaşmaktadır [2]. Bu durum, büyük dil modellerinin genel olarak karşı karşıya olduğu bir tekrarlanabilirlik krizinin erken belirtilerindendir.

NSP görevinin kaldırılmasına ilişkin bulgu, daha sonraki çalışmalarda nüanslı hale gelmiştir. Lan ve arkadaşlarının ALBERT çalışması (2019), NSP yerine "cümle sırası tahmini" (sentence order prediction, SOP) görevinin faydalı olabileceğini göstermiştir [9]. Bu, RoBERTa'nın "NSP zararlıdır" sonucunun mutlak olmadığını, görevin tasarımına bağlı olarak farklı sonuçlar elde edilebileceğini düşündürmektedir.

Bugünden geriye bakıldığında, RoBERTa'nın doğru çıkan temel tezi — eğitim prosedürlerinin mimari kadar önemli olduğu — sonraki yıllarda defalarca doğrulanmıştır. Chinchilla çalışması (Hoffmann ve ark., 2022), modellerin tipik olarak "aşırı büyük ama yetersiz eğitilmiş" olduğunu göstererek RoBERTa'nın mantığını büyük dil modelleri çağına taşımıştır [28]. Öte yandan, RoBERTa'nın kodlayıcı-tabanlı (encoder-only) mimarisi, GPT serisinin üretici (generative) yaklaşımı karşısında zamanla daha az tercih edilir hale gelmiştir; bu durum, RoBERTa'nın mimari açıdan değil ama paradigma açısından bir sınırlılığını temsil etmektedir.

6. Etik ve Toplumsal Boyutlar

RoBERTa'nın geliştirilmesi, yapay zeka etiği ve toplumsal etki açısından birçok önemli soruyu beraberinde getirmiştir.

Hesaplama kaynağı eşitsizliği, RoBERTa'nın gündeme taşıdığı en belirgin etik konudur. 1024 GPU gerektiren bir eğitim sürecinin maliyeti, yalnızca birkaç büyük teknoloji şirketinin ve iyi finanse edilmiş birkaç üniversitenin bu tür araştırmalar yapabilmesi anlamına gelmektedir [1][25]. Bu durum, yapay zeka araştırmalarında bir "oligopol" yapısının oluşmasına ve Küresel Güney'deki araştırmacıların bu alandan dışlanmasına yol açma riski taşımaktadır. Bender ve arkadaşlarının (2021) "stokastik papağanlar" makalesi, büyük dil modellerinin çevresel maliyetlerini ve bu maliyetlerin orantısız biçimde dezavantajlı toplulukları etkilediğini vurgulayarak bu endişeleri derinleştirmiştir [29].

RoBERTa'nın eğitim verisi de etik açıdan sorgulanmıştır. CommonCrawl'dan derlenen veriler, web'deki tüm önyargıları, yanlış bilgileri ve potansiyel olarak zararlı içerikleri barındırmaktadır [29]. Veri filtreleme süreçlerinin yeterliliği ve modelin bu verilerden hangi kalıpları öğrendiği soruları, RoBERTa özelinde sistematik biçimde araştırılmamıştır. Bu durum, "daha fazla veri her zaman daha iyidir" varsayımının eleştirel biçimde sorgulanması gerektiğini göstermektedir.

Güç yoğunlaşması açısından bakıldığında, RoBERTa'nın Facebook tarafından geliştirilmesi, zaten tartışmalı bir veri toplama geçmişine sahip bir şirketin yapay zeka alanındaki etkisini artırması anlamına gelmekteydi. Modelin açık kaynak olarak yayımlanması olumlu bir adım olmakla birlikte, modeli eğitebilecek altyapıya sahip olmak ile yalnızca önceden eğitilmiş ağırlıkları kullanmak arasında önemli bir güç asimetrisi bulunmaktadır [2].

7. Güncel Uygulamalar ve Miras

RoBERTa'nın doğrudan mirası, çok sayıda alanda ve modelde izlenebilir. En belirgin miras, çok dilli doğal dil işleme alanındadır. Conneau ve arkadaşlarının (2020) geliştirdiği XLM-RoBERTa, RoBERTa'nın eğitim stratejisini 100 dile uygulayarak çok dilli anlama görevlerinde çığır açmıştır [27]. Bu model, düşük kaynaklı diller dahil olmak üzere pek çok dil için temel model (baseline) haline gelmiştir ve Türkçe dahil birçok dilde ince ayar çalışmalarının temelini oluşturmaktadır.

Kod anlama alanında, RoBERTa'nın mimarisi ve eğitim stratejisi CodeBERT (Feng ve ark., 2020) ve GraphCodeBERT (Guo ve ark., 2020) gibi modellere doğrudan ilham vermiştir [30][31]. Bu modeller, programlama dillerini ve doğal dili birlikte anlayabilen iki modlu (bimodal) modeller olarak yazılım mühendisliği araştırmalarında yaygın biçimde kullanılmaktadır.

Biyomedikal NLP alanında, PubMedBERT (Gu ve ark., 2021) ve BioLinkBERT gibi modeller, RoBERTa tarzı eğitim optimizasyonlarını alan-spesifik verilere uygulayarak tıbbi metin madenciliğinde önemli ilerlemeler sağlamıştır [32]. Hukuk, finans ve sosyal medya analizi gibi alanlarda da RoBERTa tabanlı ince ayarlı modeller yaygın biçimde kullanılmaktadır.

RoBERTa'nın akademik mirası, "eğitim reçetesi" (training recipe) kavramının araştırma literatürüne yerleşmesinde görülmektedir. Artık yeni bir model yayımlarken, mimari tasarımın yanı sıra eğitim prosedürlerinin detaylı biçimde raporlanması ve ablasyon çalışmalarıyla desteklenmesi bir beklenti haline gelmiştir. Bu metodolojik standart, RoBERTa'nın en kalıcı katkılarından biridir.

Günümüzde büyük dil modelleri (LLM) alanı, GPT-4, Claude ve Gemini gibi çok daha büyük üretici modellere doğru evrilmiş olsa da, RoBERTa'nın kodlayıcı tabanlı mimarisi sınıflandırma, bilgi çıkarımı ve metin analizi gibi görevlerde hâlâ yaygın biçimde tercih edilmektedir. Özellikle hesaplama kaynaklarının sınırlı olduğu endüstriyel uygulamalarda, RoBERTa boyutundaki modeller maliyet-performans dengesi açısından cazip bir seçenek olmaya devam etmektedir.

8. Bölüm Özeti

RoBERTa, yapay zeka tarihinde eğitim mühendisliğinin gücünü en açık biçimde ortaya koyan çalışmalardan biridir. BERT'in transformer kodlayıcı mimarisini olduğu gibi koruyarak, dinamik maskeleme, NSP görevinin kaldırılması, büyük mini-batch boyutları, uzun eğitim süreleri ve on kat daha büyük eğitim verisi gibi sistematik optimizasyonlarla tüm büyük NLP kıyaslama testlerinde yeni rekorlar kırmıştır [1]. Bu başarı, "mimari mi yoksa eğitim rejimi mi daha önemlidir?" sorusuna deneysel bir yanıt sunarak, sonraki yıllardaki ölçekleme araştırmalarının entelektüel temellerini oluşturmuştur.

RoBERTa'nın yapay zeka tarihinin genel akışı içindeki yeri, iki paradigma arasında bir köprü olarak değerlendirilebilir: BERT ile başlayan ön-eğitimli dil modelleri çağının olgunlaşma aşamasını ve GPT-3 ile zirveye ulaşacak ölçekleme paradigmasının habercisini temsil etmektedir. Bir sonraki bölümde inceleyeceğimiz GPT-3, RoBERTa'nın "daha fazla veri ve daha fazla eğitim her zaman daha iyidir" tezini 175 milyar parametreyle çok daha büyük bir ölçeğe taşıyarak, az-örnekli öğrenmenin ve bağlam-içi öğrenmenin (in-context learning) kapılarını açacaktır.

9. Kaynakça

1. Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., Levy, O., Lewis, M., Zettlemoyer, L., & Stoyanov, V. (2019). RoBERTa: A robustly optimized BERT pretraining approach. arXiv preprint arXiv:1907.11692.

2. Rogers, A., Kovaleva, O., & Rumshisky, A. (2020). A primer in BERTology: What we know about how BERT works. Transactions of the Association for Computational Linguistics, 8, 842–866.

3. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). Attention is all you need. Advances in Neural Information Processing Systems, 30, 5998–6008.

4. Radford, A., Narasimhan, K., Salimans, T., & Sutskever, I. (2018). Improving language understanding by generative pre-training. OpenAI Technical Report.

5. Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of deep bidirectional transformers for language understanding. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics (NAACL), 4171–4186.

6. Peters, M. E., Neumann, M., Iyyer, M., Gardner, M., Clark, C., Lee, K., & Zettlemoyer, L. (2018). Deep contextualized word representations. Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics (NAACL), 2227–2237.

7. Howard, J., & Ruder, S. (2018). Universal language model fine-tuning for text classification. Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (ACL), 328–339.

8. Yang, Z., Dai, Z., Yang, Y., Carbonell, J., Salakhutdinov, R., & Le, Q. V. (2019). XLNet: Generalized autoregressive pretraining for language understanding. Advances in Neural Information Processing Systems, 32, 5753–5763.

9. Lan, Z., Chen, M., Goodman, S., Gimpel, K., Sharma, P., & Soricut, R. (2020). ALBERT: A lite BERT for self-supervised learning of language representations. Proceedings of the International Conference on Learning Representations (ICLR).

10. Joshi, M., Chen, D., Liu, Y., Weld, D. S., Zettlemoyer, L., & Levy, O. (2020). SpanBERT: Improving pre-training by representing and predicting spans. Transactions of the Association for Computational Linguistics, 8, 64–77.

11. Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., Zhou, Y., Li, W., & Liu, P. J. (2020). Exploring the limits of transfer learning with a unified text-to-text transformer. Journal of Machine Learning Research, 21(140), 1–67.

12. Kaplan, J., McCandlish, S., Henighan, T., Brown, T. B., Chess, B., Child, R., Gray, S., Radford, A., Wu, J., & Amodei, D. (2020). Scaling laws for neural language models. arXiv preprint arXiv:2001.08361.

13. Wang, A., Singh, A., Michael, J., Hill, F., Levy, O., & Bowman, S. R. (2018). GLUE: A multi-task benchmark and analysis platform for natural language understanding. Proceedings of the 2018 EMNLP Workshop BlackboxNLP, 353–355.

14. Wang, A., Pruksachatkun, Y., Nangia, N., Singh, A., Michael, J., Hill, F., Levy, O., & Bowman, S. R. (2019). SuperGLUE: A stickier benchmark for general-purpose language understanding systems. Advances in Neural Information Processing Systems, 32, 3261–3275.

15. Sun, C., Qiu, X., Xu, Y., & Huang, X. (2019). How to fine-tune BERT for text classification. China National Conference on Chinese Computational Linguistics, 194–206.

16. Goyal, P., Dollár, P., Girshick, R., Noordhuis, P., Wesolowski, L., Kyrola, A., Tulloch, A., Jia, Y., & He, K. (2017). Accurate, large minibatch SGD: Training ImageNet in 1 hour. arXiv preprint arXiv:1706.02677.

17. Schweter, S. (2020). BERTurk - BERT models for Turkish. Zenodo. https://doi.org/10.5281/zenodo.3770924

18. LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. Nature, 521(7553), 436–444.

19. Deng, J., Dong, W., Socher, R., Li, L.-J., Li, K., & Fei-Fei, L. (2009). ImageNet: A large-scale hierarchical image database. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 248–255.

20. Mikolov, T., Sutskever, I., Chen, K., Corrado, G. S., & Dean, J. (2013). Distributed representations of words and phrases and their compositionality. Advances in Neural Information Processing Systems, 26, 3111–3119.

21. Pennington, J., Socher, R., & Manning, C. D. (2014). GloVe: Global vectors for word representation. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), 1532–1543.

22. Ott, M., Edunov, S., Baevski, A., Fan, A., Gross, S., Ng, N., Grangier, D., & Auli, M. (2019). fairseq: A fast, extensible toolkit for sequence modeling. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics (NAACL): Demonstrations, 48–53.

23. LeCun, Y. (2019). The future of AI: From deep learning to deep understanding. FAIR Research Strategy Lecture.

24. Liu, X., He, P., Chen, W., & Gao, J. (2019). Multi-task deep neural networks for natural language understanding. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics (ACL), 4487–4496.

25. Strubell, E., Ganesh, A., & McCallum, A. (2019). Energy and policy considerations for deep learning in NLP. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics (ACL), 3645–3650.

26. Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., Agarwal, S., Herbert-Voss, A., Krueger, G., Henighan, T., Child, R., Ramesh, A., Ziegler, D., Wu, J., Winter, C., … Amodei, D. (2020). Language models are few-shot learners. Advances in Neural Information Processing Systems, 33, 1877–1901.

27. Conneau, A., Khandelwal, K., Goyal, N., Chaudhary, V., Wenzek, G., Guzmán, F., Grave, E., Ott, M., Zettlemoyer, L., & Stoyanov, V. (2020). Unsupervised cross-lingual representation learning at scale. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics (ACL), 8440–8451.

28. Hoffmann, J., Borgeaud, S., Mensch, A., Buchatskaya, E., Cai, T., Rutherford, E., Casas, D. de L., Hendricks, L. A., Welbl, J., Clark, A., Hennigan, T., Noland, E., Millican, K., van den Driessche, G., Damoc, B., Guy, A., Osindero, S., Simonyan, K., Rae, J. W., … Sifre, L. (2022). Training compute-optimal large language models. Advances in Neural Information Processing Systems, 35, 30016–30030.

29. Bender, E. M., Gebru, T., McMillan-Major, A., & Shmitchell, S. (2021). On the dangers of stochastic parrots: Can language models be too big? Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency (FAccT), 610–623.

30. Feng, Z., Guo, D., Tang, D., Duan, N., Feng, X., Gong, M., Shou, L., Qin, B., Liu, T., Jiang, D., & Zhou, M. (2020). CodeBERT: A pre-trained model for programming and natural languages. Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP): Findings, 1536–1547.

31. Guo, D., Ren, S., Lu, S., Feng, Z., Tang, D., Liu, S., Zhou, L., Duan, N., Svyatkovskiy, A., Fu, S., Tufano, M., Deng, S. K., Clement, C., Drain, D., Sundaresan, N., Yin, J., Jiang, D., & Zhou, M. (2021). GraphCodeBERT: Pre-training code representations with data flow. Proceedings of the International Conference on Learning Representations (ICLR).

32. Gu, Y., Tinn, R., Cheng, H., Lucas, M., Usuyama, N., Liu, X., Naumann, T., Gao, J., & Poon, H. (2021). Domain-specific language model pretraining for biomedical natural language processing. ACM Transactions on Computing for Healthcare, 3(1), 1–23.

10. Tartışma Soruları

1. Analitik: RoBERTa'nın NSP görevini kaldırmasının performansı artırması, BERT'in orijinal tasarımında hangi varsayımların hatalı olduğunu ortaya koymaktadır? Bu bulgu, ön-eğitim görevi tasarımı konusunda daha genel olarak ne söylemektedir?

2. Karşılaştırmalı: RoBERTa ile XLNet arasındaki performans farkı, mimari yenilik ile eğitim mühendisliği arasındaki göreli öneme ilişkin ne tür sonuçlar çıkarmamızı sağlar? Bu iki yaklaşım arasındaki denge, yapay zeka araştırmalarında nasıl kurulmalıdır?

3. Spekülatif: Eğer RoBERTa ekibi aynı hesaplama bütçesini BERT yerine tamamen yeni bir mimari geliştirmek için kullansaydı, sonuçlar farklı olabilir miydi? Bu düşünce deneyi, araştırma kaynaklarının tahsisi hakkında ne söylemektedir?

4. Etik: 1024 GPU gerektiren bir eğitim sürecinin yalnızca büyük teknoloji şirketlerince gerçekleştirilebilmesi, yapay zeka araştırmalarında nasıl bir güç asimetrisi yaratmaktadır? Bu asimetrinin bilimsel ilerleme ve toplumsal adalet açısından sonuçları nelerdir?

5. Güncel: RoBERTa'nın "mevcut modeli daha iyi eğitmek" yaklaşımı, günümüzde Chinchilla ve Llama gibi modellerin eğitim stratejilerinde nasıl yankı bulmaktadır? Bu yaklaşım, yapay zekanın geleceğinde hangi eğilimleri desteklemektedir?

6. Karşılaştırmalı: RoBERTa'nın kodlayıcı-tabanlı (encoder-only) mimarisi ile GPT serisinin üretici (decoder-only) mimarisi arasında, hangi görev türleri için hangi yaklaşım daha uygun olmuştur ve bunun nedenleri nelerdir?

7. Analitik: RoBERTa'nın eğitim verisini 16 GB'dan 160 GB'a çıkarmasının performans üzerindeki etkisi, veri kalitesi ile veri miktarı arasındaki ilişki hakkında ne söylemektedir? Bu ilişki doğrusal mıdır, yoksa azalan getiriler söz konusu mudur?

8. Spekülatif: RoBERTa tarzı sistematik ablasyon çalışmaları, günümüzün çok daha büyük modelleri (örneğin 100 milyar parametreden fazla) için pratik olarak uygulanabilir mi? Değilse, bu durum yapay zeka araştırmalarının bilimselliği açısından ne tür sorunlar yaratmaktadır?

9. Etik: RoBERTa'nın eğitim verisinde kullanılan CommonCrawl ve OpenWebText gibi kaynaklar, web'deki tüm önyargıları barındırma riski taşımaktadır. Daha fazla verinin daha iyi performans getirdiği bir dünyada, veri kalitesi ve etik filtreleme arasındaki denge nasıl kurulmalıdır?

10. Güncel: RoBERTa'nın açık kaynak olarak yayımlanması, XLM-RoBERTa aracılığıyla Türkçe dahil düşük kaynaklı dillerde NLP araştırmalarını nasıl etkilemiştir? Bu etki, yapay zeka teknolojilerinin küresel dağılımı açısından ne anlama gelmektedir?