BERT: Çift Yönlü Transformer'lar
BERT modelinin çift yönlü ön-eğitim yaklaşımı ve NLP'deki çığır açıcı başarıları.
1. Giriş
Bir yapay zekâ modeli, "Nehir kenarındaki bankta oturdu" cümlesindeki "bank" kelimesinin finansal kurum mu yoksa oturma yeri mi olduğunu nasıl anlayabilir? İnsan zihni bunu zahmetsizce yapar — kelimenin hem öncesindeki hem sonrasındaki bağlamı eş zamanlı olarak değerlendirir. Ancak 2018 yılına kadar, derin öğrenme tabanlı dil modellerinin büyük çoğunluğu bu basit insani yeteneği taklit edemiyordu. Modeller ya soldan sağa ya da sağdan sola okuyordu; hiçbiri bir kelimeyi çevreleyen bağlamın tamamına aynı anda bakamıyordu. İşte tam bu noktada, Google AI'dan Jacob Devlin ve arkadaşlarının Ekim 2018'de yayımladıkları BERT — Bidirectional Encoder Representations from Transformers — makalesi, doğal dil işleme (natural language processing, NLP) alanında bir kırılma noktası oluşturdu [1].
BERT'in ortaya çıkışı, bir önceki bölümde incelediğimiz Transformer mimarisinin doğal bir uzantısıdır; ancak aynı zamanda o mimarinin nasıl kullanılacağına dair radikal bir yeniden yorumlama içerir. Vaswani ve arkadaşlarının 2017'deki Transformer makalesi, dikkat mekanizmasını dizi modellemede tek başına yeterli kılmıştı [2]. OpenAI'ın GPT-1 modeli ise 2018'in başında Transformer'ın yalnızca çözücü (decoder) bölümünü kullanarak, tek yönlü (soldan sağa) bir dil modeli eğitmişti [3]. BERT, bu tek yönlü paradigmayı tersine çevirdi: Transformer'ın kodlayıcı (encoder) bölümünü kullanarak, bir kelimenin hem solundaki hem sağındaki bağlamı eş zamanlı olarak işleyen gerçek anlamda çift yönlü (bidirectional) bir ön-eğitim stratejisi geliştirdi [1]. Bu fark yalnızca teknik bir ayrıntı değildi; NLP'nin performans standartlarını toptan yeniden yazdı.
BERT'in etkisi dramatik ve anîydi. Model, yayımlandığı tarihte on bir farklı NLP görev kıyaslamasında (benchmark) eş zamanlı olarak yeni rekorlar kırdı [1]. Stanford Soru Yanıtlama Veri Seti'nde (SQuAD 2.0) insan düzeyine yaklaşan performans gösterdi [4]. Genel Dil Anlama Değerlendirmesi'nde (GLUE) önceki en iyi sonucu 7,7 puanlık büyük bir farkla geçti [5]. Daha da önemlisi, BERT transfer öğrenmenin (transfer learning) NLP'deki potansiyelini kesin biçimde kanıtladı: büyük bir etiketlenmemiş metin külliyatı üzerinde ön-eğitim almış tek bir model, minimum ince ayar (fine-tuning) ile onlarca farklı göreve uyarlanabiliyordu [1]. Bu yaklaşım, NLP araştırmalarının ekonomisini kökten değiştirdi — artık her görev için sıfırdan model eğitmek yerine, önceden eğitilmiş güçlü bir temeli uyarlamak yeterli oluyordu.
Bu bölümde BERT'in teknik mimarisini, eğitim stratejilerini, entelektüel kökenlerini, ardındaki araştırma ekibini, dönemindeki etkisini ve NLP'nin sonraki evrimine olan belirleyici katkısını çok katmanlı biçimde inceleyeceğiz. BERT yalnızca bir model değil, yapay zekânın dili anlamaya çalışma biçiminde bir paradigma değişimidir.
2. Literatür Taraması
BERT'in entelektüel konumunu kavrayabilmek için, dil temsilleri, transfer öğrenme, Transformer mimarisi ve bağlamsal gömme (contextual embedding) alanlarındaki literatürü birlikte değerlendirmemiz gerekmektedir.
Kurucu Çalışma. Devlin, Chang, Lee ve Toutanova'nın (2019, ilk ön baskı 2018) NAACL konferansında sunulan makalesi, BERT mimarisini tanımlayan ve on bir NLP görevinde yeni rekorlar kıran temel metindir [1]. Makale, yayımlanmasından bu yana 100.000'den fazla atıf almış ve NLP tarihinin en etkili çalışmalarından biri haline gelmiştir [6].
Transformer Temeli. Vaswani ve arkadaşlarının (2017) "Attention Is All You Need" makalesi, BERT'in üzerine inşa edildiği Transformer mimarisini ortaya koymuştur [2]. BERT, bu mimarinin yalnızca kodlayıcı (encoder) kısmını kullanarak, Transformer'ın çift yönlü dikkat kapasitesini tam anlamıyla değerlendiren ilk büyük ölçekli ön-eğitimli model olmuştur [1][2].
Tek Yönlü Ön-Eğitim Geleneği. Radford ve arkadaşlarının (2018) GPT-1 çalışması, Transformer çözücüsünü kullanarak büyük ölçekli tek yönlü dil modeli ön-eğitiminin etkinliğini göstermişti [3]. GPT-1, BookCorpus üzerinde ön-eğitim alarak çeşitli NLP görevlerinde güçlü transfer performansı elde etmişti; ancak tek yönlü yapısı, özellikle dil anlama (language understanding) görevlerinde bağlamsal temsillerin kalitesini sınırlandırıyordu [3]. BERT, bu sınırlılığı çift yönlü ön-eğitimle doğrudan aşmayı hedeflemiştir [1].
Bağlamsal Kelime Gömmeleri. Peters ve arkadaşlarının (2018) ELMo (Embeddings from Language Models) çalışması, bağlamsal kelime temsillerinin dönüm noktasını oluşturmuştur [7]. ELMo, çift yönlü LSTM kullanarak her kelimenin bağlama duyarlı temsillerini üretmiş ve bu temsillerin aşağı akış görevlerine (downstream tasks) özellik olarak eklenmesiyle kayda değer performans artışları sağlamıştı [7]. Ancak ELMo'nun çift yönlülüğü "sığ" bir birleştirmeydi — soldan sağa ve sağdan sola iki ayrı LSTM'in çıktıları art arda ekleniyordu (concatenation), gerçek anlamda eşzamanlı çift yönlü etkileşim yoktu [1][7]. BERT, bu sığ birleştirme yaklaşımının yerine, her katmanda tüm konumlar arasında eşzamanlı dikkat hesaplaması yapan derin çift yönlü temsiller sunmuştur [1].
Kelime Gömmelerinin Evrimi. Mikolov ve arkadaşlarının (2013) Word2Vec modeli, kelimeleri yoğun vektör uzaylarında temsil etmenin temellerini atmıştı [8]. Pennington, Socher ve Manning'in (2014) GloVe modeli, küresel istatistikleri de dahil ederek bu yaklaşımı zenginleştirmişti [9]. Ancak her iki model de statik gömme (static embedding) üretti — bir kelimenin tüm bağlamlarda aynı vektörle temsil edilmesi, çok anlamlılık (polysemy) sorununu çözemiyordu [8][9]. BERT, her kelimeye bağlama özgü dinamik temsiller atayarak bu temel sınırlılığı ortadan kaldırmıştır [1].
Transfer Öğrenme Paradigması. Howard ve Ruder'ın (2018) ULMFiT (Universal Language Model Fine-tuning) çalışması, dil modeli ön-eğitiminden ince ayara geçiş stratejilerini sistematikleştirmiş ve öğrenme hızı programlama, ayrımcı ince ayar (discriminative fine-tuning) gibi teknikleri NLP'ye kazandırmıştı [10]. ULMFiT, LSTM tabanlı bir mimari kullanmasına rağmen, "ön-eğitim + ince ayar" paradigmasının NLP'de uygulanabilirliğini göstererek BERT'in yolunu açmıştır [10].
Çoklu Görev Öğrenme. McCann ve arkadaşlarının (2017) CoVe (Contextualized Vectors) çalışması, makine çevirisi görevinde eğitilmiş kodlayıcı temsillerinin diğer NLP görevlerine transfer edilebileceğini göstermişti [11]. Collobert ve Weston'ın (2008) çok görevli sinir ağı çalışması, görev-bağımsız dil temsillerinin öğrenilmesinin erken örneklerinden biriydi [12]. Bu çalışmalar, BERT'in "tek model, çok görev" felsefesinin entelektüel kökenlerini oluşturmaktadır.
Maskelenmiş Dil Modellemesi. BERT'in kullandığı maskelenmiş dil modeli (Masked Language Model, MLM) fikri, Cloze testi geleneğine dayanmaktadır. Taylor (1953), bir metindeki boşlukları doldurma görevini dil yetkinliğinin ölçümü olarak tanımlamıştı [13]. BERT, bu psikolinguistik kavramı derin öğrenme bağlamında yeniden keşfederek, ön-eğitimin temel mekanizması haline getirmiştir [1].
Eleştirel Çalışmalar. Liu ve arkadaşlarının (2019) RoBERTa çalışması, BERT'in eğitim stratejisindeki bazı tasarım kararlarını sorgulamış ve bir sonraki cümle tahmini (NSP) görevinin gereksiz olduğunu, daha büyük veri ve daha uzun eğitimle önemli performans kazanımları elde edilebildiğini göstermiştir [14]. Yang ve arkadaşlarının (2019) XLNet modeli, BERT'in maskeleme stratejisinin ön-eğitim ile ince ayar arasında tutarsızlık yarattığını eleştirmiş ve permütasyon tabanlı dil modellemesi önermiştir [15]. Lan ve arkadaşlarının (2020) ALBERT çalışması, BERT'in parametre verimsizliğini ele alarak parametre paylaşımı ve faktörize gömme teknikleriyle daha verimli bir mimari sunmuştur [16].
Analiz ve Yorumlama. Clark ve arkadaşlarının (2019) çalışması, BERT'in dikkat başlıklarının (attention heads) ne öğrendiğini sistematik olarak analiz etmiş ve bazı başlıkların sözdizimsel ilişkileri, bazılarının ise anlamsal örüntüleri yakaladığını ortaya koymuştur [17]. Tenney ve arkadaşlarının (2019) "BERT Rediscovers the Classical NLP Pipeline" çalışması, BERT'in farklı katmanlarının geleneksel NLP boru hattının (pipeline) farklı aşamalarına — sözcük türü etiketleme, ayrıştırma, anlamsal rol etiketleme — karşılık geldiğini göstermiştir [18].
Türkçe Literatür. Schweter (2020) tarafından geliştirilen BERTurk modeli, Türkçe metin külliyatı üzerinde sıfırdan eğitilmiş ilk Türkçe BERT modellerinden biri olarak önemli bir kilometre taşıdır [19]. Safaya, Kurfalı ve Guillen'in (2022) çalışması ise çok dilli BERT modellerinin Türkçe NLP görevlerindeki performansını kapsamlı biçimde değerlendirmiştir [20].
3. Tarihsel ve Teorik Arka Plan
BERT'in ortaya çıkışını anlamak için, 2018 yılındaki bilimsel ortamı, dil temsillerinin evrimini ve Transformer mimarisinin sunduğu yeni olanakları birlikte değerlendirmemiz gerekmektedir.
Statik Gömmelerden Bağlamsal Gömmelere. Doğal dil işlemede kelime temsillerinin evrimi, BERT'in entelektüel soy ağacını çizer. 2003'te Bengio ve arkadaşlarının sinir ağı tabanlı dil modeli, kelimeleri yoğun vektörlerle temsil etmenin temellerini atmıştı [21]. 2013'te Mikolov ve arkadaşlarının Word2Vec'i, bu yaklaşımı büyük ölçekte uygulanabilir hale getirdi ve kelime gömmelerini NLP'nin standart aracına dönüştürdü [8]. 2014'te GloVe, küresel eş-oluşum istatistiklerini dahil ederek gömme kalitesini artırdı [9]. Ancak tüm bu modeller, bir kelimenin her bağlamda aynı vektörle temsil edildiği statik gömmeler üretiyordu — "bank" kelimesi, finansal bağlamda da nehir kenarı bağlamında da aynı vektördü [8][9].
2018, bu sınırlılığın aşıldığı yıl oldu. Yılın başında Peters ve arkadaşlarının ELMo'su, çift yönlü LSTM kullanarak bağlamsal gömmeler üretmiş ve NLP topluluğuna her kelimenin bağlama göre farklı temsillere sahip olması gerektiğini somut biçimde göstermişti [7]. ELMo'nun ardından Howard ve Ruder'ın ULMFiT'i, ön-eğitim ve ince ayar stratejilerini sistematikleştirmişti [10]. Radford ve arkadaşlarının GPT-1'i ise Transformer mimarisini tek yönlü ön-eğitimle birleştirerek güçlü transfer performansı elde etmişti [3]. BERT, bu üç gelişmenin senteziydi: Transformer'ın dikkat mekanizması (GPT-1'den), çift yönlü bağlam (ELMo'nun motivasyonundan) ve ön-eğitim + ince ayar paradigması (ULMFiT'in çerçevesinden) [1].
Transformer'ın Kodlayıcı-Çözücü İkilemi. Vaswani ve arkadaşlarının orijinal Transformer mimarisi hem kodlayıcı hem çözücü bileşen içeriyordu [2]. GPT-1, yalnızca çözücü bölümünü kullanmıştı — çünkü amaç metin üretimiydi ve çözücünün otoregresif (autoregressive) yapısı bu görev için doğal bir uyumdu [3]. BERT ise tamamen farklı bir tercih yaptı: yalnızca kodlayıcı bölümünü kullandı [1]. Kodlayıcı, bir girdi dizisinin tamamına eşzamanlı erişim sağlıyordu — yani bir kelimenin temsili hesaplanırken hem soldaki hem sağdaki tüm kelimeler dikkate alınabiliyordu. Bu, otoregresif modellerde mümkün olmayan bir avantajdı; çünkü otoregresif modeller gelecekteki konumlara erişimi yapısal olarak engelliyordu [1][3]. Devlin ve arkadaşları, dil anlama görevleri için çift yönlü bağlamın tek yönlü bağlamdan üstün olduğunu açıkça savunmuşlardı [1].
Google AI ve Kurumsal Bağlam. BERT, Google AI Language ekibinde geliştirildi [1]. Google, 2017'de Transformer mimarisini zaten icat etmişti ve bu mimariyi kendi ürünlerinde — Google Translate, Gmail, Google Arama — yaygın biçimde kullanıyordu [2][22]. Şirketin Tensor Processing Unit (TPU) altyapısı, BERT gibi büyük modellerin eğitimi için gereken hesaplama gücünü sağlıyordu [1]. BERT-Large modelinin ön-eğitimi, 16 TPU üzerinde dört gün sürmüştü — dönemin standartlarına göre ciddi ama erişilebilir bir hesaplama maliyeti [1]. Bu kurumsal ve altyapısal avantaj, BERT'in hızla geliştirilmesinde kritik bir rol oynamıştır.
NLP'nin 2018 Durumu: "ImageNet Anı". Sebastian Ruder, 2018 yılını NLP'nin "ImageNet anı" olarak nitelendirmiştir [23]. Nasıl bilgisayarlı görüde ImageNet üzerinde ön-eğitim almış modeller (AlexNet, VGG, ResNet) diğer görsel görevlere başarıyla transfer edildiyse, 2018'de ELMo, GPT-1 ve BERT art arda yayımlanarak dil görevlerinde de benzer bir transfer öğrenme devriminin kapılarını açmıştır [7][3][1]. Bu analoji, BERT'in tarihsel konumunu netleştirir: BERT, NLP'deki transfer öğrenme devriminin en etkili ve en yaygın benimsenen modeliydi.
4. Ana Konu Analizi
4a. Temel Mekanizma: BERT'in Mimarisi ve Eğitim Stratejisi
BERT'in teknik tasarımı, iki temel yenilik üzerine kuruludur: çift yönlü Transformer kodlayıcısı ve iki aşamalı (ön-eğitim + ince ayar) öğrenme stratejisi.
Mimari Yapı. BERT, Transformer'ın kodlayıcı bileşenini çok katmanlı biçimde yığınlayarak oluşturulmuştur [1]. İki temel konfigürasyon tanımlanmıştır: BERT-Base (12 katman, 768 gizli boyut, 12 dikkat başlığı, toplam 110 milyon parametre) ve BERT-Large (24 katman, 1024 gizli boyut, 16 dikkat başlığı, toplam 340 milyon parametre) [1]. Her katman, çok başlı öz-dikkat (multi-head self-attention) mekanizması ve konumsal ileri beslemeli ağ (position-wise feed-forward network) içerir [1][2]. Kritik nokta şudur: kodlayıcının öz-dikkat mekanizması, dizideki her konumun diğer tüm konumlara — hem sol hem sağ — eşzamanlı olarak dikkat edebilmesine izin verir [1]. Bu, GPT'nin kausal maskeleme (causal masking) ile sağdaki konumlara erişimi engellediği otoregresif yapıdan temel bir ayrımdır [3].
Girdi Temsili. BERT'in girdi temsili üç gömmenin toplamından oluşur: parça gömme (token embedding), bölüt gömme (segment embedding) ve konum gömme (position embedding) [1]. Parça gömme, WordPiece tokenizasyonu kullanılarak oluşturulur — bu yöntem, nadir kelimeleri alt-kelime birimlerine bölerek sözlük dışı (out-of-vocabulary) sorununu hafifletir [1][24]. Bölüt gömme, girdinin hangi cümleye ait olduğunu belirtir — bu, cümle çiftleriyle çalışan görevler için gereklidir [1]. Her girdi dizisi `[CLS]` özel simgesiyle başlar ve cümleler `[SEP]` simgesiyle ayrılır [1].
Ön-Eğitim Görevi 1: Maskelenmiş Dil Modeli (MLM). BERT'in en özgün katkısı, maskelenmiş dil modellemesi stratejisidir [1]. Standart dil modelleri, bir sonraki kelimeyi tahmin ederek eğitilir — bu doğası gereği tek yönlüdür [3]. Çift yönlü eğitim yapmak istediğinizde, modelin tahmin etmesi gereken kelimeyi "görmemesi" gerekir — aksi takdirde görev önemsizleşir [1]. Devlin ve arkadaşlarının çözümü, Cloze testinden ilham alan bir maskeleme stratejisiydi: girdi dizisindeki parçaların %15'i rastgele seçilir; bunların %80'i `[MASK]` simgesiyle değiştirilir, %10'u rastgele bir kelimeyle değiştirilir ve %10'u değiştirilmeden bırakılır [1]. Bu karışık strateji, modelin yalnızca `[MASK]` simgesine güvenmemesini sağlayarak, ön-eğitim ile ince ayar arasındaki dağılım uyuşmazlığını (distribution mismatch) azaltmayı hedeflemiştir [1].
Ön-Eğitim Görevi 2: Bir Sonraki Cümle Tahmini (NSP). BERT'in ikinci ön-eğitim görevi, iki cümlenin birbirini takip edip etmediğini sınıflandırmaktır [1]. Eğitim verisinde cümle çiftlerinin %50'si gerçekten ardışık, %50'si ise rastgele seçilmiş çiftlerdir [1]. Bu görev, soru-yanıtlama ve doğal dil çıkarımı gibi cümle çifti ilişkilerini gerektiren aşağı akış görevlerine ön-hazırlık olarak tasarlanmıştır [1]. Ancak sonraki araştırmalar NSP'nin etkinliğini sorgulamıştır — Liu ve arkadaşlarının (2019) RoBERTa çalışması, NSP görevinin çıkarılmasının performansı artırdığını göstermiştir [14].
Eğitim Verileri ve Hesaplama. BERT, BookCorpus (800 milyon kelime) ve İngilizce Vikipedi (2.500 milyon kelime) olmak üzere toplam yaklaşık 3,3 milyar kelimelik bir külliyat üzerinde ön-eğitim almıştır [1]. BERT-Large'ın eğitimi, 64 TPU üzerinde dört gün sürmüştür [1]. Bu, dönemin akademik standartlarına göre ciddi bir hesaplama maliyetiydi; ancak sonraki yıllarda GPT-3 gibi modellerin gerektireceği kaynaklarla karşılaştırıldığında oldukça mütevazı kalmıştır [25].
İnce Ayar Stratejisi. BERT'in en zarif tasarım kararlarından biri, ince ayarın basitliğidir [1]. Ön-eğitilmiş BERT modeline, hedef görev için genellikle tek bir sınıflandırma katmanı eklenir ve tüm model uçtan uca ince ayarlanır [1]. Sınıflandırma görevleri için `[CLS]` simgesinin son katmandaki temsili kullanılır; belirteç düzeyindeki görevler (adlandırılmış varlık tanıma gibi) için her belirtecin son katman temsili kullanılır [1]. Bu tek tip ince ayar yaklaşımı, BERT'in on bir farklı görevde minimum mimari değişiklikle rekor kırmasını mümkün kılmıştır [1].
4b. Kilit Aktörler ve Katkıları
Jacob Devlin, BERT makalesinin birinci yazarı ve projenin baş araştırmacısıdır [1]. Devlin, makine çevirisi ve dil modelleme alanlarında deneyimli bir araştırmacıydı ve Google AI Language ekibinde çalışıyordu. BERT'in maskelenmiş dil modeli fikrinin ana mimarı olarak kabul edilmektedir [1].
Ming-Wei Chang, Kenton Lee ve Kristina Toutanova, makalenin diğer yazarlarıdır ve modelin tasarımı, eğitimi ve değerlendirmesinde kritik roller üstlenmişlerdir [1]. Toutanova, özellikle istatistiksel NLP alanındaki uzmanlığıyla tanınmaktadır ve daha önce Stanford Parser ve çeşitli sözdizimsel analiz çalışmalarında önemli katkılarda bulunmuştur.
Google AI Language ekibi, BERT'in geliştirildiği kurumsal çerçeveyi oluşturmuştur. Google'ın TPU altyapısına ve büyük ölçekli veri kaynaklarına erişimi, BERT'in eğitimini mümkün kılmıştır [1]. Transformer mimarisinin de Google içinde geliştirilmiş olması, BERT ekibinin bu mimari hakkında derinlemesine bilgi ve deneyime sahip olmasını sağlamıştır [2].
Rekabet ve Eşzamanlılık. BERT, boşlukta ortaya çıkmamıştır. 2018 yılında ELMo [7], GPT-1 [3] ve ULMFiT [10] neredeyse eşzamanlı olarak yayımlanmış ve NLP topluluğunda ön-eğitimli dil temsilleri konusunda yoğun bir heyecan yaratmıştır. BERT, bu rekabetin en etkili ürünü olmuş ve kısa sürede alanın baskın paradigması haline gelmiştir [1][6].
4c. Dönem İçindeki Yeri
BERT'in 2018'deki etkisi anîydi ve kapsamlıydı. Model, GLUE kıyaslamasında önceki en iyi sonucu 7,7 puanlık bir farkla geçerek NLP topluluğunu şaşkınlığa uğrattı [1][5]. SQuAD 1.1 soru-yanıtlama görevinde F1 skoru %93,2'ye ulaşarak insan performansını (%91,2) ilk kez geçen model oldu [1][4]. MultiNLI doğal dil çıkarımı görevinde %86,7 doğruluk oranıyla yeni rekor kırdı [1].
Bu sonuçlar, NLP araştırma pratiğini derinden değiştirdi. BERT'in açık kaynak olarak yayımlanması — hem model ağırlıkları hem de eğitim kodu — topluluk tarafından hızla benimsenmesini sağladı [1]. Araştırmacılar, kendi görevleri için sıfırdan model eğitmek yerine, önceden eğitilmiş BERT'i ince ayar yapmaya başladılar. Bu "BERT'i kullan" yaklaşımı, NLP'de deneysel araştırmanın maliyetini ve süresini dramatik biçimde düşürdü [6].
BERT aynı zamanda endüstriyel uygulamalarda da hızla benimsenmiştir. Google, Ekim 2019'da BERT'i Google Arama'nın temel altyapısına entegre ettiğini duyurarak, İngilizce aramaların %10'unu etkileyen bir güncelleme yaptığını açıklamıştır [22]. Bu, BERT'in yalnızca akademik bir başarı değil, milyarlarca kullanıcıyı doğrudan etkileyen pratik bir teknoloji olduğunu kanıtlamıştır [22].
4d. Genel YZ Tarihindeki Yeri
BERT, yapay zekâ tarihinde birkaç açıdan belirleyici bir rol oynamıştır.
Birincisi, BERT transfer öğrenmenin NLP'deki gücünü kesin biçimde kanıtlayarak, "ön-eğitim + ince ayar" paradigmasını alanın standart yaklaşımı haline getirmiştir [1]. Bu paradigma, BERT sonrasında ortaya çıkan neredeyse tüm büyük dil modellerinin — RoBERTa [14], ALBERT [16], ELECTRA [26], DeBERTa [27] — temelini oluşturmaktadır.
İkincisi, BERT maskelenmiş dil modellemesi stratejisiyle, çift yönlü ön-eğitimin teknik olarak nasıl gerçekleştirilebileceğini göstermiştir [1]. Bu strateji, sonraki modellerde çeşitli biçimlerde geliştirilmiş ve uyarlanmıştır — Clark ve arkadaşlarının (2020) ELECTRA modeli, maskeleme yerine "değiştirilmiş belirteç tespiti" (replaced token detection) yaklaşımını önermiştir [26].
Üçüncüsü, BERT'in çoklu dil destekli versiyonu olan Multilingual BERT, 104 dilde eğitilerek, düşük kaynaklı diller için transfer öğrenmenin olanaklarını açmıştır [1][28]. Bu, Türkçe dahil birçok dilde NLP araştırmalarını hızlandırmıştır [19][20].
5. Eleştirel Değerlendirme
BERT'in devrimci etkisine rağmen, model çeşitli açılardan eleştirilere konu olmuştur.
Maskeleme Stratejisinin Sınırlılıkları. BERT'in maskelenmiş dil modeli yaklaşımı, ön-eğitim ile ince ayar arasında bir dağılım uyuşmazlığı yaratmaktadır: ön-eğitim sırasında girdide `[MASK]` simgeleri bulunurken, ince ayar ve çıkarım sırasında bu simgeler yoktur [1]. Yang ve arkadaşlarının (2019) XLNet çalışması, bu sorunu doğrudan ele almış ve permütasyon tabanlı dil modellemesiyle hem çift yönlü bağlamdan yararlanabilen hem de maskeleme gerektirmeyen bir alternatif sunmuştur [15]. Ayrıca BERT, maskelenen belirteçlerin birbirinden bağımsız olduğunu varsayar — bu varsayım, birbirine bağımlı birden fazla belirtecin eşzamanlı tahmin edilmesi gereken durumlarda sorunlu olabilmektedir [15].
NSP Görevinin Sorgulanması. Liu ve arkadaşlarının (2019) RoBERTa çalışması, bir sonraki cümle tahmini (NSP) görevinin BERT'in performansına olumlu katkı sağlamadığını, hatta bazı durumlarda zararlı olduğunu göstermiştir [14]. RoBERTa, NSP görevini çıkararak, daha büyük veri külliyatı, daha uzun eğitim süresi ve dinamik maskeleme stratejisiyle BERT'in performansını önemli ölçüde aşmıştır [14]. Bu bulgu, BERT'in tasarım kararlarının optimal olmadığını ortaya koymuş ve ön-eğitim stratejisi araştırmalarını canlandırmıştır.
Hesaplama Maliyeti ve Erişilebilirlik. BERT-Large'ın eğitimi, dönemin standartlarına göre ciddi hesaplama kaynakları gerektirmekteydi [1]. Bu durum, sınırlı kaynaklara sahip akademik kuruluşlar ve gelişmekte olan ülkelerdeki araştırmacılar için bir erişim eşitsizliği yaratmıştır [29]. Strubell ve arkadaşlarının (2019) çalışması, büyük NLP modellerinin eğitiminin karbon ayak izini hesaplamış ve BERT-Large'ın eğitiminin yaklaşık bir transatlantik uçuşa eşdeğer karbon emisyonu ürettiğini göstermiştir [30]. Bu hesaplama, yapay zekâ araştırmalarının çevresel sürdürülebilirliği konusundaki tartışmaları alevlendirmiştir.
Uzun Dizi Sınırlaması. BERT'in öz-dikkat mekanizması, dizi uzunluğunun karesiyle orantılı hesaplama maliyeti gerektirir (O(n²)) ve maksimum 512 belirteç uzunluğuyla sınırlandırılmıştır [1]. Bu, uzun belgelerin — hukuki metinler, akademik makaleler, kitap bölümleri — doğrudan işlenmesini engellemiştir. Beltagy ve arkadaşlarının (2020) Longformer modeli, seyrek dikkat (sparse attention) mekanizmasıyla bu sınırlamayı ele almıştır [31].
Anlam mı, Örüntü mü? BERT'in başarısı, modelin dili gerçekten "anladığı" anlamına mı gelmektedir? Bender ve Koller'ın (2020) "Climbing Towards NLU" çalışması, yalnızca biçim (form) üzerinde eğitilen modellerin anlam (meaning) kazanamayacağını savunmuş ve BERT gibi modellerin dilsel yetkinliğinin sınırlarını felsefi açıdan sorgulamıştır [32]. Rogers, Kovaleva ve Rumshisky'nin (2020) kapsamlı tarama çalışması — "A Primer in BERTology" — BERT'in ne öğrendiği, nasıl öğrendiği ve ne öğrenemediği konusundaki bulguları sistematik biçimde derlemiştir [33].
6. Etik ve Toplumsal Boyutlar
BERT'in yaygın benimsenmesi, beraberinde önemli etik soruları getirmiştir.
Önyargı ve Ayrımcılık. BERT, İngilizce Vikipedi ve BookCorpus üzerinde eğitilmiştir [1]. Bu veri kaynakları, toplumsal önyargıları — cinsiyet, ırk, din, meslek stereotipleri — içermektedir. Zhao ve arkadaşlarının (2019) çalışması, BERT'in temsil ettiği cinsiyete dayalı önyargıları ölçmüş ve modelin "hemşire" kelimesini kadınlarla, "mühendis" kelimesini erkeklerle güçlü biçimde ilişkilendirdiğini göstermiştir [34]. May ve arkadaşlarının (2019) çalışması, cümle düzeyindeki temsillerde de benzer önyargıların bulunduğunu ortaya koymuştur [35]. Bu önyargılar, BERT tabanlı sistemler işe alım, kredi değerlendirme veya adalet gibi yüksek riskli alanlarda kullanıldığında doğrudan ayrımcılığa yol açabilmektedir.
Dijital Dilsel Eşitsizlik. Orijinal BERT modeli İngilizce üzerinde eğitilmiştir [1]. Multilingual BERT 104 dili desteklese de, düşük kaynaklı dillerdeki performansı yüksek kaynaklı dillere kıyasla belirgin biçimde düşüktür [28]. Bu durum, yapay zekâ teknolojilerinin küresel erişilebilirliği açısından ciddi bir eşitsizlik yaratmaktadır. Türkçe gibi orta kaynaklı diller için özel modeller (BERTurk gibi) geliştirilmiş olsa da, dünya dillerinin büyük çoğunluğu bu olanaklardan yoksundur [19].
Hesaplama Gücü Merkezileşmesi. BERT'in eğitiminin gerektirdiği hesaplama kaynakları, yapay zekâ araştırmalarının giderek büyük teknoloji şirketlerinin tekeline geçmesi endişesini pekiştirmiştir [29]. Ahmed ve Wahed'in (2020) çalışması, bu durumu "yapay zekânın demokratikleşmesinin tersine çevrilmesi" (de-democratization of AI) olarak nitelendirmiştir [29]. BERT, bu eğilimin erken ve belirgin bir örneğidir — modeli sıfırdan eğitebilecek kaynaklara yalnızca birkaç büyük kuruluş sahipti.
Gizlilik ve Veri Kullanımı. BERT'in eğitim verisi, çoğunlukla kamuya açık kaynaklardan derlenmiştir [1]. Ancak bu verilerin toplanma, işlenme ve kullanılma biçimlerine ilişkin etik sorular giderek daha yüksek sesle dile getirilmektedir. Özellikle Vikipedi verilerinin gönüllüler tarafından oluşturulmuş olması ve bu emeğin ticari yapay zekâ modellerinin eğitiminde kullanılması, dijital emek ve telif hakları tartışmalarını beraberinde getirmektedir.
7. Güncel Uygulamalar ve Miras
BERT'in mirası, hem doğrudan uygulamalarda hem de başlattığı araştırma geleneklerinde yaşamaya devam etmektedir.
Endüstriyel Uygulamalar. BERT ve türevleri, günümüzde bilgi erişimi (information retrieval), soru-yanıtlama, duygu analizi, metin sınıflandırma, adlandırılmış varlık tanıma ve makine çevirisi gibi geniş bir uygulama yelpazesinde standart araç olarak kullanılmaktadır [6]. Google Arama'daki BERT entegrasyonu, kullanıcıların doğal dilde sordukları karmaşık soruların daha iyi anlaşılmasını sağlamıştır [22]. Biyomedikal alanda BioBERT [36], hukuk alanında Legal-BERT, finans alanında FinBERT gibi alan-özel modeller, BERT mimarisinin farklı uzmanlık alanlarına uyarlanabilirliğini kanıtlamıştır.
BERT Ailesinin Genişlemesi. BERT'in yayımlanmasının ardından, onun sınırlamalarını ele alan ve mimarisini geliştiren bir dizi model ortaya çıkmıştır. RoBERTa [14], eğitim stratejisini optimize etmiştir. ALBERT [16], parametre verimliliğini artırmıştır. ELECTRA [26], maskeleme yerine değiştirilmiş belirteç tespiti yaklaşımını sunmuştur. DeBERTa [27], çözülmüş dikkat (disentangled attention) mekanizmasıyla BERT'in performansını iyileştirmiştir. DistilBERT [37], bilgi damıtma (knowledge distillation) yöntemiyle BERT'in boyutunu %40 azaltırken performansın %97'sini korumayı başarmıştır.
Çok Dilli ve Çapraz Dilli Transfer. Multilingual BERT ve sonrasında geliştirilen XLM-RoBERTa [38] gibi modeller, çapraz dilli transfer öğrenmenin olanaklarını açmıştır. Yüksek kaynaklı bir dilde (örneğin İngilizce) ince ayar yapılmış bir modelin, hiç eğitim verisi olmayan düşük kaynaklı bir dilde bile makul performans gösterebilmesi — "sıfır atış çapraz dilli transfer" (zero-shot cross-lingual transfer) — BERT mimarisinin en şaşırtıcı ve umut verici keşiflerinden biridir [38].
Akademik Miras. BERT, "BERTology" olarak adlandırılan bir araştırma alt alanını başlatmıştır [33]. Bu alan, ön-eğitimli dil modellerinin ne öğrendiğini, nasıl öğrendiğini, hangi dilsel bilgileri kodladığını ve hangi sınırlılıklara sahip olduğunu sistematik biçimde araştırmaktadır. BERT aynı zamanda "büyük dil modelleri" (large language models, LLM) çağının kapılarını açmıştır — GPT-2, GPT-3 ve sonrasında gelen modeller, BERT'in kanıtladığı ön-eğitim paradigmasını daha büyük ölçeklere taşımıştır [25].
8. Bölüm Özeti
BERT, 2018 yılında doğal dil işleme alanında bir paradigma değişimi yaratmıştır. Transformer'ın kodlayıcı bileşenini çift yönlü ön-eğitimle birleştiren model, maskelenmiş dil modellemesi stratejisiyle bir kelimenin hem solundaki hem sağındaki bağlamı eşzamanlı olarak değerlendirmeyi mümkün kılmıştır [1]. On bir farklı NLP kıyaslamasında eşzamanlı olarak rekor kıran BERT, transfer öğrenmenin — ön-eğitim ve ince ayar paradigmasının — NLP'deki gücünü kesin biçimde kanıtlamıştır. Model, yalnızca akademik bir başarı değil, Google Arama gibi milyarlarca kullanıcıyı etkileyen endüstriyel uygulamalarda da dönüştürücü bir güç olmuştur [22].
BERT'in mirası çok katmanlıdır: RoBERTa, ALBERT, ELECTRA, DeBERTa gibi doğrudan ardılları; BioBERT, FinBERT, Legal-BERT gibi alan-özel uyarlamaları; BERTurk gibi dil-özel modelleri; ve "BERTology" adlı bir araştırma geleneği, BERT'in etkisinin genişliğini göstermektedir. Aynı zamanda BERT, hesaplama eşitsizliği, algoritmik önyargı ve çevresel sürdürülebilirlik gibi kritik etik soruları da görünür kılmıştır.
Kitabımızın bir sonraki bölümünde, BERT'in çağdaşı ve rakibi olan GPT ailesinin — özellikle GPT-1'in — üretici ön-eğitim (generative pre-training) yaklaşımını inceleyeceğiz. BERT ile GPT arasındaki "kodlayıcı mı, çözücü mü?" gerilimi, günümüzdeki büyük dil modelleri tartışmasının temellerini oluşturmaktadır.
9. Kaynakça
1. Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics (NAACL), 4171-4186.
2. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems, 30, 5998-6008.
3. Radford, A., Narasimhan, K., Salimans, T., & Sutskever, I. (2018). Improving Language Understanding by Generative Pre-Training. OpenAI Technical Report.
4. Rajpurkar, P., Jia, R., & Liang, P. (2018). Know What You Don't Know: Unanswerable Questions for SQuAD. Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics, 784-789.
5. Wang, A., Singh, A., Michael, J., Hill, F., Levy, O., & Bowman, S. R. (2019). GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding. Proceedings of the International Conference on Learning Representations.
6. Qiu, X., Sun, T., Xu, Y., Shao, Y., Dai, N., & Huang, X. (2020). Pre-trained Models for Natural Language Processing: A Survey. Science China Technological Sciences, 63(10), 1872-1897.
7. Peters, M. E., Neumann, M., Iyyer, M., Gardner, M., Clark, C., Lee, K., & Zettlemoyer, L. (2018). Deep Contextualized Word Representations. Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics, 2227-2237.
8. Mikolov, T., Sutskever, I., Chen, K., Corrado, G. S., & Dean, J. (2013). Distributed Representations of Words and Phrases and Their Compositionality. Advances in Neural Information Processing Systems, 26, 3111-3119.
9. Pennington, J., Socher, R., & Manning, C. D. (2014). GloVe: Global Vectors for Word Representation. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing, 1532-1543.
10. Howard, J., & Ruder, S. (2018). Universal Language Model Fine-tuning for Text Classification. Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics, 328-339.
11. McCann, B., Bradbury, J., Xiong, C., & Socher, R. (2017). Learned in Translation: Contextualized Word Vectors. Advances in Neural Information Processing Systems, 30, 6294-6305.
12. Collobert, R., & Weston, J. (2008). A Unified Architecture for Natural Language Processing: Deep Neural Networks with Multitask Learning. Proceedings of the 25th International Conference on Machine Learning, 160-167.
13. Taylor, W. L. (1953). Cloze Procedure: A New Tool for Measuring Readability. Journalism Quarterly, 30(4), 415-433.
14. Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., Levy, O., Lewis, M., Zettlemoyer, L., & Stoyanov, V. (2019). RoBERTa: A Robustly Optimized BERT Pretraining Approach. arXiv preprint arXiv:1907.11692.
15. Yang, Z., Dai, Z., Yang, Y., Carbonell, J., Salakhutdinov, R., & Le, Q. V. (2019). XLNet: Generalized Autoregressive Pretraining for Language Understanding. Advances in Neural Information Processing Systems, 32, 5753-5763.
16. Lan, Z., Chen, M., Goodman, S., Gimpel, K., Sharma, P., & Soricut, R. (2020). ALBERT: A Lite BERT for Self-supervised Learning of Language Representations. Proceedings of the International Conference on Learning Representations.
17. Clark, K., Khandelwal, U., Levy, O., & Manning, C. D. (2019). What Does BERT Look At? An Analysis of BERT's Attention. Proceedings of the 2019 ACL Workshop BlackboxNLP, 276-286.
18. Tenney, I., Das, D., & Pavlick, E. (2019). BERT Rediscovers the Classical NLP Pipeline. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, 4593-4601.
19. Schweter, S. (2020). BERTurk – BERT Models for Turkish. Zenodo. https://doi.org/10.5281/zenodo.3770924
20. Safaya, A., Kurfalı, M., & Guillen, M. (2022). Evaluating Multilingual BERT for Turkish NLP. Proceedings of the Turkish Natural Language Processing Workshop.
21. Bengio, Y., Ducharme, R., Vincent, P., & Jauvin, C. (2003). A Neural Probabilistic Language Model. Journal of Machine Learning Research, 3, 1137-1155.
22. Nayak, P. (2019). Understanding Searches Better Than Ever Before. Google Blog. https://blog.google/products/search/search-language-understanding-bert/
23. Ruder, S. (2018). NLP's ImageNet Moment Has Arrived. The Gradient. https://thegradient.pub/nlp-imagenet/
24. Wu, Y., Schuster, M., Chen, Z., Le, Q. V., Norouzi, M., Macherey, W., ... & Dean, J. (2016). Google's Neural Machine Translation System: Bridging the Gap Between Human and Machine Translation. arXiv preprint arXiv:1609.08144.
25. Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., ... & Amodei, D. (2020). Language Models Are Few-Shot Learners. Advances in Neural Information Processing Systems, 33, 1877-1901.
26. Clark, K., Luong, M.-T., Le, Q. V., & Manning, C. D. (2020). ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators. Proceedings of the International Conference on Learning Representations.
27. He, P., Liu, X., Gao, J., & Chen, W. (2021). DeBERTa: Decoding-enhanced BERT with Disentangled Attention. Proceedings of the International Conference on Learning Representations.
28. Pires, T., Schlinger, E., & Garrette, D. (2019). How Multilingual Is Multilingual BERT? Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, 4996-5001.
29. Ahmed, N., & Wahed, M. (2020). The De-Democratization of AI: Deep Learning and the Compute Divide in Artificial Intelligence Research. arXiv preprint arXiv:2010.15581.
30. Strubell, E., Ganesh, A., & McCallum, A. (2019). Energy and Policy Considerations for Deep Learning in NLP. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, 3645-3650.
31. Beltagy, I., Peters, M. E., & Cohan, A. (2020). Longformer: The Long-Document Transformer. arXiv preprint arXiv:2004.05150.
32. Bender, E. M., & Koller, A. (2020). Climbing Towards NLU: On Meaning, Form, and Understanding in the Age of Data. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 5185-5198.
33. Rogers, A., Kovaleva, O., & Rumshisky, A. (2020). A Primer in BERTology: What We Know About How BERT Works. Transactions of the Association for Computational Linguistics, 8, 842-866.
34. Zhao, J., Wang, T., Yatskar, M., Cotterell, R., Ordonez, V., & Chang, K.-W. (2019). Gender Bias in Contextualized Word Embeddings. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics, 629-634.
35. May, C., Wang, A., Bordia, S., Bowman, S. R., & Rudinger, R. (2019). On Measuring Social Biases in Sentence Encoders. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics, 622-628.
36. Lee, J., Yoon, W., Kim, S., Kim, D., Kim, S., So, C. H., & Kang, J. (2020). BioBERT: A Pre-trained Biomedical Language Representation Model for Biomedical Text Mining. Bioinformatics, 36(4), 1234-1240.
37. Sanh, V., Debut, L., Chaumond, J., & Wolf, T. (2019). DistilBERT, a Distilled Version of BERT: Smaller, Faster, Cheaper and Lighter. arXiv preprint arXiv:1910.01108.
38. Conneau, A., Khandelwal, K., Goyal, N., Chaudhary, V., Wenzek, G., Guzmán, F., Grave, E., Ott, M., Zettlemoyer, L., & Stoyanov, V. (2020). Unsupervised Cross-lingual Representation Learning at Scale. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 8440-8451.
10. Tartışma Soruları
1. Analitik: BERT'in maskelenmiş dil modeli (MLM) stratejisi, neden geleneksel tek yönlü dil modellemesinden daha etkili bağlamsal temsiller üretmektedir? Maskeleme oranının (%15) ve maskeleme dağılımının (%80 [MASK], %10 rastgele, %10 değişmez) tasarım gerekçelerini tartışınız.
2. Karşılaştırmalı: BERT (kodlayıcı tabanlı, çift yönlü) ile GPT-1 (çözücü tabanlı, tek yönlü) arasındaki mimari ve felsefi farklar nelerdir? Hangi tür NLP görevleri için hangi yaklaşım daha uygundur ve neden?
3. Spekülatif: BERT, Transformer mimarisi yerine derin LSTM tabanlı bir mimariyle geliştirilseydi — yani ELMo'nun derinleştirilmiş bir versiyonu olarak — aynı düzeyde başarı elde edebilir miydi? Transformer'ın BERT'in başarısındaki rolü ne kadardır?
4. Etik: BERT'in eğitim verisi olan Vikipedi ve BookCorpus, belirli demografik grupların perspektiflerini diğerlerine göre daha fazla temsil etmektedir. Bu önyargının BERT tabanlı uygulamalarda — özellikle işe alım, kredi değerlendirme ve adalet sistemlerinde — somut sonuçları neler olabilir? Bu sorunun teknik ve toplumsal çözümleri nelerdir?
5. Güncel: BERT'in "ön-eğitim + ince ayar" paradigması, 2020 sonrasında GPT-3'ün "bağlam içi öğrenme" (in-context learning) paradigmasıyla sorgulanmıştır. Bu iki yaklaşım arasındaki temel farklar nelerdir ve hangisi NLP'nin geleceğini şekillendirme olasılığı daha yüksektir?
6. Karşılaştırmalı: ELMo'nun "sığ çift yönlülüğü" (iki ayrı tek yönlü LSTM'in birleştirilmesi) ile BERT'in "derin çift yönlülüğü" (her katmanda eşzamanlı çift yönlü dikkat) arasındaki fark, pratik performans açısından neden bu denli büyük bir farka yol açmıştır?
7. Analitik: BERT'in açık kaynak olarak yayımlanması, NLP araştırma topluluğunun yapısını nasıl dönüştürmüştür? Açık kaynak modellerin araştırma demokratizasyonu ile büyük teknoloji şirketlerinin hesaplama üstünlüğü arasındaki gerilimi tartışınız.
8. Etik: Strubell ve arkadaşlarının hesaplamalarına göre, büyük NLP modellerinin eğitimi ciddi karbon emisyonları üretmektedir. Yapay zekâ araştırmalarının çevresel sürdürülebilirliği ile performans arayışı arasındaki denge nasıl kurulmalıdır? ALBERT ve DistilBERT gibi verimli modeller bu soruna yeterli bir çözüm sunabilir mi?
9. Spekülatif: BERT'in 104 dili destekleyen Multilingual versiyonu, çapraz dilli transferin olanaklarını göstermiştir. Eğer tüm dünya dilleri için yeterli dijital metin verisi mevcut olsaydı, evrensel bir dil modeli mümkün olabilir miydi? Bu, Noam Chomsky'nin evrensel gramer hipotezi ile nasıl ilişkilendirilebilir?
10. Güncel: 2024-2025 itibarıyla, kodlayıcı tabanlı modeller (BERT geleneği) büyük ölçüde çözücü tabanlı modellerin (GPT geleneği) gölgesinde kalmıştır. Bu eğilim, BERT'in yaklaşımının artık geçerliliğini yitirdiği anlamına mı gelmektedir, yoksa kodlayıcı modellerin hâlâ üstün olduğu kullanım alanları var mıdır?