T5 ve Metin-den-Metine Çerçevesi

Ayan, Buğra

Bölüm 41 2020Büyük Dil Modelleri

T5 ve Metin-den-Metine Çerçevesi

T5 modelinin tüm NLP görevlerini metin-den-metine çerçevesinde birleştirmesi.

T5 metin-den-metine Google transfer öğrenme çoklu görev

Önemli isimler: Colin Raffel

1. Giriş

2020 yılının başlarında, Google Research bünyesinden Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee ve meslektaşlarının imzasını taşıyan devasa bir çalışma, Journal of Machine Learning Research dergisinde yayımlandı. "Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer" başlıklı bu makale, doğal dil işleme (natural language processing, NLP) alanında yıllardır birbirinden kopuk biçimde ele alınan görevleri — çeviri, özetleme, sınıflandırma, soru-cevap, metin üretimi — tek bir birleşik çerçeve altında toplayan radikal bir öneri sunuyordu [1]. T5 olarak adlandırılan bu model — kısaltması "Text-to-Text Transfer Transformer"ın beş "T" harfinden geliyordu — her NLP görevini bir "metin girdisi → metin çıktısı" problemi olarak yeniden tanımlıyor ve bu basit ama güçlü soyutlamayla alanın parçalanmış yapısını birleştirmeyi hedefliyordu [1].

T5'in ortaya çıkışı, yapay zeka tarihinde birkaç nedenden dolayı kritik bir dönüm noktasıdır. İlk olarak, bu çalışma yalnızca yeni bir model önermemiş, aynı zamanda transfer öğrenmenin (transfer learning) sınırlarını sistematik biçimde araştıran kapsamlı bir deneysel çalışma niteliği taşımıştır [1]. Raffel ve arkadaşları, mimari tasarımdan eğitim stratejisine, veri boyutundan ince ayar (fine-tuning) tekniklerine kadar onlarca değişkeni kontrollü deneylerle incelemiş ve NLP topluluğuna "neyin neden işe yaradığını" gösteren bir yol haritası sunmuşlardır [1][2]. İkinci olarak, T5 kodlayıcı-çözücü (encoder-decoder) mimarisini yeniden ön plana çıkararak, GPT serisinin yalnızca çözücü (decoder-only) ve BERT'in yalnızca kodlayıcı (encoder-only) yaklaşımlarına karşı üçüncü bir paradigmayı savunmuştur [1][3]. Üçüncü olarak, çalışmanın bir parçası olarak oluşturulan Colossal Clean Crawled Corpus (C4) veri seti — yaklaşık 750 GB'lık temizlenmiş İngilizce metin — açık erişimli olarak paylaşılarak, büyük dil modellerinin eğitim verisi şeffaflığı konusunda önemli bir emsal oluşturmuştur [1].

T5'in metin-den-metine çerçevesi, bir anlamda NLP'nin kendi Rosetta Taşı'ydı: farklı "dillerde" — yani farklı görev formatlarında — ifade edilen sorunları ortak bir "dilin" — metin girdisi ve metin çıktısının — grameri altında birleştiriyordu. Bu birleştirici vizyonun kökleri, önceki bölümlerde ele aldığımız GPT-3'ün az-örnekli öğrenme paradigmasıyla aynı dönemde filizlenmiş olsa da, T5 farklı bir felsefi yol izlemiştir: GPT-3 "modeli yeterince büyütürsen ince ayar gereksiz hale gelir" derken, T5 "doğru çerçeveyi kurarsanız ince ayar çok daha verimli hale gelir" demiştir [1][4]. Bu iki yaklaşım arasındaki gerilim, 2020'lerin yapay zeka araştırmalarının temel tartışma eksenlerinden birini oluşturacaktır.

Bu bölüm, T5'in teknik mimarisini, metin-den-metine çerçevesinin kavramsal temellerini, C4 veri setinin oluşturulma sürecini, modelin NLP kıyaslama testlerindeki performansını, sistematik ablasyon çalışmalarının bulgularını ve kodlayıcı-çözücü mimarisinin yapay zeka tarihindeki yerini kapsamlı biçimde ele alacaktır.

2. Literatür Taraması

T5'in entelektüel kökenleri, transfer öğrenme, çoklu görev öğrenimi (multi-task learning) ve dil modelleme alanlarında on yılları kapsayan geniş bir araştırma geleneğine dayanmaktadır.

Vaswani ve arkadaşlarının 2017'de yayımladığı "Attention Is All You Need" makalesi, T5'in mimari temelini oluşturan Transformer mimarisini tanıtmıştır [5]. Bu çalışma, öz-dikkat (self-attention) mekanizmasıyla tekrarlayan sinir ağlarının (recurrent neural networks, RNN) sıralı işleme kısıtlamalarını ortadan kaldırmış ve hem kodlayıcı hem de çözücü bileşenlerini içeren orijinal Transformer mimarisini sunmuştur [5]. T5, bu orijinal kodlayıcı-çözücü yapısına sadık kalarak, GPT ve BERT'in seçtiği "yarım mimari" stratejilerinden farklı bir yol izlemiştir [1][5].

Devlin ve arkadaşlarının BERT çalışması (2018), yalnızca kodlayıcı mimarisiyle maskelenmiş dil modelleme (masked language modeling, MLM) yaklaşımını sunmuş ve NLP'de ince ayar tabanlı transfer öğrenme paradigmasını baskın hale getirmiştir [6]. BERT'in başarısı, ön-eğitimli modellerin görev-spesifik sınıflandırma katmanlarıyla ince ayarlanmasının standart uygulama olduğu bir dönemi başlatmıştır [6]. Ancak BERT, her görev türü için farklı bir çıktı katmanı gerektirmiş; sınıflandırma, bölüm etiketleme (span extraction) ve metin üretimi görevleri birbirinden yapısal olarak farklı ele alınmıştır [6]. T5, bu parçalanmayı metin-den-metine çerçevesiyle çözmeyi hedeflemiştir [1].

Radford ve arkadaşlarının GPT-2 çalışması (2019), yalnızca çözücü mimarisiyle otoregresif dil modellemesinin NLP görevlerini gözetimsiz biçimde gerçekleştirebileceğini göstermiştir [7]. GPT-2'nin "dil modelleri gözetimsiz çoklu görev öğrenicileridir" tezi, T5'in birleşik görev yaklaşımıyla kavramsal bir paralellik taşımaktadır; ancak T5, gözetimsiz yaklaşım yerine açıkça yapılandırılmış bir görev formatını tercih etmiştir [1][7].

McCann ve arkadaşlarının Decathlon (decaNLP) çalışması (2018), on farklı NLP görevini tek bir soru-cevap formatında birleştiren erken bir girişim olarak T5'in doğrudan kavramsal öncüsü sayılabilir [8]. Bu çalışma, farklı görevlerin ortak bir formatta ifade edilebileceği fikrini somutlaştırmış; ancak ölçek ve performans açısından sınırlı kalmıştır [8]. Keskar ve arkadaşlarının CTRL modeli (2019) ise kontrol kodları (control codes) kullanarak metin üretiminin yönlendirilmesini önermiş ve görev-spesifik ön-ekler (prefixes) kullanma fikrini beslemiştir [9].

Liu ve arkadaşlarının RoBERTa çalışması (2019), önceki bölümde ayrıntılı olarak ele aldığımız gibi, BERT'in eğitim prosedürlerinin optimize edilmesiyle aynı mimariden çok daha yüksek performans elde edilebileceğini göstermiştir [10]. RoBERTa'nın temel mesajı — eğitim mühendisliğinin mimari kadar önemli olduğu — T5'in sistematik ablasyon çalışmalarının felsefi temelini oluşturmuştur [10]. T5 ekibi, RoBERTa'nın bu anlayışını daha da ileri götürerek, mimari, eğitim stratejisi, veri boyutu ve görev formülasyonunun her birini ayrı ayrı ve birlikte incelemiştir [1].

Yang ve arkadaşlarının XLNet çalışması (2019), permütasyon tabanlı dil modelleme ile BERT'in maskeleme stratejisine bir alternatif sunmuştur [11]. Lan ve arkadaşlarının ALBERT çalışması (2020), parametre paylaşımı ve faktörizasyon teknikleriyle büyük modellerin daha verimli eğitilmesini araştırmıştır [12]. Clark ve arkadaşlarının ELECTRA çalışması (2020), maskelenmiş dil modellemesi yerine "ayrıştırıcı" (discriminator) tabanlı bir ön-eğitim stratejisi önererek, eğitim verimliliğini artırmayı başarmıştır [13]. T5, tüm bu yaklaşımları deneysel olarak karşılaştırmış ve hangisinin hangi koşullarda üstün olduğunu sistematik biçimde belgelemiştir [1].

Çoklu görev öğrenimi literatürü açısından, Caruana'nın (1997) öncü çalışması, görevler arası bilgi paylaşımının genelleme performansını artırdığını teorik ve deneysel olarak göstermiştir [14]. Collobert ve Weston'ın (2008) çalışması, NLP görevlerinin paylaşılan temsiller üzerinden birlikte öğrenilebileceğini kanıtlamıştır [15]. Ruder'ın (2017) kapsamlı tarama makalesi, çoklu görev öğreniminin derin öğrenmedeki uygulamalarını sistematize etmiştir [16]. T5, bu geleneği ölçeklendirerek, çoklu görev öğreniminin büyük ön-eğitimli modellere nasıl entegre edilebileceğini araştırmıştır [1].

Eleştirel perspektiften, Bender ve Koller'ın (2020) "Climbing towards NLU" makalesi, dil modellerinin yalnızca dilsel biçim (form) üzerinden eğitilmesinin gerçek anlama ile karıştırılmaması gerektiğini savunmuştur [17]. Bu eleştiri, T5 gibi modellerin çeşitli görevlerdeki başarılarının "zeka" ile eşdeğer tutulup tutulamayacağı sorusunu gündeme getirmiştir. Paullada ve arkadaşlarının (2021) veri setleri üzerine eleştirel çalışması, C4 dahil büyük web kazıma veri setlerinin içerdiği önyargıları ve kalite sorunlarını belgelemiştir [18]. Dodge ve arkadaşlarının (2021) C4'ü doğrudan inceleyen çalışması, veri setindeki demografik önyargıları ve içerik filtreleme kararlarının sonuçlarını detaylı biçimde analiz etmiştir [19].

3. Tarihsel ve Teorik Arka Plan

T5'in 2020'de ortaya çıkışını anlamlandırabilmek için, NLP'nin "görev çoğulculuğu" sorununun tarihsel gelişimini ve birleştirici çerçeve arayışlarının entelektüel soy ağacını kavramak gerekmektedir.

NLP'nin Parçalanmış Yapısı

Doğal dil işleme, tarihsel olarak birbirinden ayrı görevler etrafında örgütlenmiş bir alandır. Makine çevirisi, duygu analizi, adlandırılmış varlık tanıma (named entity recognition, NER), soru-cevap, metin özetleme ve sözdizimsel ayrıştırma (parsing) gibi görevlerin her biri kendi veri setlerine, değerlendirme metriklerine, model mimarilerine ve araştırma topluluklarına sahip olmuştur [20]. Bu parçalanma, NLP'nin pratik bir sorunu olmanın ötesinde, dilin doğasına ilişkin daha derin bir soruyla bağlantılıdır: dil anlama (language understanding) tek bir yetenek midir, yoksa birbirinden bağımsız alt yetkinliklerin toplamı mıdır?

Chomsky'nin evrensel dilbilgisi (universal grammar) geleneği, dilin altında birleştirici bir yapının bulunduğunu savunurken [21], bağlantıcı (connectionist) yaklaşım dilin dağıtık temsillerden ortaya çıkan bir olgu olduğunu ileri sürmüştür. T5'in metin-den-metine çerçevesi, bu tartışmada pragmatik bir konum almıştır: dilin birleştirici yapısını doğrudan modellemeyi hedeflemese de, tüm görevlerin ortak bir format altında ele alınabileceğini deneysel olarak göstermiştir [1].

Transfer Öğrenmenin NLP'deki Evrimi

Transfer öğrenme — bir görev için öğrenilen bilginin başka görevlere aktarılması — NLP'de görece geç bir keşiftir. Bilgisayarla görme alanında, ImageNet üzerinde eğitilmiş derin ağların diğer görsel görevlere aktarılması 2014'ten itibaren standart uygulama haline gelmiştir [22]. NLP'de benzer bir dönüşüm, Peters ve arkadaşlarının ELMo çalışması (2018) ve Howard ve Ruder'ın ULMFiT yöntemiyle (2018) başlamış, BERT (2018) ve GPT-1 (2018) ile hız kazanmıştır [6][7][23][24]. Ancak bu erken transfer öğrenme modelleri, her görev için farklı bir çıktı katmanı ve farklı bir ince ayar prosedürü gerektirmiştir.

T5, bu duruma köklü bir çözüm önermiştir: eğer tüm görevler aynı formatta — metin girdi, metin çıktı — ifade edilirse, aynı model ve aynı eğitim prosedürü her görev için kullanılabilir [1]. Bu fikrin kökleri, daha önce bahsettiğimiz decaNLP çalışmasına (2018) ve hatta daha geriye, yapay zeka araştırmalarının erken dönemlerindeki "genel problem çözücü" (General Problem Solver) vizyonuna kadar uzanmaktadır [8][25].

2019-2020: Büyük Modeller Çağının Altyapısı

T5'in geliştirildiği dönemde, GPU ve TPU (Tensor Processing Unit) donanımındaki ilerlemeler, milyarlarca parametrelik modellerin eğitilmesini pratik olarak mümkün kılmıştır. Google'ın özel olarak geliştirdiği TPU v3 çipleri, T5'in eğitimi için kritik bir altyapısal ön koşul olmuştur [1][26]. Dağıtık eğitim çerçeveleri — özellikle Google'ın Mesh TensorFlow kütüphanesi — binlerce hızlandırıcının (accelerator) koordineli biçimde çalıştırılmasını sağlamıştır [27]. Bu donanımsal ve yazılımsal altyapı olmadan, T5-11B gibi 11 milyar parametrelik bir modelin eğitilmesi düşünülemezdi.

Aynı dönemde, büyük ölçekli web kazıma (web scraping) veri setlerinin oluşturulması standart hale gelmiştir. Common Crawl projesi, milyarlarca web sayfasının düzenli olarak arşivlenmesini sağlamış ve bu ham veri, T5'in C4 veri setinin temelini oluşturmuştur [1]. Ancak ham web verisinin doğrudan kullanılması kalite sorunları yarattığından, T5 ekibi kapsamlı bir filtreleme ve temizleme süreciyle C4'ü oluşturmuştur [1][19].

Kodlayıcı-Çözücü vs. Yalnızca Çözücü Tartışması

2019-2020 döneminde, Transformer tabanlı modellerin mimari tercihlerinde belirgin bir ayrışma yaşanmıştır. GPT serisi yalnızca çözücü (decoder-only) mimarisini benimseyerek otoregresif metin üretiminde uzmanlaşmış; BERT ve türevleri yalnızca kodlayıcı (encoder-only) mimarisiyle dil anlama görevlerinde öne çıkmıştır [6][7]. T5, orijinal Transformer'ın tam kodlayıcı-çözücü yapısını koruyarak, hem anlama hem de üretim görevlerinin tek bir mimaride birleştirilebileceğini savunmuştur [1][5]. Bu mimari tercih, T5'in çeviri, özetleme ve soru-cevap gibi koşullu metin üretimi (conditional text generation) görevlerindeki gücünün temelini oluşturmuştur.

4. Ana Konu Analizi

4a. Metin-den-Metine Çerçevesi: Temel Mekanizma ve Felsefe

T5'in en temel yeniliği, NLP'deki tüm görevleri tek bir format altında birleştiren metin-den-metine (text-to-text) çerçevesidir [1]. Bu çerçevede, modele verilen her girdi bir metin dizisi (string) olarak formüle edilir ve modelden beklenen her çıktı da bir metin dizisidir. Görev türü ne olursa olsun — ister sınıflandırma, ister çeviri, ister regresyon — aynı model mimarisi, aynı kayıp fonksiyonu (cross-entropy loss) ve aynı eğitim prosedürü kullanılır [1].

Bu yaklaşımın somut işleyişi şöyledir: Çeviri görevinde model, "translate English to German: That is good." girdisini alır ve "Das ist gut." çıktısını üretir [1]. Sınıflandırma görevinde, "cola sentence: The course is jumping well." girdisi "not acceptable" çıktısını verir [1]. Özetleme görevinde, "summarize: " ön-eki ardından gelen uzun metin, modelin kısa bir özet üretmesini tetikler [1]. Regresyon görevinde bile — örneğin cümle benzerlik skorunu tahmin etmede — model bir metin olarak sayısal değer üretir [1].

Bu tasarımın zarif basitliğinin ardında derin bir kavramsal içgörü yatmaktadır: NLP görevleri arasındaki yapısal farklılıklar — sınıflandırma vs. üretim, etiketleme vs. çeviri — aslında yüzeysel biçim farklılıklarıdır ve tümü, metin-den-metine dönüşümün özel halleri olarak ifade edilebilir [1][2]. Bu bakış açısı, NLP araştırmalarının görev-spesifik mimari tasarımlardan uzaklaşarak genel amaçlı model geliştirmeye yönelmesini hızlandırmıştır.

T5'in kodlayıcı-çözücü mimarisi, orijinal Transformer'ın yapısını büyük ölçüde korumuştur [1][5]. Kodlayıcı (encoder), girdi dizisini çift yönlü (bidirectional) dikkat mekanizmasıyla işleyerek bağlamsal temsiller üretir [1]. Çözücü (decoder), otoregresif biçimde — yani her seferinde bir token üreterek — çıktı dizisini oluşturur ve hem kendi önceki çıktılarına hem de kodlayıcının temsillerine dikkat mekanizmasıyla erişir [1][5]. Bu yapı, modelin girdiyi "anlaması" ve çıktıyı "üretmesi" arasında net bir işlevsel ayrım sağlamıştır.

Ön-eğitim stratejisi olarak T5, "span corruption" adı verilen bir gözetimsiz (unsupervised) hedef kullanmıştır [1]. Bu yaklaşımda, girdi metninden rastgele seçilen ardışık token grupları (spans) maskelenir ve her maskelenen bölüm benzersiz bir sentinel token ile değiştirilir; modelin görevi, maskelenen bölümleri doğru sırayla yeniden üretmektir [1]. Örneğin, "The dog went to the and bought a " girdisi için model, " store gallon of milk" çıktısını üretmelidir [1]. Bu strateji, BERT'in maskelenmiş dil modellemesine benzer olmakla birlikte, çözücü tarafında metin üretimi gerektirdiğinden, modelin hem anlama hem de üretim kapasitesini geliştirmiştir [1][3].

4b. Colossal Clean Crawled Corpus (C4)

T5 çalışmasının önemli bir katkısı, eğitim verisi olarak kullanılan C4 veri setinin oluşturulması ve açık erişimle paylaşılmasıdır [1]. C4, Common Crawl'un Nisan 2019 anlık görüntüsünden (snapshot) elde edilmiş yaklaşık 750 GB'lık (yaklaşık 156 milyar token) temizlenmiş İngilizce metinden oluşmaktadır [1].

C4'ün oluşturulmasında uygulanan filtreleme adımları, büyük ölçekli veri mühendisliğinin karmaşıklığını gözler önüne sermiştir. Raffel ve arkadaşları, yalnızca nokta, ünlem veya soru işaretiyle biten cümleleri tutmuş; beş cümleden kısa sayfaları, küfür içeren sayfaları, JavaScript kodunu ve tekrarlayan metinleri elemişlerdir [1]. Ayrıca langdetect kütüphanesiyle yalnızca İngilizce olarak sınıflandırılan sayfalar dahil edilmiştir [1]. Bu filtreleme kararlarının her biri, veri setinin niteliğini doğrudan etkilemiş ve sonraki araştırmalarda tartışma konusu olmuştur [19].

Dodge ve arkadaşları (2021), C4'ü sistematik biçimde incelediklerinde, veri setinin belirli web sitelerine (Wikipedia, patents.google.com, forums) ağırlıklı olarak dayandığını ve demografik olarak belirli nüfusları — özellikle İngilizce konuşan gelişmiş ülkelerdeki internet kullanıcılarını — temsil ettiğini göstermişlerdir [19]. Bu bulgu, T5'in ve C4 üzerinde eğitilen diğer modellerin, bu demografik önyargıları çıktılarına yansıtma riskini somutlaştırmıştır [18][19].

4c. Sistematik Ablasyon Çalışmaları

T5 çalışmasının belki de en değerli katkısı, transfer öğrenmenin her boyutunu sistematik biçimde inceleyen kapsamlı ablasyon deneyleridir [1][2]. Raffel ve arkadaşları, tek bir değişkeni değiştirip diğerlerini sabit tutarak, aşağıdaki faktörlerin performansa etkisini ölçmüşlerdir:

Mimari seçimi: Kodlayıcı-çözücü, yalnızca çözücü ve ön-ekli dil modeli (prefix language model) mimarileri karşılaştırılmıştır [1]. Sonuçlar, kodlayıcı-çözücü mimarisinin — özellikle kodlayıcı ve çözücü ayrı parametre setleri kullandığında — çoğu görevde üstün performans gösterdiğini ortaya koymuştur [1]. Bu bulgu, GPT serisinin yalnızca çözücü yaklaşımına karşı önemli bir ampirik kanıt sunmuştur.

Ön-eğitim hedefleri: T5 ekibi, BERT tarzı maskeleme, bozma-onarım (denoising), otoregresif dil modelleme ve span corruption gibi çeşitli ön-eğitim hedeflerini karşılaştırmıştır [1]. Span corruption yaklaşımının, hesaplama verimliliği ve görev performansı arasındaki en iyi dengeyi sağladığı bulunmuştur [1].

Etiketlenmemiş veri boyutu: Daha fazla eğitim verisi kullanmanın performansı artırdığı, ancak getirinin azalan bir eğri izlediği gösterilmiştir [1]. C4'ün tam boyutu ile dörtte biri ve on altıda biri arasındaki karşılaştırmalar, veri boyutunun özellikle daha büyük modellerde belirleyici olduğunu ortaya koymuştur [1].

Eğitim stratejileri: Çoklu görev öğrenimi, ardışık ince ayar (sequential fine-tuning) ve karma yaklaşımlar karşılaştırılmıştır [1]. Ön-eğitim ardından görev-spesifik ince ayar stratejisinin genellikle en iyi sonuçları verdiği, ancak çoklu görev öğreniminin belirli koşullarda rekabetçi olabildiği bulunmuştur [1].

Model ölçeği: T5-Small (60 milyon parametre), T5-Base (220 milyon), T5-Large (770 milyon), T5-3B (3 milyar) ve T5-11B (11 milyar) olmak üzere beş farklı boyutta model eğitilmiştir [1]. Performansın model boyutuyla düzgün biçimde arttığı, ancak en büyük sıçramaların belirli görevlerde ve belirli ölçek eşiklerinde gerçekleştiği gözlenmiştir [1].

Bu sistematik yaklaşım, T5 çalışmasını yalnızca bir model önerisinden çok daha fazlası haline getirmiştir: aslında transfer öğrenme alanının deneysel bir "haritası" niteliğindedir [2].

4d. Kilit Aktörler ve Kurumsal Bağlam

T5'in geliştirilmesi, Google Research (özellikle Google Brain ekibi) bünyesinde gerçekleşmiştir. Çalışmanın birinci yazarı Colin Raffel, daha önce müzik bilgi erişimi (music information retrieval) ve yarı-gözetimli öğrenme alanlarında çalışan ve doktora tezini büyük ölçekli metin öğrenme üzerine tamamlayan bir araştırmacıdır [1]. Noam Shazeer, orijinal Transformer makalesinin yazarlarından biri olarak dikkat mekanizmasının mimari temellerini atan isimlerden biridir [5]. Adam Roberts ve Katherine Lee, Google'ın büyük dil modeli ekosisteminin deneysel altyapısını inşa etmede kritik roller üstlenmişlerdir [1].

Google'ın T5 üzerindeki yatırımı, şirketin TPU altyapısının stratejik önemiyle doğrudan bağlantılıdır [26]. T5, Google'ın özel donanımı olan TPU'lar üzerinde eğitilmiş ve Mesh TensorFlow çerçevesiyle model paralelliği uygulanmıştır [1][27]. Bu durum, büyük ölçekli model geliştirmenin artık yalnızca algoritmik değil, aynı zamanda altyapısal bir rekabet haline geldiğini göstermiştir.

T5'in açık erişimli olarak paylaşılması — hem model ağırlıkları hem de C4 veri seti — Google'ın kapalı kaynak eğilimlerine rağmen önemli bir şeffaflık adımı olmuştur. Bu paylaşım, akademik araştırmacıların T5 üzerinde deneyler yapmasını, bulguları doğrulamasını ve modeli kendi çalışmalarına uyarlamasını mümkün kılmıştır [1].

4e. Dönem İçindeki Performans ve Karşılaştırmalar

T5-11B, yayımlandığı dönemde birçok NLP kıyaslama testinde en yüksek sonuçları (state-of-the-art, SOTA) elde etmiştir [1]. GLUE (General Language Understanding Evaluation) kıyaslama setinde 90,3 ortalama puanla liderliğe oturmuş; SuperGLUE kıyaslama setinde ise 88,9 puan elde ederek insan performansına yaklaşmıştır [1][28]. SQuAD (Stanford Question Answering Dataset) soru-cevap testinde, CNN/Daily Mail özetleme testinde ve WMT çeviri testlerinde de rekabetçi sonuçlar sergilemiştir [1].

Ancak T5'in performansı her alanda eşit derecede güçlü değildir. Özellikle açık uçlu metin üretimi (open-ended text generation) görevlerinde, GPT-2 ve GPT-3 gibi otoregresif modellerin akıcılık ve tutarlılık avantajı korumuştur [4][7]. Ayrıca, T5'in çıktılarının "metin" formatında olması, bazı yapılandırılmış çıktı (structured output) gerektiren görevlerde — örneğin karmaşık tablolar veya ağaç yapıları — ek işlem gerektirmiştir [1].

T5'in GPT-3 ile karşılaştırılması özellikle aydınlatıcıdır. GPT-3, 175 milyar parametresiyle T5-11B'nin yaklaşık 16 katı büyüklüğündedir ve az-örnekli öğrenme kapasitesiyle dikkat çekmiştir [4]. Ancak T5, ince ayar yapıldığında çok daha küçük model boyutlarıyla rekabetçi performans sergileyebilmiş; bu da "büyük model + az-örnekli öğrenme" ile "küçük-orta model + ince ayar" stratejileri arasındaki ödünleşimi somutlaştırmıştır [1][4].

4f. Genel Yapay Zeka Tarihindeki Yeri

T5, yapay zeka tarihinde birkaç temel nedenle kalıcı bir yer edinmiştir. İlk olarak, metin-den-metine çerçevesi, sonraki birleşik model yaklaşımlarının kavramsal temelini oluşturmuştur. Google'ın kendi sonraki modelleri — FLAN-T5, UL2, PaLM — T5'in birleştirici vizyonunun doğrudan uzantılarıdır [29][30]. OpenAI'ın InstructGPT ve ChatGPT'deki yönerge takibi (instruction following) yaklaşımı da, kavramsal olarak T5'in "görev ön-eki + girdi → çıktı" formatının bir türevi olarak yorumlanabilir [31].

İkinci olarak, T5'in sistematik ablasyon çalışmaları, NLP topluluğuna "neyin işe yaradığını" gösteren bir referans çerçeve sağlamıştır [1][2]. Bu çalışma, araştırmacıların mimari seçimlerini, ön-eğitim stratejilerini ve veri kararlarını kanıta dayalı biçimde vermelerine olanak tanımıştır.

Üçüncü olarak, T5 kodlayıcı-çözücü mimarisini yeniden ön plana çıkararak, GPT'nin yalnızca çözücü yaklaşımının tek yol olmadığını göstermiştir [1]. Bu mimari tercih, özellikle çeviri, özetleme ve koşullu metin üretimi gibi görevlerde kodlayıcı-çözücü yapısının avantajlarını ortaya koymuştur.

5. Eleştirel Değerlendirme

T5'in başarıları kadar sınırlılıkları da yapay zeka tarihinin anlaşılması açısından önemlidir.

Hesaplama maliyeti ve erişilebilirlik: T5-11B'nin eğitimi, Google'ın TPU altyapısı üzerinde gerçekleştirilmiş olup, bu ölçekteki eğitimin maliyeti akademik araştırma bütçelerinin çok ötesindedir [1]. Strubell ve arkadaşlarının (2019) NLP'deki enerji tüketimi konusundaki uyarıları, T5 gibi büyük modeller bağlamında somutlaşmıştır [32]. Yalnızca birkaç büyük teknoloji şirketinin bu ölçekte model eğitebilmesi, araştırma gündeminin belirlenmesinde asimetrik bir güç dağılımı yaratmıştır [18].

Tek dilli sınırlılık: T5, ağırlıklı olarak İngilizce metin üzerinde eğitilmiştir ve çok dilli performansı sınırlıdır [1]. mT5 (multilingual T5) modeli bu sınırlılığı kısmen giderse de, düşük kaynaklı (low-resource) dillerdeki performans hâlâ gelişmiş ülke dilleriyle kıyaslanamaz düzeydedir [33]. Türkçe gibi morfolojik açıdan zengin diller, T5'in İngilizce merkezli tokenizasyon (tokenization) stratejisinden olumsuz etkilenmiştir.

Metin-den-metine formatın sınırlılıkları: Her görevin metin olarak ifade edilmesi, bazı durumlarda bilgi kaybına yol açabilir. Örneğin, regresyon görevlerinde sayısal değerlerin metin olarak üretilmesi, modelin sayısal hassasiyetini sınırlamıştır [1]. Benzer şekilde, karmaşık yapılandırılmış çıktıların — grafikler, tablolar, ağaç yapıları — düz metin olarak temsil edilmesi, ek ayrıştırma (parsing) adımları gerektirmiştir [1].

Ön-eğitim verisinin önyargıları: C4 veri setinin internet kaynaklı olması, bu kaynakların içerdiği tüm önyargıları modele taşımıştır [18][19]. Dodge ve arkadaşlarının (2021) analizi, C4'te belirli toplulukların — özellikle İngilizce konuşmayan, düşük gelirli ve marjinalleştirilmiş grupların — sistematik biçimde yetersiz temsil edildiğini göstermiştir [19]. Bu önyargılar, modelin çıktılarında da kendini gösterebilmektedir.

Ablasyon çalışmalarının genellenebilirliği: T5'in sistematik karşılaştırmaları, belirli bir ölçek ve belirli bir veri seti bağlamında gerçekleştirilmiştir [1]. Bu bulguların çok daha büyük veya çok daha küçük modellere, farklı dillere veya farklı görev dağılımlarına ne ölçüde genellenebileceği bir tartışma konusudur. Kaplan ve arkadaşlarının (2020) ölçekleme yasaları çalışması ve Hoffmann ve arkadaşlarının (2022) Chinchilla bulguları, T5'in bazı sonuçlarının ölçek değiştikçe geçerliliğini yitirebileceğini düşündürmektedir [34][35].

Yenilik mi, sentez mi? Bazı araştırmacılar, T5'in radikal bir yenilik sunmadığını, daha çok mevcut fikirlerin — kodlayıcı-çözücü mimarisi, span maskeleme, ince ayar — büyük ölçekte sistematik biçimde birleştirilmesi olduğunu ileri sürmüşlerdir [2]. Bu eleştiri, T5'in değerini azaltmaktan çok, "yenilik" kavramının yapay zeka araştırmalarında nasıl tanımlanması gerektiğine dair daha geniş bir tartışmayı yansıtmaktadır.

6. Etik ve Toplumsal Boyutlar

T5'in ortaya çıkışı, büyük dil modellerinin toplumsal etkileri konusundaki tartışmaları birçok boyutta derinleştirmiştir.

Çevresel maliyetler: T5-11B'nin eğitimi, önemli miktarda enerji tüketimi gerektirmiştir. Strubell ve arkadaşları (2019), büyük NLP modellerinin eğitiminin karbon ayak izinin ortalama bir Amerikan arabasının ömür boyu emisyonlarını aşabileceğini hesaplamışlardır [32]. T5, bu hesaplamanın somut örneklerinden biri olmuştur. Google, eğitim altyapısında yenilenebilir enerji kullanımını artırsa da, bu çevresel maliyet hâlâ önemli bir etik sorun olarak gündemdedir [18].

Veri etiği ve temsil: C4 veri seti, internet kaynaklı bir derlem olarak, internet erişimi olan ve İngilizce içerik üreten nüfusların perspektiflerini yansıtmaktadır [19]. Bu durum, T5'in — ve C4 üzerinde eğitilen tüm modellerin — belirli kültürel, ekonomik ve dilsel önyargıları taşıma riskini beraberinde getirmektedir. Paullada ve arkadaşları (2021), büyük ölçekli veri setlerinin toplumsal eşitsizlikleri yeniden üretme potansiyeline dikkat çekmişlerdir [18].

Güç yoğunlaşması ve akademik bağımsızlık: T5'in Google tarafından geliştirilmesi, büyük teknoloji şirketlerinin NLP araştırmalarındaki hakimiyetinin bir yansımasıdır. Ahmed ve arkadaşları (2023), akademik NLP makalelerinin giderek artan bir oranının büyük şirketlerin finansmanıyla ve altyapısıyla üretildiğini belgelemişlerdir [36]. Bu eğilim, araştırma gündeminin ticari çıkarlar tarafından şekillendirilme riskini artırmaktadır.

Otomasyon ve istihdam: T5 gibi birleşik modellerin gelişmesi, çeviri, özetleme ve metin sınıflandırma gibi alanlarda otomasyonun hızlanacağını göstermiştir. Bu durum, bu alanlarda çalışan profesyonellerin — çevirmenler, editörler, içerik moderatörleri — istihdam koşulları üzerinde baskı yaratmıştır. T5'in metin-den-metine çerçevesinin getirdiği esneklik, tek bir modelin birçok farklı görevi gerçekleştirebilmesini mümkün kılmış ve bu "görev konsolidasyonu" eğilimini güçlendirmiştir [1].

7. Güncel Uygulamalar ve Miras

T5'in mirası, 2020'lerin ortasından itibaren yapay zeka ekosisteminin birçok katmanında hissedilmektedir.

FLAN-T5 ve yönerge ince ayarı: Chung ve arkadaşları (2022), T5'i çok sayıda görev üzerinde yönerge (instruction) formatında ince ayarlayarak FLAN-T5 modelini geliştirmişlerdir [29]. FLAN-T5, orijinal T5'e kıyasla sıfır-örnekli (zero-shot) ve az-örnekli (few-shot) performansta belirgin iyileşmeler göstermiş ve yönerge ince ayarının (instruction tuning) etkinliğini kanıtlamıştır [29]. Bu yaklaşım, ChatGPT'nin başarısının kavramsal öncüllerinden biri olmuştur.

mT5 ve çok dilli NLP: Xue ve arkadaşlarının (2021) mT5 çalışması, T5'in metin-den-metine çerçevesini 101 dile genişletmiştir [33]. Bu çalışma, T5'in birleştirici vizyonunun dil sınırlarını aşabileceğini göstermiş; ancak düşük kaynaklı dillerdeki performans eşitsizlikleri hâlâ önemli bir araştırma konusu olmaya devam etmektedir [33]. Türkçe NLP araştırmaları açısından mT5, önceki BERT tabanlı modellere kıyasla önemli iyileşmeler sağlamıştır.

UL2 ve birleşik ön-eğitim: Tay ve arkadaşlarının (2023) UL2 (Unifying Language Learning Paradigms) çalışması, T5'in ön-eğitim stratejisini genişleterek birden fazla ön-eğitim hedefini tek bir çerçevede birleştirmiştir [30]. Bu çalışma, T5'in "hangi ön-eğitim hedefi en iyisidir?" sorusuna "hepsini birleştir" yanıtını vererek, sistematik ablasyon geleneğini bir üst düzeye taşımıştır.

Endüstriyel uygulamalar: T5 ve türevleri, Google Arama, Google Translate ve Gmail'in akıllı yanıt özelliği gibi ticari ürünlerde kullanılmıştır [37]. Modelin metin-den-metine çerçevesinin sağladığı esneklik, tek bir modelin birden fazla ürün özelliğine hizmet etmesini mümkün kılmıştır. Ayrıca, T5'in açık erişimli olması, Hugging Face gibi platformlarda binlerce uyarlanmış (fine-tuned) T5 modelinin paylaşılmasına olanak tanımıştır.

Akademik miras: T5 makalesi, yayımlandığı tarihten bu yana NLP alanının en çok atıf alan çalışmalarından biri haline gelmiştir [2]. Çalışmanın sistematik ablasyon metodolojisi, sonraki araştırmalar için bir standart oluşturmuş; "T5 tarzı karşılaştırma" ifadesi, kapsamlı deneysel analiz için bir metonim haline gelmiştir.

8. Bölüm Özeti

T5, yapay zeka tarihinde birleştirici bir vizyon ile titiz deneysel metodolojinin buluştuğu nadir çalışmalardan biridir. Metin-den-metine çerçevesiyle NLP görevlerinin parçalanmış yapısına zarif bir çözüm sunmuş, kodlayıcı-çözücü mimarisini yeniden ön plana çıkarmış ve C4 veri setiyle büyük ölçekli eğitim verisi şeffaflığına katkıda bulunmuştur [1]. Çalışmanın belki de en kalıcı mirası, transfer öğrenmenin her boyutunu — mimari, ön-eğitim hedefi, veri boyutu, eğitim stratejisi, model ölçeği — sistematik biçimde inceleyen kapsamlı ablasyon deneyleridir [1][2].

T5'in "tüm görevler metin-den-metine dönüşümdür" tezi, sonraki yıllarda yönerge ince ayarı, çok dilli modeller ve birleşik ön-eğitim paradigmalarıyla genişletilmiş ve GPT serisiyle başlayan "büyüt ve basitleştir" felsefesine paralel bir "birleştir ve optimize et" geleneğinin temelini oluşturmuştur. Önceki bölümde incelediğimiz GPT-3'ün "ölçek yeterlidir" iddiasına karşılık, T5 "doğru çerçeve ve dikkatli mühendislik de en az ölçek kadar önemlidir" mesajını vermiştir [1][4].

Bu bölüm, kitabın genel argümanı açısından kritik bir köprü işlevi görmektedir: GPT-3'ün ölçekleme paradigmasından T5'in birleştirici çerçevesine uzanan yol, 2020'lerin başında yapay zeka araştırmalarının iki farklı ama birbirini tamamlayan stratejisini — daha büyük modeller ve daha akıllı mimari tasarım — somutlaştırmaktadır. Bir sonraki bölümde ele alacağımız Meta'nın Llama modelleri, bu iki stratejinin açık kaynak hareketi bağlamında nasıl sentezlendiğini inceleyecektir.

9. Kaynakça

[1] Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., Zhou, Y., Li, W., & Liu, P. J. (2020). Exploring the limits of transfer learning with a unified text-to-text transformer. Journal of Machine Learning Research, 21(140), 1–67.

[2] Tay, Y., Dehghani, M., Rao, J., Short, W., Hosseini, S., Bahri, D., & Metzler, D. (2021). Scale efficiently: Insights from pre-training and fine-tuning transformers. arXiv preprint arXiv:2109.10686.

[3] Lewis, M., Liu, Y., Goyal, N., Ghazvininejad, M., Mohamed, A., Levy, O., Stoyanov, V., & Zettlemoyer, L. (2020). BART: Denoising sequence-to-sequence pre-training for natural language generation, translation, and comprehension. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics (ACL), 7871–7880.

[4] Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., … & Amodei, D. (2020). Language models are few-shot learners. Advances in Neural Information Processing Systems, 33, 1877–1901.

[5] Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). Attention is all you need. Advances in Neural Information Processing Systems, 30, 5998–6008.

[6] Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of deep bidirectional transformers for language understanding. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics (NAACL-HLT), 4171–4186.

[7] Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). Language models are unsupervised multitask learners. OpenAI Blog, 1(8), 9.

[8] McCann, B., Keskar, N. S., Xiong, C., & Socher, R. (2018). The natural language decathlon: Multitask learning as question answering. arXiv preprint arXiv:1806.08730.

[9] Keskar, N. S., McCann, B., Varshney, L. R., Xiong, C., & Socher, R. (2019). CTRL: A conditional transformer language model for controllable generation. arXiv preprint arXiv:1909.05858.

[10] Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., Levy, O., Lewis, M., Zettlemoyer, L., & Stoyanov, V. (2019). RoBERTa: A robustly optimized BERT pretraining approach. arXiv preprint arXiv:1907.11692.

[11] Yang, Z., Dai, Z., Yang, Y., Carbonell, J., Salakhutdinov, R. R., & Le, Q. V. (2019). XLNet: Generalized autoregressive pretraining for language understanding. Advances in Neural Information Processing Systems, 32, 5753–5763.

[12] Lan, Z., Chen, M., Goodman, S., Gimpel, K., Sharma, P., & Soricut, R. (2020). ALBERT: A lite BERT for self-supervised learning of language representations. Proceedings of the International Conference on Learning Representations (ICLR).

[13] Clark, K., Luong, M.-T., Le, Q. V., & Manning, C. D. (2020). ELECTRA: Pre-training text encoders as discriminators rather than generators. Proceedings of the International Conference on Learning Representations (ICLR).

[14] Caruana, R. (1997). Multitask learning. Machine Learning, 28(1), 41–75.

[15] Collobert, R., & Weston, J. (2008). A unified architecture for natural language processing: Deep neural networks with multitask learning. Proceedings of the 25th International Conference on Machine Learning (ICML), 160–167.

[16] Ruder, S. (2017). An overview of multi-task learning in deep neural networks. arXiv preprint arXiv:1706.05098.

[17] Bender, E. M., & Koller, A. (2020). Climbing towards NLU: On meaning, form, and understanding in the age of data. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics (ACL), 5185–5198.

[18] Paullada, A., Raji, I. D., Bender, E. M., Denton, E., & Hanna, A. (2021). Data and its (dis)contents: A survey of dataset development and use in machine learning research. Patterns, 2(11), 100336.

[19] Dodge, J., Sap, M., Marasović, A., Agnew, W., Ilharco, G., Groeneveld, D., Mitchell, M., & Gardner, M. (2021). Documenting large webtext corpora: A case study on the Colossal Clean Crawled Corpus. Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing (EMNLP), 1286–1305.

[20] Jurafsky, D., & Martin, J. H. (2023). Speech and Language Processing (3rd ed. draft). Stanford University.

[21] Chomsky, N. (1957). Syntactic Structures. Mouton.

[22] Deng, J., Dong, W., Socher, R., Li, L.-J., Li, K., & Fei-Fei, L. (2009). ImageNet: A large-scale hierarchical image database. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 248–255.

[23] Peters, M. E., Neumann, M., Iyyer, M., Gardner, M., Clark, C., Lee, K., & Zettlemoyer, L. (2018). Deep contextualized word representations. Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics (NAACL-HLT), 2227–2237.

[24] Howard, J., & Ruder, S. (2018). Universal language model fine-tuning for text classification. Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (ACL), 328–339.

[25] Newell, A., & Simon, H. A. (1963). GPS, a program that simulates human thought. In E. A. Feigenbaum & J. Feldman (Eds.), Computers and Thought (pp. 279–293). McGraw-Hill.

[26] Jouppi, N. P., Young, C., Patil, N., Patterson, D., Agrawal, G., Bajwa, R., … & Yoon, D. H. (2017). In-datacenter performance analysis of a tensor processing unit. Proceedings of the 44th Annual International Symposium on Computer Architecture (ISCA), 1–12.

[27] Shazeer, N., Cheng, Y., Parmar, N., Tran, D., Vaswani, A., Koanantakool, P., Hawkins, P., Lee, H., Hong, M., Young, C., Sepassi, R., & Hechtman, B. (2018). Mesh-TensorFlow: Deep learning for supercomputers. Advances in Neural Information Processing Systems, 31, 10414–10423.

[28] Wang, A., Pruksachatkun, Y., Nangia, N., Singh, A., Michael, J., Hill, F., Levy, O., & Bowman, S. R. (2019). SuperGLUE: A stickier benchmark for general-purpose language understanding systems. Advances in Neural Information Processing Systems, 32, 3261–3275.

[29] Chung, H. W., Hou, L., Longpre, S., Zoph, B., Tay, Y., Fedus, W., … & Wei, J. (2022). Scaling instruction-finetuned language models. arXiv preprint arXiv:2210.11416.

[30] Tay, Y., Dehghani, M., Tran, V. Q., Garcia, X., Wei, J., Wang, X., Chung, H. W., Bahri, D., Schuster, T., Zheng, H. S., & others. (2023). UL2: Unifying language learning paradigms. Proceedings of the International Conference on Learning Representations (ICLR).

[31] Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C., Mishkin, P., … & Lowe, R. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35, 27730–27744.

[32] Strubell, E., Ganesh, A., & McCallum, A. (2019). Energy and policy considerations for deep learning in NLP. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics (ACL), 3645–3650.

[33] Xue, L., Constant, N., Roberts, A., Kale, M., Al-Rfou, R., Siddhant, A., Barua, A., & Raffel, C. (2021). mT5: A massively multilingual pre-trained text-to-text transformer. Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics (NAACL-HLT), 483–498.

[34] Kaplan, J., McCandlish, S., Henighan, T., Brown, T. B., Chess, B., Child, R., Gray, S., Radford, A., Wu, J., & Amodei, D. (2020). Scaling laws for neural language models. arXiv preprint arXiv:2001.08361.

[35] Hoffmann, J., Borgeaud, S., Mensch, A., Buchatskaya, E., Cai, T., Rutherford, E., … & Sifre, L. (2022). Training compute-optimal large language models. Advances in Neural Information Processing Systems, 35, 30016–30030.

[36] Ahmed, N., Wahed, M., & Thompson, N. C. (2023). The growing influence of industry in AI research. Science, 379(6635), 884–886.

[37] Nayak, P. (2019, October 25). Understanding searches better than ever before. Google Blog. https://blog.google/products/search/search-language-understanding-bert/

10. Tartışma Soruları

1. Analitik: T5'in metin-den-metine çerçevesi, NLP görevleri arasındaki yapısal farklılıkları gerçekten ortadan kaldırmakta mıdır, yoksa bu farklılıkları yalnızca yüzeysel biçimde gizlemekte midir? Bu sorunun yanıtı, birleşik model tasarımının sınırları hakkında ne söylemektedir?

2. Karşılaştırmalı: T5'in kodlayıcı-çözücü mimarisi ile GPT serisinin yalnızca çözücü mimarisi arasındaki temel ödünleşimler nelerdir? Hangi görev türlerinde hangi mimari belirleyici bir avantaj sağlamaktadır ve bu farklılıkların nedenleri nelerdir?

3. Spekülatif: Eğer T5 çalışması, sistematik ablasyon deneyleri olmaksızın yalnızca en iyi model sonuçlarını yayımlasaydı, NLP topluluğu üzerindeki etkisi nasıl farklılaşırdı? Bu varsayımsal senaryo, bilimsel yayıncılıkta "süreç" ile "sonuç" arasındaki gerilim hakkında ne söylemektedir?

4. Etik: C4 veri setinin oluşturulmasında uygulanan filtreleme kararları — küfür filtreleme, dil tespiti, uzunluk eşikleri — modelin hangi sesleri duyacağını ve hangilerini susturacağını belirlemektedir. Bu filtreleme kararlarının etik boyutları nelerdir ve kim tarafından, hangi ilkelere göre alınmalıdır?

5. Güncel: T5'in metin-den-metine çerçevesinin günümüzdeki en önemli uzantısı hangisidir? FLAN-T5'in yönerge ince ayarı, mT5'in çok dillilik vizyonu ve UL2'nin birleşik ön-eğitimi arasında hangisi T5'in orijinal katkısını en anlamlı biçimde genişletmiştir?

6. Karşılaştırmalı: T5'in "tüm görevler metin-den-metine dönüşümdür" tezi ile GPT-3'ün "tüm görevler bağlam içi öğrenmeyle çözülür" tezi arasındaki felsefi fark nedir? Bu iki yaklaşımın yapay zekanın geleceği hakkındaki örtük varsayımları nelerdir?

7. Etik: Büyük dil modellerinin eğitim verisi olarak kullanılan web kazıma derlemleri, içerik üreticilerinin rızası olmaksızın oluşturulmaktadır. C4 ve benzeri veri setlerinin kullanımı, telif hakkı, kişisel veri gizliliği ve entelektüel mülkiyet hakları açısından hangi etik soruları gündeme getirmektedir?

8. Analitik: T5'in sistematik ablasyon çalışmalarında, model ölçeğinin performansa etkisi düzgün bir artış mı yoksa belirli eşiklerde sıçramalar mı göstermektedir? Bu bulgu, "ortaya çıkan yetenekler" (emergent abilities) tartışmasıyla nasıl ilişkilendirilebilir?

9. Spekülatif: T5'in kodlayıcı-çözücü mimarisi yerine yalnızca çözücü mimarisi NLP'nin baskın paradigması haline geldiyse — ki GPT serisinin hakimiyetiyle bu büyük ölçüde gerçekleşmiştir — bu durum T5'in mimari tercihinin "yanlış" olduğunu mu göstermektedir, yoksa endüstriyel tercihlerin akademik kanıtlardan bağımsız biçimde şekillenebileceğini mi?

10. Güncel: T5 ve türevleri, Türkçe dahil düşük kaynaklı dillerde hâlâ İngilizce performansının gerisinde kalmaktadır. Bu eşitsizliği gidermek için hangi teknik ve kurumsal stratejiler izlenmelidir? Türkiye'nin bu alandaki araştırma ekosistemi nasıl güçlendirilebilir?

Önceki Bölüm

Bölüm 40: GPT-3 ve Az-Örnekli Öğrenme

Sonraki Bölüm

Bölüm 42: Meta'nın Llama Modelleri