Llama 3.1 ve Llama 4
Llama serisinin evriminin devamı: Llama 3.1 ve Llama 4 modelleri.
1. Giriş
23 Temmuz 2024'te Meta, yapay zekâ tarihinde bir eşik noktası sayılabilecek bir hamle yaptı: 405 milyar parametrelik Llama 3.1 modelini, o güne dek açık olarak erişime sunulmuş en büyük dil modeli olarak yayımladı [1]. Bu model, GPT-4, Claude 3.5 Sonnet ve Gemini 1.5 Pro gibi kapalı kaynak modellerle doğrudan rekabet edebilecek düzeyde performans sergiliyordu [2]. Yalnızca dokuz ay sonra, Nisan 2025'te Meta, Llama 4 ailesiyle bambaşka bir mimari paradigmaya geçiş yaptı: Mixture-of-Experts (MoE) mimarisi, yerel çoklu modalite (native multimodality) ve 10 milyon jetona ulaşan bağlam penceresi (context window) ile açık ağırlıklı (open-weight) modellerin ne kadar iddialı olabileceğini yeniden tanımladı [3].
Bu iki sürüm, yalnızca teknik birer kilometre taşı değildir; aynı zamanda yapay zekâ endüstrisinin en temel gerilim hatlarını — açıklık ile ticari rekabet, verimlilik ile ölçek, kıyaslama güvenilirliği ile pazarlama baskısı arasındaki gerilimleri — kristalleştiren olaylardır. Bölüm 42'de ele aldığımız Llama 1, 2 ve 3 modellerinin temelleri üzerine inşa edilen bu bölüm, Llama serisinin "sınır modeli" (frontier model) statüsüne yükselişini, MoE mimarisine geçişin teknik ve stratejik mantığını ve Llama 4'ün lansman tartışmalarının yapay zekâ değerlendirme kültürü açısından ne anlama geldiğini analiz etmektedir.
Bu bölümde ele alınacak temel argüman şudur: Llama 3.1 ve Llama 4, açık ağırlıklı modellerin kapalı kaynak modellerle rekabet edebileceğini kanıtlamış; ancak bu süreçte ortaya çıkan kıyaslama manipülasyonu iddiaları, yapay zekâ ekosisteminde güvenilirlik ve şeffaflık krizinin derinleştiğini göstermiştir. Açık erişim, kendi başına yeterli bir erdem değildir; şeffaf değerlendirme, dürüst raporlama ve topluluk güveni ile desteklenmediği sürece, yapay zekâ demokratikleşmesi vaadi havada kalma riski taşımaktadır.
2. Literatür Taraması
Llama 3.1 ve Llama 4 üzerine akademik ve endüstriyel literatür, birkaç ana eksen etrafında şekillenmektedir. Birinci eksen, büyük dil modellerinin ölçeklenmesine ilişkin kuramsal çerçevedir. Kaplan ve arkadaşlarının (2020) ölçekleme yasaları (scaling laws) çalışması, model boyutu, veri miktarı ve hesaplama bütçesi arasındaki ilişkiyi formalize ederek Llama serisinin büyüme stratejisinin kuramsal temellerini oluşturmuştur [4]. Hoffmann ve arkadaşlarının (2022) Chinchilla çalışması ise "hesaplama-optimal eğitim" kavramını ortaya koyarak, yalnızca parametre sayısını artırmanın değil, eğitim verisi miktarını orantılı biçimde artırmanın da kritik olduğunu göstermiştir [5]. Llama 3.1'in 15 trilyon jeton üzerinde eğitilmesi, doğrudan bu bulgulara dayanmaktadır [1].
İkinci eksen, Mixture-of-Experts mimarisinin tarihsel gelişimidir. MoE kavramı, Jacobs ve arkadaşlarının (1991) öncü çalışmasına dayanmakla birlikte [6], derin öğrenme bağlamında pratik uygulanabilirliğini Shazeer ve arkadaşlarının (2017) çığır açan çalışmasıyla kazanmıştır [7]. Bu çalışma, seyrek geçitleme (sparse gating) mekanizmasıyla 137 milyar parametrelik bir modelde yalnızca belirli uzmanları aktive ederek hesaplama verimliliğinde büyük kazanımlar elde edilebileceğini göstermiştir [7]. Fedus ve arkadaşlarının (2022) Switch Transformer çalışması, MoE yaklaşımını Transformer mimarisine uyarlayarak trilyon parametrelik modellerin eğitilebileceğini kanıtlamıştır [8]. Llama 4'ün MoE'ye geçişi, bu araştırma geleneğinin doğrudan bir mirasıdır.
Üçüncü eksen, açık kaynak ve açık ağırlıklı model ekosisteminin dinamikleridir. Touvron ve arkadaşlarının (2023a, 2023b) orijinal Llama ve Llama 2 çalışmaları, Meta'nın açık erişim stratejisinin akademik temellerini atmıştır [9][10]. Grattafiori, Dubey ve arkadaşlarının (2024) kapsamlı Llama 3 teknik raporu, 405 milyar parametrelik modelin mimari detaylarını, eğitim altyapısını ve performans değerlendirmelerini belgelemiştir [1]. Bu rapor, 500'den fazla yazarın katkısıyla hazırlanmış olması açısından yapay zekâ araştırmalarının endüstriyel ölçeğini gösteren dikkat çekici bir belgedir.
Dördüncü eksen, büyük dil modellerinin etik ve toplumsal etkilerine ilişkin eleştirel literatürdür. Bender ve arkadaşlarının (2021) "Stochastic Parrots" makalesi, büyük dil modellerinin çevresel maliyetleri, veri yanlılıkları ve anlamsal boşlukları konusundaki kaygıları sistematik biçimde ortaya koymuştur [11]. Bommasani ve arkadaşlarının (2021) "Foundation Models" raporu, temel modellerin homojenleştirme riski ve merkezi kontrol sorunlarını ele almıştır [12]. Solaiman ve arkadaşlarının (2023) çalışması ise açık erişimli modellerin risk-fayda dengesini analiz etmiştir [13].
Beşinci ve en güncel eksen, kıyaslama güvenilirliği tartışmasıdır. Llama 4'ün Nisan 2025'teki lansmanı, kıyaslama manipülasyonu iddialarıyla gölgelenmiş ve bu durum, yapay zekâ değerlendirme kültürüne ilişkin köklü soruları gündeme getirmiştir [14]. LeCun'un (2026) Financial Times'a verdiği röportajda sonuçların "biraz değiştirildiğini" kabul etmesi, endüstrideki şeffaflık krizinin somut bir kanıtı olmuştur [14]. Lambert (2025) bu durumu, açık ağırlıklı modellerin topluluk güvenini nasıl kaybedebileceğinin bir vakası olarak analiz etmiştir [15].
Türkçe literatürde, büyük dil modellerinin Türkçe doğal dil işleme performansına ilişkin çalışmalar artmakla birlikte, Llama modelleri özelinde kapsamlı akademik değerlendirmeler henüz sınırlıdır. Safaya ve arkadaşlarının (2022) Türkçe dil modelleri üzerine yaptıkları çalışma, çok dilli modellerin düşük kaynaklı dillerdeki sınırlılıklarını ele almıştır [16].
3. Tarihsel ve Teorik Arka Plan
Llama 3.1 ve Llama 4'ün ortaya çıkışını anlamak için, üç tarihsel ve kuramsal gelişme hattını birlikte takip etmek gerekmektedir: yoğun (dense) Transformer modellerinin ölçekleme sınırları, MoE mimarisinin evrimi ve açık ağırlıklı model hareketinin olgunlaşması.
Yoğun modellerin ölçekleme sınırları. 2020'den itibaren yapay zekâ endüstrisi, daha büyük modellerin daha iyi performans gösterdiği basit ama güçlü bir ampirik yasayı takip etmiştir [4]. GPT-3'ün 175 milyar parametresi (Brown vd., 2020) [17], PaLM'ın 540 milyar parametresi (Chowdhery vd., 2023) [18] ve Llama 3.1'in 405 milyar parametresi [1] bu ölçekleme eğiliminin somut adımlarıdır. Ancak yoğun modellerin ölçeklenmesi, her parametrenin her çıkarım (inference) adımında aktive edilmesini gerektirdiğinden, hesaplama maliyetleri doğrusal olarak artmaktadır. Llama 3.1 405B'nin eğitimi 16.000 H100 GPU kullanmıştır [1] — bu, yoğun modellerin ölçeklenmesinin pratik sınırlarına yaklaştığının bir göstergesidir.
MoE mimarisinin evrimi. MoE kavramı, 1991'de Jacobs ve arkadaşları tarafından önerilmiş olsa da [6], derin öğrenme bağlamında pratik başarıya ulaşması 2017'de Shazeer ve arkadaşlarının seyrek geçitlemeli MoE katmanını (Sparsely-Gated MoE Layer) tanıtmasıyla mümkün olmuştur [7]. Bu çalışma, binlerce alt ağdan (uzman) oluşan bir katmanda yalnızca en yüksek puanlı birkaç uzmanı aktive ederek, hesaplama maliyetini düşük tutarken model kapasitesini dramatik biçimde artırabileceğini göstermiştir [7]. GShard (Lepikhin vd., 2020) [19] ve Switch Transformer (Fedus vd., 2022) [8] bu fikri Transformer mimarisine taşımıştır. Mixtral (Jiang vd., 2024) [20], MoE tabanlı açık modellerin rekabetçi olabileceğini kanıtlarken, DeepSeek-V2 ve V3 (DeepSeek-AI, 2024, 2025) [21] bu mimariyi daha da ileri taşıyarak Meta üzerinde ciddi rekabet baskısı yaratmıştır. Llama 4'ün MoE'ye geçişi, bu rekabet baskısının doğrudan bir sonucudur [22].
Açık ağırlıklı model hareketinin olgunlaşması. Meta'nın Llama serisi, "açık ağırlıklı" (open-weight) kavramını popülerleştirmiş, ancak bu kavramın gerçek anlamda "açık kaynak" (open source) olup olmadığı tartışmalı kalmıştır. Llama modelleri, ağırlıkları indirilip kullanılabilir olsa da, eğitim verileri ve kodları tamamen açık değildir. Open Source Initiative (OSI), Llama'nın lisans koşullarının açık kaynak tanımını karşılamadığını belirtmiştir [23]. Bu terminolojik ayrım, yapay zekâ demokratikleşmesi tartışmalarının merkezinde yer almaktadır.
Kurumsal ve finansal altyapı. Llama modellerinin gelişimi, Meta'nın muazzam altyapı yatırımları sayesinde mümkün olmuştur. Zuckerberg'in 2024 başında açıkladığı üzere, Meta yıl sonuna kadar 350.000 H100 GPU'ya ulaşmayı hedeflemiştir [24]. Bu ölçekte bir hesaplama kaynağı, dünya genelinde yalnızca birkaç şirketin erişebildiği bir düzeydir ve yapay zekâ araştırmalarının endüstriyel yoğunlaşmasının somut bir göstergesidir.
4. Ana Konu Analizi
4a. Llama 3.1 405B: Açık Ağırlıklı Modellerin Sınır Çizgisi
Teknik mimari ve yenilikler. Llama 3.1, standart yoğun (dense) bir decoder-only Transformer mimarisi kullanmaktadır ve önceki Llama modellerinden köklü bir mimari sapma göstermez; performans kazanımları büyük ölçüde veri kalitesi, veri çeşitliliği ve eğitim ölçeğindeki iyileştirmelerden kaynaklanmaktadır [1]. 405 milyar parametrelik model, 128.000 jetonluk bir bağlam penceresine sahiptir — bu, Llama 3'ün 8.000 jetonluk bağlam penceresinin 16 katıdır [1][25]. Grouped-Query Attention (GQA) mekanizması, çıkarım ölçeklenebilirliğini artırmak için tüm model boyutlarında kullanılmıştır [1]. Model, 15 trilyonun üzerinde jeton üzerinde, 16.000'den fazla H100 GPU ile eğitilmiştir [1][25].
Eğitim sürecinde 4D paralellik (4D parallelism) kullanılmıştır: veri paralelliği, tensör paralelliği, ardışık düzen paralelliği (pipeline parallelism) ve uzman paralelliği (expert parallelism) birlikte çalışarak hesaplama yükünü binlerce GPU'ya verimli biçimde dağıtmıştır [1]. FP8 niceleme (quantization) tekniği, modelin tek bir sunucu düğümünde (node) çalışabilmesini mümkün kılmıştır — bu, dağıtım maliyetlerini önemli ölçüde düşüren pratik bir yeniliktir [25].
Performans ve rekabet konumu. Meta'nın yayımladığı kıyaslama sonuçlarına göre, Llama 3.1 405B, kapalı kaynak modellerle doğrudan rekabet edebilecek düzeydedir [2]. Lisans düzeyinde bilgi (MMLU, 5-shot) testinde %87,3 ile GPT-4 Turbo'yu (%86,5), Claude 3 Opus'u (%86,8) ve Gemini 1.5 Pro'yu (%85,9) geçmiştir [2]. Matematik problem çözme (MATH, 0-shot CoT) testinde %73,8 ile yalnızca GPT-4o'nun (%76,6) gerisinde kalmıştır [2]. Bu sonuçlar, açık ağırlıklı bir modelin ilk kez kapalı kaynak sınır modelleriyle (frontier models) ciddi biçimde yarışabildiğini göstermiştir.
Sentetik veri üretimi ve model damıtma. Llama 3.1 405B'nin stratejik önemi, yalnızca doğrudan kullanımıyla sınırlı değildir. Meta, bu modelin çıktılarının daha küçük modelleri geliştirmek için kullanılabileceği bir lisans yapısı oluşturmuştur [25]. Bu, büyük modelden küçük modele bilgi transferi (model distillation) ve yüksek kaliteli sentetik veri üretimi için yeni bir ekosistem yaratmıştır. Meta'nın bu kararı, açık ağırlıklı modellerin yalnızca son kullanıcı ürünleri olarak değil, yapay zekâ geliştirme altyapısının birer parçası olarak konumlandırılmasını sağlamıştır.
Çok dilli yetenekler. Llama 3.1, İngilizce, Almanca, Fransızca, İtalyanca, Portekizce, Hintçe, İspanyolca ve Tayca olmak üzere sekiz dili desteklemektedir [1]. Bu, önceki Llama modellerine kıyasla önemli bir genişleme olmakla birlikte, dünya dillerinin çoğunluğunun — Türkçe dahil — bu listede yer almaması, çok dilli yapay zekâ erişiminin hâlâ eşitsiz olduğunu göstermektedir.
4b. Llama 4: Mixture-of-Experts ve Çoklu Modaliteye Geçiş
MoE mimarisi ve model ailesi. Llama 4, Llama serisinde MoE mimarisinin ilk kez kullanıldığı nesli temsil etmektedir [3]. Üç model varyantından oluşan aile şu şekilde yapılandırılmıştır:
Llama 4 Scout, 109 milyar toplam parametreye sahip olup 16 uzman (expert) kullanmakta ve her jeton için yalnızca 17 milyar parametre aktive etmektedir [3]. Int4 niceleme ile tek bir H100 GPU üzerinde çalışabilmektedir ve 10 milyon jetonluk bağlam penceresiyle herhangi bir açık veya kapalı modelin en uzun bağlam desteğini sunmaktadır [3].
Llama 4 Maverick, 400 milyar toplam parametreye sahip olup 128 uzman kullanmakta ve yine her jeton için yalnızca 17 milyar parametre aktive etmektedir [3]. 1 milyon jetonluk bağlam penceresi sunmakta ve tek bir H100 DGX sunucu üzerinde çalışabilmektedir [3].
Llama 4 Behemoth ise yaklaşık 2 trilyon toplam parametreye sahip, 16 uzman kullanan ve 288 milyar aktif parametresi olan bir "öğretmen modeli" (teacher model) olarak tasarlanmıştır [3]. Eğitimi devam etmekte olup kamuya açık olarak yayımlanmamıştır.
Yerel çoklu modalite ve erken kaynaştırma. Llama 4, Llama serisinin ilk yerel çoklu modlu (natively multimodal) modeli olarak metin ve görüntü girdilerini birlikte işleyebilmektedir [3]. Önceki versiyonlar, metin ve görüntü verilerini ayrı bileşenlerle işleyip çıkarım sırasında birleştirirken, Llama 4 "erken kaynaştırma" (early fusion) yaklaşımını benimsemiştir [3]. Bu yaklaşım, modelin büyük miktarda etiketlenmemiş metin, görüntü ve video verisi üzerinde birlikte ön-eğitim görmesini mümkün kılmaktadır [3]. Meta'nın bu kararı, OpenAI'ın GPT-4V ve Google'ın Gemini modellerinde benimsenen çoklu modalite yaklaşımlarıyla doğrudan rekabet etme amacı taşımaktadır.
iRoPE mimarisi ve uzun bağlam. Llama 4, Scout modelinde 10 milyon jetonluk bağlam penceresi elde etmek için "iRoPE" adı verilen yeni bir mimari yaklaşım kullanmaktadır [26]. Bu yaklaşımda, her dört katmandan birinde konumsal kodlama (positional encoding) kullanılmayan NoPE katmanları yer almakta, geri kalan katmanlarda ise RoPE ile parçalı dikkat (chunked attention) kullanılmaktadır [26]. Bu tasarım, çıkarım zamanı sıcaklık ölçeklendirmesi (inference-time temperature scaling) ile birlikte, modelin son derece uzun girdilere genelleştirilmesini sağlamaktadır [26].
MetaP ve eğitim verimliliği. Meta, Llama 4 için MetaP adını verdiği yeni bir hiper-parametre ayarlama tekniği geliştirmiştir [3]. Bu teknik, katman başına öğrenme oranları ve başlatma ölçeklerinin farklı model boyutları ve eğitim bütçeleri arasında güvenilir biçimde transfer edilmesini sağlamaktadır [3]. Tüm modeller FP8 hassasiyetinde eğitilmiş olup, Behemoth modelinin eğitiminde 32.000 GPU kullanılarak GPU başına 390 TFLOP'luk verimlilik elde edilmiştir [3]. Toplam eğitim verisi, Llama 3'ün iki katından fazla olan 30 trilyon jetonun üzerindedir ve metin, görüntü ve video verilerini kapsamaktadır [3].
Ortak damıtma (co-distillation). Llama 4'ün en dikkat çekici yeniliklerinden biri, Behemoth modelinin Scout ve Maverick modellerini geliştirmek için bir "öğretmen model" olarak kullanılmasıdır [3]. Meta, öğrenci ve öğretmen logitlerini dinamik olarak ağırlıklandıran yeni bir kayıp fonksiyonu geliştirmiştir [26]. Bu ortak damıtma süreci, daha küçük modellerin, kendi eğitim kapasitelerinin ötesinde bir performans sergilemesini mümkün kılmıştır.
4c. Kilit Aktörler ve Kurumsal Dinamikler
Llama serisinin gelişimi, Meta'nın yapay zekâ stratejisinin merkezindedir. Mark Zuckerberg, Llama modellerini Meta'nın açık yapay zekâ vizyonunun somut bir göstergesi olarak konumlandırmıştır [24]. Ahmad Al-Dahle, Meta'nın GenAI bölümünün başkan yardımcısı olarak Llama 4'ün lansmanını yönetmiştir [22]. Yann LeCun, Meta'nın baş yapay zekâ bilimcisi olarak modellerin araştırma yöneliminde belirleyici bir rol oynamıştır [14]. Joelle Pineau, Meta'nın yapay zekâ araştırma başkan yardımcısı, Llama 4 lansmanından kısa süre önce istifa etmiştir — bu istifanın zamanlamas ı, sonradan ortaya çıkan kıyaslama tartışmalarıyla birlikte değerlendirildiğinde anlamlı hale gelmiştir [14][22].
Rekabet ortamı açısından bakıldığında, DeepSeek'in V3 modelinin maliyet-performans oranındaki üstünlüğü, Meta'da ciddi bir endişe yaratmıştır [22]. TechCrunch'ın haberine göre, DeepSeek'in başarısı Meta'da "savaş odaları" (war rooms) kurulmasına ve Llama geliştirme sürecinin hızlandırılmasına yol açmıştır [22].
4d. Kıyaslama Tartışması ve Güvenilirlik Krizi
Llama 4'ün Nisan 2025 lansmanı, yapay zekâ tarihinin en tartışmalı model çıkışlarından biri olmuştur. Meta, Maverick modelinin LM Arena sıralamasında ikinci sıraya yerleştiğini duyurmuş; ancak topluluk, sıralamaya sunulan modelin kamuya açık sürümden farklı, "deneysel" (experimental) bir varyant olduğunu tespit etmiştir [14][22]. Bu deneysel varyant, kamuya açık modelden farklı biçimde optimize edilmiş, daha fazla emoji kullanan ve daha uzun yanıtlar üreten bir sürümdü [22].
Nathan Lambert, eski Meta araştırmacısı, Interconnects blogunda bu durumu "sahte" (fake) sonuçlar olarak nitelendirmiş ve Meta'nın topluluğuna karşı ciddi bir ihlal olduğunu belirtmiştir [15]. Bağımsız kıyaslama sonuçları, kamuya açık Llama 4 modellerinin iddiaların çok gerisinde performans gösterdiğini ortaya koymuştur [22]. Özellikle uzun bağlam işleme, kodlama ve muhakeme görevlerinde sonuçlar hayal kırıklığı yaratmıştır.
Ocak 2026'da Yann LeCun, Financial Times'a verdiği röportajda sonuçların "biraz değiştirildiğini" ve "farklı kıyaslamalar için farklı modellerin kullanıldığını" kabul etmiştir [14]. LeCun'a göre Mark Zuckerberg bu duruma çok kızmış ve "ilgili herkese olan güvenini kaybetmiştir" [14]. Meta'nın GenAI organizasyonu daha sonra yeniden yapılandırılmıştır [14].
Bu olay, yapay zekâ endüstrisinde kıyaslama güvenilirliğine ilişkin köklü soruları gündeme getirmiştir. LM Arena gibi platformların kötüye kullanılabilirliği, kamuya açık olmayan model varyantlarının sıralamaya sunulması pratiği ve kıyaslama sonuçlarının pazarlama aracı olarak kullanılması — tüm bu sorunlar, Llama 4 olayıyla somutlaşmıştır.
5. Eleştirel Değerlendirme
Açık ağırlıklı modelin sınırları. Llama 3.1 ve Llama 4, açık ağırlıklı modellerin kapalı kaynak modellerle rekabet edebileceğini göstermekle birlikte, bu başarının sınırları da belirgindir. Model ağırlıkları açık olsa da, eğitim verileri, veri işleme iş akışları ve eğitim altyapısının detayları tam olarak paylaşılmamaktadır [1]. Bu durum, araştırmacıların sonuçları tam olarak yeniden üretmesini (reproducibility) imkânsız kılmaktadır. OSI'nin Llama lisansını açık kaynak olarak kabul etmemesi [23], "açık" kavramının yapay zekâ bağlamında ne anlama geldiğine ilişkin tartışmayı derinleştirmektedir.
MoE mimarisinin avantajları ve zorlukları. Llama 4'ün MoE mimarisine geçişi, hesaplama verimliliği açısından önemli avantajlar sunmaktadır: Maverick'in 400 milyar toplam parametresine rağmen yalnızca 17 milyar aktif parametre kullanması, çıkarım maliyetlerini dramatik biçimde düşürmektedir [3]. Ancak MoE mimarileri, yoğun modellere kıyasla eğitim kararlılığı, uzman yük dengeleme (expert load balancing) ve bellek bant genişliği gereksinimleri açısından ek zorluklar barındırmaktadır [7][8]. Shazeer ve arkadaşlarının (2017) belirlediği "uzman çöküşü" (expert collapse) sorunu — bazı uzmanların aşırı kullanılması ve diğerlerinin atıl kalması — MoE eğitiminin temel zorluklarından biri olmaya devam etmektedir [7].
Kıyaslama kültürünün çöküşü. Llama 4 olayı, Wang ve arkadaşlarının (2019) GLUE ve SuperGLUE ile başlattığı standartlaşmış kıyaslama geleneğinin [27] nasıl çarpıtılabileceğinin dramatik bir örneğidir. Kıyaslama sıralamaları, araştırma yönelimini şekillendiren, yatırım kararlarını etkileyen ve kamuoyunun yapay zekâ algısını belirleyen güçlü araçlardır. Bu araçların güvenilirliğinin sorgulanması, yapay zekâ ekosisteminin tamamını etkileyen bir güven krizine yol açmaktadır.
Bugünden bakıldığında. Llama 3.1'in performans iddiaları büyük ölçüde doğrulanmış ve model, açık ağırlıklı ekosistemde yaygın biçimde kullanılmaya devam etmektedir. Llama 4 ise lansman tartışmalarına rağmen, MoE mimarisi ve çoklu modalite yetenekleri açısından teknik olarak önemli bir adımı temsil etmektedir. Ancak Llama 4'ün gerçek dünya performansının, Meta'nın ilk iddialarının gerisinde kaldığı yaygın biçimde kabul görmektedir [22].
6. Etik ve Toplumsal Boyutlar
Yapay zekâ demokratikleşmesi vaadi ve gerçekliği. Meta'nın Llama modellerini açık ağırlıklı olarak yayımlaması, yapay zekâ demokratikleşmesi söyleminin merkezindedir. Ancak bu demokratikleşmenin sınırları belirgindir: 405 milyar parametrelik bir modeli çalıştırmak, hatırı sayılır donanım kaynakları gerektirmektedir [1]. Llama 4 Maverick'in çalıştırılması için tek bir H100 DGX sunucu gerekmekte olup [3], bu donanımın maliyeti küçük araştırma grupları ve gelişmekte olan ülkelerdeki kurumlar için erişilebilir değildir. "Açık" modeller, erişim eşiğini düşürmüş olsa da, yapay zekâ geliştirme kapasitesi hâlâ büyük ölçüde kaynak zenginliğiyle orantılıdır.
Veri etiği ve telif hakları. Llama modellerinin eğitim verilerinin kaynakları tartışmalıdır. Meta'nın daha önce LibGen gibi kaynaklardan veri kullandığı iddiaları [22], büyük dil modellerinin eğitiminde kullanılan verilerin yasal ve etik statüsüne ilişkin daha geniş tartışmaların parçasıdır. Bender ve arkadaşlarının (2021) uyardığı gibi, büyük ölçekli internet verisi üzerinde eğitilen modeller, mevcut toplumsal önyargıları ve eşitsizlikleri yeniden üretme riski taşımaktadır [11].
Güvenlik ve kötüye kullanım riski. Llama 3.1'in teknik raporunda, modelin siber saldırı kapasitesini artırma potansiyelinin değerlendirildiği belirtilmiştir [1]. Açık ağırlıklı modellerin kötüye kullanım riski — dezenformasyon üretimi, siber saldırı araçları geliştirme, zararlı içerik üretme — kapalı kaynak modellere kıyasla daha yüksektir, çünkü güvenlik önlemlerinin kaldırılması veya atlatılması daha kolaydır. Meta, Llama Guard 3 güvenlik modeli ve Purple Llama araç seti ile bu riskleri azaltmaya çalışmaktadır [1].
Kıyaslama manipülasyonunun etik boyutu. Llama 4'ün kıyaslama tartışması, yalnızca teknik bir sorun değil, aynı zamanda etik bir sorundur. Şirketlerin kıyaslama sonuçlarını stratejik biçimde sunması — seçici kıyaslama raporlama, kamuya açık olmayan model varyantlarının kullanılması — yapay zekâ topluluğunun bilgilendirilmiş kararlar almasını engellemektedir. Bu durum, özellikle güvenlik-kritik uygulamalarda model seçimi yapan geliştiriciler için ciddi sonuçlar doğurabilir.
Dil eşitsizliği. Llama 3.1'in sekiz dili desteklemesi [1] ve Llama 4'ün 200 dilde ön-eğitim görmesi [3] olumlu adımlar olmakla birlikte, ince ayar ve değerlendirmenin yalnızca 12 dille sınırlı tutulması, dünya dillerinin büyük çoğunluğunun yeterli düzeyde desteklenmediği anlamına gelmektedir. Bu durum, yapay zekâ teknolojilerinin faydalarının küresel ölçekte eşitsiz dağılımına katkıda bulunmaktadır.
7. Güncel Uygulamalar ve Miras
Açık ağırlıklı ekosistem üzerindeki etki. Llama 3.1 405B, yayımlanmasının ardından açık ağırlıklı model ekosisteminin temel taşlarından biri haline gelmiştir. Amazon Bedrock, Microsoft Azure, NVIDIA NIM, Databricks ve Snowflake dahil onlarca bulut sağlayıcısı modeli desteklemiştir [2][25]. Modelin sentetik veri üretimi ve damıtma için kullanılabilmesine olanak tanıyan lisans yapısı, üzerine inşa edilen çok sayıda türev modelin ortaya çıkmasını sağlamıştır.
MoE paradigmasının yaygınlaşması. Llama 4'ün MoE mimarisine geçişi, bu yaklaşımın açık ağırlıklı model dünyasında standartlaşmasına katkıda bulunmuştur. Mistral'ın Mixtral modelleri [20], DeepSeek'in V2 ve V3 modelleri [21] ve Google'ın Switch Transformer [8] ile başlayan MoE dalgası, Llama 4 ile birlikte açık model ekosisteminin baskın mimari paradigması haline gelmiştir. Seyrek aktivasyon (sparse activation) tekniğinin sunduğu verimlilik kazanımları, büyük modellerin daha erişilebilir donanımlarda çalıştırılmasını mümkün kılmaktadır.
Kıyaslama reform tartışmaları. Llama 4 olayı, yapay zekâ değerlendirme kültüründe reform çağrılarını hızlandırmıştır. LM Arena'nın değerlendirme protokollerinin güçlendirilmesi, kamuya açık olmayan model varyantlarının sıralamaya kabul edilmemesi ve bağımsız doğrulama mekanizmalarının oluşturulması yönündeki talepler artmıştır [14][15]. Bu tartışmalar, yapay zekâ araştırmalarında şeffaflık ve hesap verebilirlik normlarının yeniden tanımlanmasına katkıda bulunmaktadır.
Akademik miras. Llama 3.1'in kapsamlı teknik raporu (Grattafiori, Dubey vd., 2024), 500'den fazla yazarın katkısıyla hazırlanmış olup [1], büyük ölçekli model eğitiminin mühendislik detaylarını belgeleme açısından benzersiz bir kaynak niteliğindedir. Eğitim altyapısı, veri işleme, güvenlik değerlendirmesi ve dağıtım stratejileri konusundaki ayrıntılı bilgiler, araştırma topluluğuna değerli bir referans çerçevesi sunmaktadır.
8. Bölüm Özeti
Bu bölümde, Meta'nın Llama 3.1 ve Llama 4 modellerinin yapay zekâ tarihindeki yerini çok boyutlu bir perspektiften analiz ettik. Llama 3.1 405B, açık ağırlıklı modellerin ilk kez kapalı kaynak sınır modelleriyle doğrudan rekabet edebileceğini kanıtlamış, 128.000 jetonluk bağlam penceresi ve 15 trilyonun üzerinde jeton üzerinde eğitim ile teknik açıdan önemli bir eşiği aşmıştır [1][2]. Llama 4 ise MoE mimarisine geçiş, yerel çoklu modalite ve 10 milyon jetonluk bağlam penceresiyle yapısal bir paradigma dönüşümünü temsil etmiştir [3].
Ancak bu teknik başarılar, önemli sorunlarla gölgelenmiştir. Llama 4'ün kıyaslama manipülasyonu tartışması, yapay zekâ endüstrisinde şeffaflık ve güvenilirlik krizinin derinleştiğini gözler önüne sermiştir [14]. LeCun'un sonuçların "değiştirildiğini" kabul etmesi, bu krizin boyutunu dramatik biçimde ortaya koymuştur [14]. Bu olaylar, açık ağırlıklı modellerin demokratikleştirici potansiyelinin, yalnızca ağırlıkların paylaşılmasıyla değil, şeffaf değerlendirme, dürüst raporlama ve topluluk güveninin korunmasıyla gerçekleşebileceğini göstermektedir.
Kitabımızın genel argümanı açısından bakıldığında, Llama 3.1 ve Llama 4, yapay zekânın tarihinde tekrarlayan bir temayı yansıtmaktadır: teknolojik ilerleme, daima toplumsal, etik ve kurumsal bağlamlarından ayrı değerlendirilemez. Teknik kapasite tek başına yeterli değildir; bu kapasitenin nasıl sunulduğu, nasıl değerlendirildiği ve nasıl dağıtıldığı, en az teknik başarının kendisi kadar önemlidir.
9. Kaynakça
1. Grattafiori, A., Dubey, A., Jauhri, A., Pandey, A., Kadian, A., Al-Dahle, A., ... & diğerleri. (2024). The Llama 3 herd of models. arXiv preprint arXiv:2407.21783.
2. IBM. (2024, 23 Temmuz). Meta releases new Llama 3.1 models, including highly anticipated 405B parameter variant. IBM Think. https://www.ibm.com/think/news/meta-releases-llama-3-1-models-405b-parameter-variant
3. Meta AI. (2025, 5 Nisan). The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation. Meta AI Blog. https://ai.meta.com/blog/llama-4-multimodal-intelligence/
4. Kaplan, J., McCandlish, S., Henighan, T., Brown, T. B., Chess, B., Child, R., ... & Amodei, D. (2020). Scaling laws for neural language models. arXiv preprint arXiv:2001.08361.
5. Hoffmann, J., Borgeaud, S., Mensch, A., Buchatskaya, E., Cai, T., Rutherford, E., ... & Sifre, L. (2022). Training compute-optimal large language models. Advances in Neural Information Processing Systems, 35, 30016–30030.
6. Jacobs, R. A., Jordan, M. I., Nowlan, S. J., & Hinton, G. E. (1991). Adaptive mixtures of local experts. Neural Computation, 3(1), 79–87.
7. Shazeer, N., Mirhoseini, A., Maziarz, K., Davis, A., Le, Q., Hinton, G., & Dean, J. (2017). Outrageously large neural networks: The sparsely-gated mixture-of-experts layer. International Conference on Learning Representations (ICLR).
8. Fedus, W., Zoph, B., & Shazeer, N. (2022). Switch Transformers: Scaling to trillion parameter models with simple and efficient sparsity. Journal of Machine Learning Research, 23(120), 1–39.
9. Touvron, H., Lavril, T., Izacard, G., Martinet, X., Lachaux, M.-A., Lacroix, T., ... & Lample, G. (2023a). LLaMA: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971.
10. Touvron, H., Martin, L., Stone, K., Albert, P., Almahairi, A., Babaei, Y., ... & Scialom, T. (2023b). Llama 2: Open foundation and fine-tuned chat models. arXiv preprint arXiv:2307.09288.
11. Bender, E. M., Gebru, T., McMillan-Major, A., & Shmitchell, S. (2021). On the dangers of stochastic parrots: Can language models be too big? Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency (FAccT), 610–623.
12. Bommasani, R., Hudson, D. A., Adeli, E., Altman, R., Arber, S., von Arx, S., ... & Liang, P. (2021). On the opportunities and risks of foundation models. arXiv preprint arXiv:2108.07258.
13. Solaiman, I. (2023). The gradient of generative AI release: Methods and considerations. arXiv preprint arXiv:2302.04844.
14. Financial Times. (2026, Ocak). Yann LeCun confirms Llama 4 benchmark results were "fudged." Financial Times. [Aktaran: Slashdot, 2 Ocak 2026].
15. Lambert, N. (2025, 7 Nisan). Llama 4 and the LM Arena controversy. Interconnects (Substack).
16. Safaya, A., Kurtulus, E., & Gokcen, A. (2022). Mukayese: Turkish NLP strikes back. Findings of the Association for Computational Linguistics: ACL 2022, 846–857.
17. Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., ... & Amodei, D. (2020). Language models are few-shot learners. Advances in Neural Information Processing Systems, 33, 1877–1901.
18. Chowdhery, A., Narang, S., Devlin, J., Bosma, M., Mishra, G., Roberts, A., ... & Dean, J. (2023). PaLM: Scaling language modeling with Pathways. Journal of Machine Learning Research, 24(240), 1–113.
19. Lepikhin, D., Lee, H., Xu, Y., Chen, D., Firat, O., Huang, Y., ... & Chen, Z. (2020). GShard: Scaling giant models with conditional computation and automatic sharding. arXiv preprint arXiv:2006.16668.
20. Jiang, A. Q., Sablayrolles, A., Roux, A., Mensch, A., Savary, B., Bamford, C., ... & Sayed, W. E. (2024). Mixtral of experts. arXiv preprint arXiv:2401.04088.
21. DeepSeek-AI. (2025). DeepSeek-V3 technical report. arXiv preprint arXiv:2412.19437.
22. Wiggers, K. (2025, 5 Nisan). Meta releases Llama 4, a new crop of flagship AI models. TechCrunch. https://techcrunch.com/2025/04/05/meta-releases-llama-4/
23. Open Source Initiative. (2024). The open source AI definition. https://opensource.org/deepdive/drafts/the-open-source-ai-definition-draft-v-0-0-8
24. Zuckerberg, M. (2024, 18 Ocak). Open source AI is the path forward [Açık mektup]. Meta Blog.
25. InfoQ. (2024, 31 Temmuz). Meta releases Llama 3.1 405B, largest open-source model to date. InfoQ. https://www.infoq.com/news/2024/07/meta-releases-llama31-405b/
26. Hugging Face. (2025, 5 Nisan). Welcome Llama 4 Maverick & Scout on Hugging Face. Hugging Face Blog. https://huggingface.co/blog/llama4-release
27. Wang, A., Pruksachatkun, Y., Nangia, N., Singh, A., Michael, J., Hill, F., Levy, O., & Bowman, S. R. (2019). SuperGLUE: A stickier benchmark for general-purpose language understanding systems. Advances in Neural Information Processing Systems, 32.
28. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). Attention is all you need. Advances in Neural Information Processing Systems, 30.
29. Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). Language models are unsupervised multitask learners. OpenAI Blog, 1(8), 9.
30. Paszke, A., Gross, S., Massa, F., Lerer, A., Bradbury, J., Chanan, G., ... & Chintala, S. (2019). PyTorch: An imperative style, high-performance deep learning library. Advances in Neural Information Processing Systems, 32.
10. Tartışma Soruları
1. Analitik: Llama 3.1 405B'nin performans kazanımlarının büyük ölçüde mimari yeniliklerden değil, veri kalitesi ve eğitim ölçeğindeki iyileştirmelerden kaynaklanması [1], yapay zekâ araştırmalarında "mimari inovasyon" ile "mühendislik optimizasyonu" arasındaki dengeye ilişkin ne söylemektedir?
2. Karşılaştırmalı: Llama 3.1'in yoğun (dense) Transformer mimarisi ile Llama 4'ün Mixture-of-Experts (MoE) mimarisi arasındaki temel farklar nelerdir? Her iki yaklaşımın avantaj ve dezavantajlarını hesaplama verimliliği, eğitim kararlılığı ve dağıtım kolaylığı açısından karşılaştırınız.
3. Spekülatif: DeepSeek V3'ün MoE tabanlı modeli, Meta üzerinde ciddi bir rekabet baskısı yaratmasaydı [22], Llama 4 yine de MoE mimarisine geçiş yapar mıydı? Rekabet dinamiklerinin yapay zekâ araştırma yönelimini nasıl şekillendirdiğini tartışınız.
4. Etik: Llama 4'ün kıyaslama manipülasyonu tartışması [14], yapay zekâ endüstrisinde kıyaslama sonuçlarının pazarlama aracı olarak kullanılmasının etik boyutlarını nasıl aydınlatmaktadır? Bu durumun, güvenlik-kritik uygulamalarda model seçimi yapan geliştiriciler için doğurabileceği sonuçları değerlendiriniz.
5. Güncel: Meta'nın "açık ağırlıklı" (open-weight) model stratejisi ile Open Source Initiative'in (OSI) açık kaynak tanımı arasındaki gerilim [23], yapay zekâ demokratikleşmesi kavramının gerçek anlamı konusunda ne söylemektedir? "Açık" kavramının yapay zekâ bağlamında yeniden tanımlanması gerekli midir?
6. Analitik: Llama 4 Scout'un 10 milyon jetonluk bağlam penceresi [3] hangi uygulama alanlarını mümkün kılmaktadır? Ancak, uzun bağlam desteğinin yalnızca jeton sayısıyla mı yoksa modelin bu bağlamı etkili biçimde kullanabilme kapasitesiyle mi ölçülmesi gerektiğini tartışınız.
7. Karşılaştırmalı: Llama 4'ün "erken kaynaştırma" (early fusion) yaklaşımı ile önceki Llama modellerinin "bileşimsel" (compositional) çoklu modalite yaklaşımı arasındaki farkları açıklayınız. Erken kaynaştırmanın avantajları ve potansiyel sınırlılıkları nelerdir?
8. Etik: Llama modellerinin eğitimi için gereken muazzam hesaplama kaynakları (16.000–32.000 H100 GPU) [1][3], yapay zekâ araştırmalarının büyük teknoloji şirketlerinde yoğunlaşmasının kaçınılmazlığına ilişkin ne söylemektedir? Bu yoğunlaşma, yapay zekânın gelecekteki yönelimini nasıl etkileyebilir?
9. Spekülatif: Llama 4 Behemoth modeli (yaklaşık 2 trilyon parametre) [3] tamamlandığında ve kamuya açıldığında, yapay zekâ ekosistemi üzerinde nasıl bir etki yaratabilir? Bu ölçekte bir açık ağırlıklı modelin potansiyel faydaları ve riskleri nelerdir?
10. Güncel: Llama 4'ün lansman krizi sonrasında Meta'nın GenAI organizasyonunun yeniden yapılandırılması [14], büyük teknoloji şirketlerinin yapay zekâ geliştirme süreçlerindeki iç dinamiklere ilişkin ne söylemektedir? Bu olay, yapay zekâ endüstrisinde kurumsal hesap verebilirlik açısından bir emsal oluşturabilir mi?