Bölüm 42 2023Büyük Dil Modelleri

Meta'nın Llama Modelleri

Meta'nın Llama modellerinin açık kaynak yapay zeka ekosistemine etkisi.

Llama Meta açık kaynak büyük dil modeli LLaMA
Önemli isimler: Hugo Touvron

1. Giriş

Kasım 2022'de ChatGPT'nin dünya sahnesine çıkmasının ardından, büyük dil modelleri (large language models, LLM) alanında benzeri görülmemiş bir rekabet başladı. OpenAI'ın GPT serisi, Google'ın PaLM ve ardından Gemini aileleri, Anthropic'in Claude modelleri — bu aktörlerin ortak noktası, modellerinin ağırlıklarını ve eğitim süreçlerini kamuyla paylaşmamalarıydı [1][2]. Kapalı kaynak paradigması, yapay zeka araştırmalarının giderek daha az sayıda büyük teknoloji şirketinin kontrolünde yoğunlaşması anlamına geliyordu ve bu durum, akademik çevrelerden sivil topluma kadar geniş bir yelpazede endişe yaratıyordu [3]. İşte tam bu atmosferde, Şubat 2023'te Meta AI — Facebook'un ana şirketi Meta Platforms'un araştırma kolu — LLaMA adlı bir dizi temel dil modelini duyurarak yapay zeka tarihinin en tartışmalı ve en etkili hamlelerinden birini gerçekleştirdi [4].

LLaMA — "Large Language Model Meta AI" kısaltması — 7 milyar (7B) ile 65 milyar (65B) parametre arasında değişen dört farklı boyutta sunulmuş, yalnızca kamuya açık veri setleri üzerinde eğitilmiş ve model ağırlıklarının araştırmacılara açılacağı duyurulmuş bir Transformer tabanlı otoregresif dil modeli ailesiydi [4][5]. Meta'nın bu hamlesi, yapay zeka tarihinde birkaç nedenden dolayı kritik bir kırılma noktası oluşturmaktadır. Birincisi, Touvron ve arkadaşlarının gösterdiği üzere, 13 milyar parametreli görece küçük bir modelin, 175 milyar parametreli GPT-3'ü birçok doğal dil işleme (natural language processing, NLP) kıyaslama testinde geçebileceği kanıtlanmıştır [4]. Bu bulgu, DeepMind'ın Chinchilla ölçekleme yasalarının [6] pratik sonuçlarını somutlaştırmış ve "daha büyük her zaman daha iyi değildir, daha çok veriyle daha uzun eğitmek de bir stratejidir" mesajını güçlü biçimde doğrulamıştır [7]. İkincisi, modelin ağırlıklarının Mart 2023'te 4chan üzerinden sızdırılması, açık erişim yapay zeka tartışmalarını ateşlemiş ve kontrolsüz dağıtımın risk-fayda dengesine ilişkin küresel bir tartışma başlatmıştır [1]. Üçüncüsü, bu sızıntının ardından oluşan topluluk dinamikleri — birkaç gün içinde binlerce türev modelin ortaya çıkması — Meta'yı strateji değişikliğine zorlayarak Temmuz 2023'te Llama 2'yi açık lisansla, ticari kullanıma da izin vererek yayımlamaya yöneltmiştir [8].

Bu bölüm, Llama model ailesinin ilk üç nesli olan Llama 1, Llama 2 ve Llama 3'ü derinlemesine inceleyecektir. Modellerin teknik mimarisini, eğitim stratejilerini, ölçekleme kararlarını, "açık kaynak" kavramı etrafında süregelen lisans tartışmalarını, akademik ve endüstriyel etkilerini ve yapay zeka tarihindeki konumlarını kapsamlı biçimde ele alacağız. Bir sonraki bölümde ise Llama 3.1, Llama 3.2 ve Llama 4 ile birlikte Mixture-of-Experts mimarisi ve çok-modlu (multimodal) yapay zeka çağına geçiş incelenecektir.

2. Literatür Taraması

Llama model ailesinin entelektüel temelleri, büyük dil modelleri, ölçekleme yasaları, transfer öğrenme ve açık erişim yapay zeka tartışmaları olmak üzere birbirine bağlı birkaç araştırma geleneğine dayanmaktadır.

Kaplan ve arkadaşları (2020), dil modelleri için ilk sistematik ölçekleme yasalarını ortaya koymuş ve model boyutu, veri miktarı ile hesaplama bütçesi arasındaki ilişkiyi ampirik olarak modellemiştir [9]. Bu çalışma, OpenAI'ın GPT-3 eğitiminin temelini oluşturmuş; ancak model boyutunu veri miktarına göre orantısız biçimde ön plana çıkardığı gerekçesiyle eleştirilmiştir [9]. Hoffmann ve arkadaşları (2022), DeepMind bünyesinde gerçekleştirdikleri Chinchilla çalışmasıyla bu yasaları revize etmiş ve hesaplama-optimal eğitim için model boyutu ile eğitim verisi miktarının yaklaşık eşit oranda ölçeklendirilmesi gerektiğini göstermiştir [6]. Bu bulgu, GPT-3 gibi modellerin aslında ciddi biçimde yetersiz eğitilmiş olduğunu ima ediyordu: 175 milyar parametreli bir modelin hesaplama-optimal eğitimi için yaklaşık 3,5 trilyon token gerekiyordu, oysa GPT-3 yalnızca 300 milyar token üzerinde eğitilmişti [6]. Llama 1, Chinchilla yasalarını bilinçli biçimde benimseyerek küçük modelleri daha fazla veriyle eğitme stratejisini izlemiştir [4].

Brown ve arkadaşları (2020), GPT-3'ü tanıttıkları çalışmada az-örnekli öğrenmenin (few-shot learning) büyük dil modelleriyle mümkün olduğunu göstermiş ve bağlam-içi öğrenme (in-context learning) kavramını popülerleştirmiştir [10]. Touvron ve arkadaşlarının (2023a) Llama 1 makalesi, GPT-3'ün bu yeteneklerinin çok daha küçük modellerde de elde edilebileceğini deneysel olarak kanıtlamıştır [4]. Devlin ve arkadaşları (2018) BERT'i tanıtarak yalnızca kodlayıcı (encoder-only) mimarisinin NLP'deki hakimiyetini başlatmış [11], ancak Llama dahil sonraki nesil modeller yalnızca çözücü (decoder-only) mimarisini tercih etmiştir [4][8].

Vaswani ve arkadaşları (2017), Transformer mimarisini ortaya koyan "Attention Is All You Need" çalışmasıyla Llama dahil tüm modern büyük dil modellerinin mimari temelini oluşturmuştur [12]. Su ve arkadaşları (2021), Llama'nın konum kodlama stratejisi olarak benimsediği Dönel Konum Gömme (Rotary Position Embedding, RoPE) yöntemini geliştirmiştir [13]. Zhang ve Sennrich (2019), Llama'nın normalizasyon stratejisi olarak kullandığı RMSNorm tekniğini önererek, standart katman normalizasyonuna (layer normalization) göre hesaplama verimliliğini artırmıştır [14]. Shazeer (2020), Llama'nın ileri besleme ağlarında kullandığı SwiGLU aktivasyon fonksiyonunu tanıtmıştır [15].

Açık kaynak tartışmaları bağlamında, Open Source Initiative (OSI), Llama 2'nin lisans koşullarının Açık Kaynak Tanımı'na (Open Source Definition, OSD) uymadığını açıkça belirtmiştir [16]. Liesenfeld ve arkadaşları (2023), büyük dil modellerinin "açıklık" (openness) derecesini sistematik biçimde ölçümleyen bir çerçeve geliştirmiş ve Llama 2'yi incelenen 20 model arasında en düşük açıklık puanlarından birine sahip modeller arasında sınıflandırmıştır [17]. Buna karşın, Zuckerberg (2024), açık kaynak yapay zekanın geleceğin yolu olduğunu savunan bir manifesto yayımlayarak Meta'nın stratejik pozisyonunu kamuoyuna açıkça ilan etmiştir [18].

Eleştirel perspektiften, Bender ve arkadaşları (2021), büyük dil modellerinin "stokastik papağanlar" olduğunu ileri sürerek, bu modellerin dili gerçekten anlamadan yeniden ürettiğini savunmuştur [3]. Bu eleştiri, Llama gibi modellerin çeşitli kıyaslama testlerindeki başarılarının "anlama" ile eşdeğer tutulup tutulamayacağı sorusunu doğrudan ilgilendirmektedir. Bommasani ve arkadaşları (2021), temel modellerin (foundation models) fırsatlarını ve risklerini kapsamlı biçimde analiz ederek, bu modellerin toplumsal etkilerinin sistematik değerlendirilmesi gerektiğini vurgulamıştır [19]. Sardana ve Frankle (2023), Chinchilla ölçekleme yasalarını çıkarım maliyetlerini de hesaba katacak biçimde genişletmiş ve küçük modelleri daha uzun eğitmenin — tam da Llama'nın izlediği strateji — toplam yaşam döngüsü maliyetini düşürebileceğini matematiksel olarak göstermiştir [20].

Touvron ve arkadaşları (2023b), Llama 2 makalesinde insani geri bildirime dayalı pekiştirmeli öğrenmenin (reinforcement learning from human feedback, RLHF) açık modellere nasıl uygulanabileceğini detaylı biçimde belgelemiştir [8]. Llama Team (2024), Llama 3 teknik raporunda ise 15 trilyon tokenlik eğitim verisi, Grouped Query Attention ve 128K token sözlüğü gibi yenilikleri sunmuştur [21]. Bu raporların her biri, açık erişimli yapay zeka araştırmaları için önemli referans noktaları oluşturmaktadır.

3. Tarihsel ve Teorik Arka Plan

Büyük Dil Modellerinin Yükselişi ve Kapalı Kaynak Hegemonyası

2020'lerin başında yapay zeka alanının en belirgin özelliklerinden biri, en güçlü dil modellerinin birkaç büyük teknoloji şirketinin tekelinde geliştirilmesiydi. OpenAI, GPT-3'ü (2020) ve ardından GPT-4'ü (2023) yalnızca API erişimiyle sunuyordu; Google, PaLM (2022) ve Gemini (2023) modellerini kapalı tutuyordu; Anthropic, Claude modellerini benzer bir kapalı stratejiyle piyasaya sürüyordu [10][22][23]. Bu durum, yapay zeka araştırmalarında "tekrarlanabilirlik krizi" yaratıyordu: akademik araştırmacılar, bu modellerin iddia edilen yeteneklerini bağımsız olarak doğrulayamıyor, eğitim verilerini inceleyemiyor ve mimari tercihlerinin nedenlerini anlayamıyordu [19].

Bu kapalı ekosistem, yapay zekanın daha geniş bir tarihsel bağlam içinde paradoksal bir duruma düşmesine yol açmıştır. Bilgisayar biliminin ve özellikle yapay zekanın entelektüel kökleri, açık bilgi paylaşımına dayanmaktadır: Alan Turing'in 1950'deki "Computing Machinery and Intelligence" makalesi [24], Marvin Minsky ve John McCarthy'nin 1956 Dartmouth çalıştayındaki vizyonu, hatta internet protokollerinin (TCP/IP) gelişimi — tüm bunlar akademik açıklık ve işbirliği ilkeleri üzerine inşa edilmiştir. 2020'lerin kapalı model eğilimi, bu geleneğin tersine dönmesi anlamına geliyordu [19].

Chinchilla Ölçekleme Yasaları ve "Küçük Ama Daha Çok Eğitilmiş" Paradigması

Llama'nın tasarım felsefesini anlamak için, ölçekleme yasalarındaki paradigma değişimini kavramak zorunludur. Kaplan ve arkadaşlarının (2020) orijinal ölçekleme yasaları, model performansının ağırlıklı olarak parametre sayısına bağlı olduğunu öne sürmüştü [9]. Bu yaklaşım, GPT-3'ün 175 milyar parametreyle yalnızca 300 milyar token üzerinde eğitilmesi kararını yönlendirmişti — parametre başına yaklaşık 1,7 token oranı [9][10].

Hoffmann ve arkadaşlarının (2022) Chinchilla çalışması bu anlayışı kökten değiştirdi [6]. 400'den fazla model eğiterek gerçekleştirdikleri sistematik analizde, hesaplama-optimal eğitim için parametre başına yaklaşık 20 token gerektiğini gösterdiler [6]. Bu bulgu, GPT-3'ün yaklaşık 10 kat yetersiz eğitilmiş olduğunu ima ediyordu. Chinchilla, yalnızca 70 milyar parametre ile 1,4 trilyon token üzerinde eğitilerek, 280 milyar parametreli Gopher'ı geçmiştir [6].

Llama 1, Chinchilla yasalarını benimsemekle kalmamış, bir adım daha ileri gitmiştir. En küçük model olan 7B, 1 trilyon token üzerinde eğitilmiştir — parametre başına 142 token oranı, Chinchilla'nın önerdiğinin yaklaşık 7 katı [4][7]. Bu strateji, Sardana ve Frankle'ın (2023) daha sonra matematiksel olarak formalize edeceği "çıkarım-bilinçli ölçekleme" yaklaşımının erken bir uygulamasıydı: eğitimde biraz daha fazla hesaplama harcayarak, çıkarım sırasında çok daha düşük maliyetlerle çalışabilen küçük modeller elde etmek [20].

Meta'nın Stratejik Konumu

Meta'nın yapay zeka stratejisi, şirketin daha geniş iş modeliyle doğrudan bağlantılıdır. OpenAI ve Anthropic gibi şirketler gelirlerini doğrudan yapay zeka ürünlerinden elde ederken, Meta'nın temel gelir kaynağı dijital reklamcılıktır [18]. Bu durum, Meta'yı yapay zeka modellerini açık erişimli yapma konusunda farklı bir teşvik yapısıyla donatmıştır: açık modeller, geliştiricilerin Meta'nın ekosistemi etrafında toplanmasını sağlarken, kapalı kaynak rakiplerin pazar hakimiyetini zayıflatmaktadır [18]. Yann LeCun — Meta'nın Baş Yapay Zeka Bilimcisi ve derin öğrenmenin kurucularından biri — bu stratejiyi tutarlı biçimde savunmuş ve açık yapay zekanın inovasyon için zorunlu olduğunu ileri sürmüştür [25].

4. Ana Konu Analizi

4a. Llama 1: Mimari Temeller ve Sızıntı Olayı

Teknik Mimari

Llama 1, yalnızca çözücü (decoder-only) Transformer mimarisini temel almıştır [4][12]. Modelin mimari tercihleri, dönemin en iyi uygulamalarını birleştiren pragmatik bir yaklaşımı yansıtmaktadır. Standart katman normalizasyonu yerine RMSNorm kullanılmıştır; bu tercih, Zhang ve Sennrich'in (2019) gösterdiği gibi, ortalama hesaplama adımını atlayarak eğitim verimliliğini artırmaktadır [14]. Aktivasyon fonksiyonu olarak ReLU yerine SwiGLU tercih edilmiştir; Shazeer'ın (2020) gösterdiği üzere, bu fonksiyon dil modelleme görevlerinde tutarlı biçimde daha iyi performans sunmaktadır [15]. Konum kodlama için sinüzoidal konum gömmeleri yerine Dönel Konum Gömme (RoPE) kullanılmıştır; Su ve arkadaşlarının (2021) geliştirdiği bu yöntem, modelin eğitim sırasında görmediği uzun dizilere de genelleştirebilmesini sağlamaktadır [13].

Model, dört farklı boyutta sunulmuştur: 7B, 13B, 33B ve 65B parametre [4]. Eğitim verisi yalnızca kamuya açık kaynaklardan derlenmiştir: CommonCrawl, C4, GitHub, Wikipedia, kitaplar, ArXiv ve StackExchange [4]. Bu tercih, telif hakkı tartışmalarından kaçınma amacı taşıdığı kadar, araştırma tekrarlanabilirliğine de katkı sağlamıştır [4].

Performans ve Chinchilla Doğrulaması

Llama 1'in en çarpıcı bulgusu, 13B parametreli modelin 175B parametreli GPT-3'ü birçok NLP kıyaslama testinde geçmesiydi [4]. Bu sonuç, Chinchilla ölçekleme yasalarının pratik doğrulaması olarak büyük yankı uyandırmıştır [6][7]. 65B parametreli en büyük model ise 540B parametreli PaLM ve 70B parametreli Chinchilla ile rekabet edebilir düzeyde performans sergilemiştir [4]. Bu bulgular, yapay zeka topluluğuna açık bir mesaj veriyordu: parametre sayısını artırmak yerine, mevcut modelleri daha fazla ve daha kaliteli veriyle eğitmek, performans açısından çok daha verimli bir stratejidir.

Sızıntı Olayı ve Sonuçları

Llama 1'in resmi erişimi, başvuru süreciyle sınırlandırılmış olsa da, 3 Mart 2023'te modelin ağırlıklarını içeren bir torrent dosyası 4chan üzerinden paylaşıldı ve hızla yapay zeka topluluklarına yayıldı [1]. Meta, HuggingFace üzerindeki yetkisiz dağıtımlara yönelik kaldırma talepleri gönderdi; ancak model zaten kontrol edilemeyecek biçimde yayılmıştı [1].

Bu sızıntı, yapay zeka tarihinde önemli bir dönüm noktasıdır çünkü kasıtsız bir biçimde, açık ağırlıklı modellerin topluluk tarafından ne denli hızlı benimseneceğini ve geliştirileceğini göstermiştir. Sızıntının ardından birkaç gün içinde, akademik araştırmacılar ve bağımsız geliştiriciler Llama 1 üzerine yüzlerce ince ayarlı (fine-tuned) türev model oluşturmuştur [26]. Stanford'un Alpaca projesi — yalnızca 600 dolarlık bir maliyetle Llama 7B'yi talimat takip eden bir sohbet modeline dönüştüren çalışma — bu dönemin sembolik projelerinden biri olmuştur [27].

4b. Llama 2: Ticari Açılım ve RLHF Entegrasyonu

Llama 1'in sızıntısının yarattığı topluluk dinamiklerini gözlemleyen Meta, stratejisini köklü biçimde değiştirdi. Temmuz 2023'te, Microsoft ortaklığıyla Llama 2 duyuruldu [8]. Llama 2, önceki modelden birkaç kritik noktada ayrılıyordu:

Birincisi, lisanslama açısından Llama 2 ticari kullanıma açılmıştır — belirli koşullarla [8]. Meta, bir "Topluluk Lisans Sözleşmesi" (Community License Agreement) oluşturarak, 700 milyondan fazla aylık aktif kullanıcıya sahip şirketler dışında herkese ticari kullanım hakkı tanımıştır [8][16]. Bu 700 milyon eşiği, pratikte yalnızca Google, Apple ve Amazon gibi doğrudan rakipleri dışarıda bırakmak için tasarlanmış stratejik bir sınırdır.

İkincisi, teknik açıdan Llama 2 üç boyutta sunulmuştur: 7B, 13B ve 70B parametre [8]. 33B boyutu kaldırılmış, 70B boyutu eklenmiştir. Eğitim verisi, Llama 1'e göre yüzde 40 oranında artırılarak 2 trilyon tokene çıkarılmıştır [8]. Bağlam penceresi (context window) 2.048 tokenden 4.096 tokene iki katına çıkarılmıştır [8]. Grouped Query Attention (GQA) mekanizması 70B modele eklenmiş; bu teknik, anahtar-değer (key-value) dikkat başlıklarını gruplandırarak çıkarım hızını önemli ölçüde artırmıştır [8].

Üçüncüsü, Llama 2 yalnızca temel (foundation) modeller değil, aynı zamanda sohbet için ince ayarlı (chat) modeller de sunmuştur [8]. Llama 2-Chat modelleri, insani geri bildirime dayalı pekiştirmeli öğrenme (RLHF) kullanılarak hizalanmıştır (aligned) [8]. Meta, 1 milyondan fazla insani açıklama (human annotation) kullanarak, modellerin yararlı, zararsız ve dürüst yanıtlar üretmesini hedeflemiştir [8]. Bu süreç, daha önce yalnızca kapalı kaynak modellerde (GPT-4, Claude) uygulanan hizalama tekniklerinin açık model ekosisteminde de mümkün olduğunu göstermiştir.

Code Llama ve Uzmanlaşmış Türevler

Llama 2'nin bir diğer önemli katkısı, Meta'nın resmi olarak yayımladığı uzmanlaşmış türev modellerdir. Code Llama, Llama 2 üzerine kod-spesifik veri setleriyle ince ayar yapılarak oluşturulmuş ve yazılım geliştirme görevlerinde özelleşmiş performans sunmuştur [28]. Bu resmi türev modeller, topluluk tarafından geliştirilen binlerce gayri resmi türevle birlikte, Llama ekosisteminin genişliğini ve çeşitliliğini göstermektedir [26].

4c. Llama 3: Ölçeğin Sınırlarını Zorlamak

Nisan 2024'te yayımlanan Llama 3, Meta'nın ölçekleme stratejisinde yeni bir aşamayı temsil etmektedir [21]. Llama 3, başlangıçta 8B ve 70B parametreli iki boyutta sunulmuştur [21]. Modelin teknik yenilikleri dikkat çekicidir:

Eğitim verisi 15 trilyon tokene çıkarılmıştır — Llama 2'nin 7,5 katı [21]. Bu oran, en küçük 8B model için parametre başına yaklaşık 1.875 token anlamına gelmekte olup, Chinchilla'nın önerdiği 20:1 oranının neredeyse 100 katıdır [7][21]. Bu radikal "aşırı eğitim" (over-training) stratejisi, Sardana ve Frankle'ın (2023) çıkarım-bilinçli ölçekleme teorisinin en dramatik uygulamasıdır: eğitimde daha fazla hesaplama harcayarak, çıkarım sırasında çok daha ucuza çalışan küçük ama güçlü modeller elde etmek [20].

Sözlük boyutu (vocabulary size) 32.000 tokenden 128.000 tokene çıkarılmıştır [21]. Bu genişleme, modelin daha fazla dili ve karakter setini verimli biçimde temsil edebilmesini sağlamıştır. Grouped Query Attention (GQA), artık yalnızca en büyük modele değil tüm boyutlara uygulanmıştır [21]. GQA, çıkarım verimliliğini artırırken, model performansından anlamlı bir kayba yol açmamaktadır [8][21].

Eğitim altyapısı olarak 16.000 adet NVIDIA H100 GPU kullanılmıştır [21]. Bu ölçek, tarihin en büyük açık erişimli model eğitimlerinden birini temsil etmektedir. Eğitim sürecinde elde edilen mühendislik bilgisi — çoklu GPU senkronizasyonu, hata toleransı, eğitim kararlılığı — Meta'nın teknik raporunda detaylı biçimde belgelenmiştir [21].

Llama 3, kıyaslama testlerinde hem açık hem de kapalı kaynak rakipleriyle rekabet edebilir performans sergilemiştir [21]. 70B modeli, birçok testte GPT-3.5 Turbo'yu geçmiş ve bazı testlerde GPT-4'e yaklaşmıştır [21].

4d. Genel Yapay Zeka Tarihindeki Yeri

Llama model ailesi, yapay zeka tarihinde birkaç kritik paradigma değişimine zemin hazırlamıştır. Birincisi, açık ağırlıklı modellerin kapalı kaynak modellerle rekabet edebileceğini somut biçimde göstererek, yapay zeka araştırmalarının demokratikleşmesine katkıda bulunmuştur [4][8][21]. İkincisi, Chinchilla ölçekleme yasalarının pratik uygulanabilirliğini kanıtlayarak, endüstrinin "daha büyük model her zaman daha iyidir" dogmasından uzaklaşmasını hızlandırmıştır [4][6][7]. Üçüncüsü, açık modeller etrafında oluşan ekosistem — HuggingFace üzerinde 7.000'den fazla türev model, GitHub'da 7.000'den fazla proje — yapay zekanın gelişim dinamiklerini temelden değiştirmiştir [26].

5. Eleştirel Değerlendirme

Llama modellerinin en tartışmalı boyutu, "açık kaynak" (open source) iddiasıdır. Open Source Initiative (OSI), Llama 2'nin lisans koşullarının Açık Kaynak Tanımı'na uymadığını açıkça belirtmiştir [16]. OSI'nin Genel Müdürü Stefano Maffulli, Meta'nın "açık kaynak" terimini yanıltıcı biçimde kullandığını ifade etmiştir [16]. Eleştiriler birkaç eksen etrafında yoğunlaşmaktadır:

Birincisi, 700 milyon aylık aktif kullanıcı eşiği, Açık Kaynak Tanımı'nın 5. ve 6. maddelerinde yer alan "kişi veya gruplara karşı ayrımcılık yasağı" ve "kullanım alanı kısıtlaması yasağı" ilkelerini ihlal etmektedir [16]. İkincisi, Kabul Edilebilir Kullanım Politikası (Acceptable Use Policy), Meta'nın kendi takdirine bağlı olarak belirli kullanımları yasaklamaktadır [16][29]. Üçüncüsü, eğitim verisi paylaşılmamıştır; yalnızca model ağırlıkları ve çıkarım kodu erişime açılmıştır [17]. Liesenfeld ve arkadaşlarının (2023) sistematik değerlendirmesi, Llama 2'yi incelenen modeller arasında "açıklık" açısından en düşük kategorilerden birine yerleştirmiştir [17].

Buna karşın, pragmatik bir perspektiften bakıldığında, Llama modellerinin yapay zeka araştırmalarına katkısı tartışılmazdır. Modellerin ağırlıklarının erişilebilir olması, akademik araştırmacıların bu modelleri incelemesine, ince ayar yapmasına ve üzerine yeni çalışmalar geliştirmesine olanak tanımıştır [26]. "Açık ağırlıklı" (open-weight) terimi, Llama'nın gerçek konumunu daha doğru biçimde yansıtmaktadır: model ağırlıkları erişilebilir, ancak eğitim verisi, eğitim kodu ve lisans koşulları tam anlamıyla "açık kaynak" kriterlerini karşılamamaktadır [17][29].

Teknik açıdan, Llama modellerinin en önemli katkılarından biri, küçük modellerin yeterli veriyle eğitildiğinde çok daha büyük modellerle rekabet edebileceğini göstermesidir [4]. Ancak bu bulgu da bağlam içinde değerlendirilmelidir: "küçük" model bile milyarlarca parametre içermekte ve eğitimi binlerce GPU gerektirmektedir [21]. Dolayısıyla, Llama'nın "demokratikleştirme" söylemi, çıkarım (kullanım) aşamasında geçerli olsa da, eğitim aşamasında hâlâ devasa kaynak gerektirmektedir.

Bir diğer eleştiri noktası güvenlik boyutudur. Llama 1'in sızıntısı, model ağırlıklarının bir kez kamuya açıldığında kontrol edilemeyeceğini göstermiştir [1]. Bu durum, kötü niyetli kullanım riskini beraberinde getirmektedir: zararlı içerik üretimi, dezenformasyon kampanyaları, siber saldırı araçları geliştirme gibi senaryolar, açık modellerin potansiyel riskleri arasında sıklıkla tartışılmaktadır [3][19].

6. Etik ve Toplumsal Boyutlar

Llama modellerinin etik boyutları birkaç düzeyde ele alınmalıdır. Birincisi, yapay zeka teknolojisine erişim eşitsizliği meselesidir. Kapalı kaynak modeller, yalnızca API ücreti ödeyebilenlerin kullanımına açıkken, Llama gibi açık ağırlıklı modeller bu engeli kısmen ortadan kaldırmaktadır [8][18]. Ancak "kısmen" kaydı önemlidir: 70B parametreli bir modeli çalıştırmak bile ciddi donanım kaynağı gerektirmektedir ve bu durum, düşük gelirli ülkelerdeki araştırmacılar ile zengin ülkelerdeki meslektaşları arasındaki farkı yalnızca daraltmakta, ortadan kaldırmamaktadır.

İkincisi, eğitim verisindeki önyargılar (bias) meselesidir. Llama modelleri, büyük ölçüde İngilizce internet içeriği üzerinde eğitilmiştir [4][8]. Bu durum, Anglo-Sakson kültürel perspektifin aşırı temsil edilmesine, düşük kaynaklı dillerin ve kültürlerin yetersiz temsil edilmesine yol açmaktadır. Paullada ve arkadaşlarının (2021) vurgulad gibi, büyük web kazıma veri setleri sistematik önyargılar içermektedir [30].

Üçüncüsü, açık modellerin kötüye kullanım potansiyelidir. RLHF ile hizalanmış Llama 2-Chat modellerinin güvenlik filtrelerinin topluluk tarafından kaldırılabilmesi — "jailbreak" veya "uncensored" türev modellerin yaygınlaşması — açık modellerin güvenlik garantilerinin yapısal olarak sınırlı olduğunu göstermektedir [8][19]. Meta, bu riski Llama Guard gibi güvenlik araçlarıyla dengelemeye çalışmış olsa da, ağırlıkları kontrol edilemeyen bir modelin güvenlik mekanizmalarının da kontrol edilemez olduğu gerçeği temel bir gerilim noktası olarak kalmaktadır.

Dördüncüsü, enerji tüketimi ve çevresel etki boyutudur. 16.000 H100 GPU ile gerçekleştirilen Llama 3 eğitimi, devasa miktarda elektrik tüketmiştir [21]. Yapay zeka modellerinin karbon ayak izi, çevresel sürdürülebilirlik tartışmalarında giderek daha merkezi bir yer tutmaktadır.

7. Güncel Uygulamalar ve Miras

Llama model ailesinin mirası, 2025 itibarıyla yapay zeka ekosisteminin her katmanında hissedilmektedir. HuggingFace platformu üzerinden gerçekleştirilen 30 milyondan fazla Llama tabanlı model indirmesi, bu modellerin akademik ve endüstriyel etkisinin somut bir göstergesidir [26].

Bulut bilişim alanında, AWS, Google Cloud ve Microsoft Azure gibi büyük platformlar Llama modellerini barındırma ve çıkarım hizmetleri sunmaktadır [26]. AWS, Llama 2 için yönetilen API hizmeti sunan ilk platform olmuş; bu durum, açık ağırlıklı modellerin ticari bulut ekosistemiyle entegrasyonunun bir prototipi olarak hizmet etmiştir [26].

Türev modeller açısından, Llama temelleri üzerine inşa edilen binlerce uzmanlaşmış model — tıp, hukuk, finans, eğitim ve yazılım geliştirme alanlarında — açık temel modellerin "platform" işlevi görebildiğini kanıtlamıştır [26][28]. LoRA (Low-Rank Adaptation) ve QLoRA gibi parametre-verimli ince ayar teknikleri, Llama modellerinin sınırlı kaynakla özelleştirilebilmesini mümkün kılmış ve bu teknikler Llama ekosistemiyle birlikte hızla yaygınlaşmıştır [31].

Yerel çalıştırma (on-device inference) alanında, llama.cpp projesi — bir geliştirici olan Georgi Gerganov'un Llama modellerini C/C++ ile saf CPU üzerinde çalıştırmak için yazdığı kütüphane — yapay zeka tarihinde önemli bir dönüm noktası olmuştur. Bu proje, milyarlarca parametrelik modellerin kişisel bilgisayarlarda, hatta akıllı telefonlarda çalıştırılabilmesinin önünü açmıştır.

Düzenleyici tartışmalar açısından, Llama'nın lisans yapısı, Avrupa Birliği'nin Yapay Zeka Yasası (AI Act) kapsamında "açık kaynak istisnası"nın nasıl tanımlanacağı tartışmasını doğrudan etkilemiştir [16][29]. Açık kaynak tanımının yapay zeka bağlamında yeniden şekillendirilmesi — OSI'nin 2024'te yayımladığı Açık Kaynak Yapay Zeka Tanımı (Open Source AI Definition, OSAID) dahil — büyük ölçüde Llama'nın tetiklediği tartışmaların bir ürünüdür [16][29].

8. Bölüm Özeti

Meta'nın Llama model ailesi, 2023-2024 döneminde yapay zeka alanının en dönüştürücü gelişmelerinden birini temsil etmektedir. Llama 1, Chinchilla ölçekleme yasalarını pratiğe dönüştürerek küçük modellerin büyük modellerle rekabet edebileceğini göstermiş ve sızıntı olayıyla açık erişim tartışmalarını ateşlemiştir [4][6]. Llama 2, ticari kullanıma açılım ve RLHF entegrasyonuyla açık modellerin endüstriyel uygulamalar için de uygun olduğunu kanıtlamıştır [8]. Llama 3, 15 trilyon tokenlik devasa eğitim verisi ve gelişmiş mimari tercihlerle ölçeğin sınırlarını zorlamıştır [21]. Bu üç nesil birlikte, yapay zeka tarihinde "açık ağırlıklı model" paradigmasının doğuşunu ve olgunlaşmasını belgeleyen kritik mihenk taşlarıdır.

Ancak Llama'nın "açık kaynak" iddiası, OSI ve akademik çevreler tarafından haklı biçimde sorgulanmaktadır [16][17]. Model ağırlıklarının erişilebilirliği, eğitim verisi şeffaflığı ve lisans özgürlükleri arasındaki farklar, yapay zeka çağında "açıklık" kavramının yeniden tanımlanması gerektiğini göstermektedir.

Bir sonraki bölümde, Llama 3.1'in 405 milyar parametreyle "sınıfının ilk açık sınır modeli" (frontier model) olarak ortaya çıkışını, Llama 3.2'nin çok-modlu yeteneklerini ve Llama 4'ün Mixture-of-Experts mimarisiyle paradigma değişimini inceleyeceğiz.

9. Kaynakça

1. Llama (language model). (2025). Wikipedia. https://en.wikipedia.org/wiki/Llama_(language_model)

2. Bommasani, R., Hudson, D. A., Adeli, E., Altman, R., Arber, S., von Arx, S., ... & Liang, P. (2021). On the opportunities and risks of foundation models. arXiv preprint arXiv:2108.07258.

3. Bender, E. M., Gebru, T., McMillan-Major, A., & Shmitchell, S. (2021). On the dangers of stochastic parrots: Can language models be too big? Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency, 610–623. https://doi.org/10.1145/3442188.3445922

4. Touvron, H., Lavril, T., Izacard, G., Martinet, X., Lachaux, M.-A., Lacroix, T., Rozière, B., Goyal, N., Hambro, E., Azhar, F., Rodriguez, A., Joulin, A., Grave, E., & Lample, G. (2023a). LLaMA: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971.

5. Meta AI. (2023, February 24). Introducing LLaMA: A foundational, 65-billion-parameter large language model. Meta AI Blog. https://ai.meta.com/blog/large-language-model-llama-meta-ai/

6. Hoffmann, J., Borgeaud, S., Mensch, A., Buchatskaya, E., Cai, T., Rutherford, E., ... & Sifre, L. (2022). Training compute-optimal large language models. Advances in Neural Information Processing Systems, 35, 30016–30030.

7. Sardana, N., & Frankle, J. (2023). Beyond Chinchilla-optimal: Accounting for inference in language model scaling laws. arXiv preprint arXiv:2401.00448.

8. Touvron, H., Martin, L., Stone, K., Albert, P., Almahairi, A., Babaei, Y., Bashlykov, N., Batra, S., Bhargava, P., Bhosale, S., ... & Scialom, T. (2023b). Llama 2: Open foundation and fine-tuned chat models. arXiv preprint arXiv:2307.09288.

9. Kaplan, J., McCandlish, S., Henighan, T., Brown, T. B., Chess, B., Child, R., ... & Amodei, D. (2020). Scaling laws for neural language models. arXiv preprint arXiv:2001.08361.

10. Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., ... & Amodei, D. (2020). Language models are few-shot learners. Advances in Neural Information Processing Systems, 33, 1877–1901.

11. Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of deep bidirectional transformers for language understanding. Proceedings of NAACL-HLT 2019, 4171–4186.

12. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). Attention is all you need. Advances in Neural Information Processing Systems, 30, 5998–6008.

13. Su, J., Lu, Y., Pan, S., Murtadha, A., Wen, B., & Liu, Y. (2021). RoFormer: Enhanced transformer with rotary position embedding. arXiv preprint arXiv:2104.09864.

14. Zhang, B., & Sennrich, R. (2019). Root mean square layer normalization. Advances in Neural Information Processing Systems, 32.

15. Shazeer, N. (2020). GLU variants improve Transformer. arXiv preprint arXiv:2002.05202.

16. Open Source Initiative. (2023, July 20). Meta's LLaMa license is not Open Source. OSI Blog. https://opensource.org/blog/metas-llama-2-license-is-not-open-source

17. Liesenfeld, A., Lopez, A., & Dingemanse, M. (2023). Opening up ChatGPT: Tracking openness, transparency, and accountability in instruction-tuned text generators. Proceedings of the 5th International Conference on Conversational User Interfaces, 1–6.

18. Zuckerberg, M. (2024, July 23). Open source AI is the path forward. Meta Blog. https://about.fb.com/news/2024/07/open-source-ai-is-the-path-forward/

19. Bommasani, R., Hudson, D. A., Adeli, E., Altman, R., Arber, S., von Arx, S., ... & Liang, P. (2021). On the opportunities and risks of foundation models. arXiv preprint arXiv:2108.07258.

20. Sardana, N., & Frankle, J. (2023). Beyond Chinchilla-optimal: Accounting for inference in language model scaling laws. arXiv preprint arXiv:2401.00448.

21. Llama Team, AI @ Meta. (2024). The Llama 3 herd of models. arXiv preprint arXiv:2407.21783.

22. Anil, R., Dai, A. M., Firat, O., Johnson, M., Lepikhin, D., Passos, A., ... & Wu, Y. (2023). PaLM 2 technical report. arXiv preprint arXiv:2305.10403.

23. OpenAI. (2023). GPT-4 technical report. arXiv preprint arXiv:2303.08774.

24. Turing, A. M. (1950). Computing machinery and intelligence. Mind, 59(236), 433–460.

25. LeCun, Y. (2023). Various public statements on open-source AI. Meta AI Research Communications.

26. Meta AI. (2023, November). The Llama ecosystem: Past, present, and future. Meta AI Blog. https://ai.meta.com/blog/llama-2-updates-connect-2023/

27. Taori, R., Gulrajani, I., Zhang, T., Dubois, Y., Li, X., Guestrin, C., Liang, P., & Hashimoto, T. B. (2023). Stanford Alpaca: An instruction-following LLaMA model. GitHub Repository. https://github.com/tatsu-lab/stanford_alpaca

28. Rozière, B., Gehring, J., Gloeckle, F., Sootla, S., Gat, I., Tan, X. E., ... & Synnaeve, G. (2023). Code Llama: Open foundation models for code. arXiv preprint arXiv:2308.12950.

29. Open Future. (2023). The mirage of open-source AI: Analyzing Meta's Llama 2 release strategy. Open Future Blog. https://openfuture.eu/blog/the-mirage-of-open-source-ai/

30. Paullada, A., Raji, I. D., Bender, E. M., Denton, E., & Hanna, A. (2021). Data and its (dis)contents: A survey of dataset development and use in machine learning research. Patterns, 2(11), 100336.

31. Hu, E. J., Shen, Y., Wallis, P., Allen-Zhu, Z., Li, Y., Wang, S., Wang, L., & Chen, W. (2022). LoRA: Low-rank adaptation of large language models. Proceedings of ICLR 2022.

10. Tartışma Soruları

1. Analitik: Llama 1'in 13B parametreli modelinin 175B parametreli GPT-3'ü geçmesi, ölçekleme yasaları açısından ne anlama gelmektedir? Chinchilla'nın "hesaplama-optimal eğitim" kavramı, endüstri uygulamalarını nasıl dönüştürmüştür?

2. Karşılaştırmalı: Meta'nın "açık ağırlıklı" (open-weight) yaklaşımı ile tam açık kaynak (open source) modeller — örneğin EleutherAI'ın GPT-NeoX'u veya Mistral AI'ın modelleri — arasındaki farklar nelerdir? Bu farklı yaklaşımların yapay zeka ekosistemi üzerindeki etkileri nasıl karşılaştırılabilir?

3. Spekülatif: Llama 1'in sızıntısı yaşanmamış olsaydı, Meta Llama 2'yi ticari kullanıma açar mıydı? Sızıntının Meta'nın stratejik kararları üzerindeki etkisi nasıl değerlendirilebilir?

4. Etik: Llama modellerinin ağırlıklarının kamuya açılması, kötü niyetli kullanım (zararlı içerik üretimi, dezenformasyon, siber saldırı) riskini ne ölçüde artırmaktadır? Açık erişimin faydaları bu risklere ağır basmakta mıdır?

5. Güncel: 2025 itibarıyla, Llama tabanlı türev modellerin en yaygın kullanım alanları hangileridir? llama.cpp ve benzeri yerel çalıştırma araçları, yapay zekanın erişilebilirliğini nasıl değiştirmiştir?

6. Analitik: Open Source Initiative'in Llama lisansına yönelik eleştirilerinin temel argümanları nelerdir? "Açık kaynak" kavramının yapay zeka çağında yeniden tanımlanması neden gereklidir?

7. Karşılaştırmalı: Llama 2'nin RLHF tabanlı hizalama süreci ile OpenAI'ın GPT-4 hizalama süreci arasındaki benzerlikler ve farklar nelerdir? Açık modellerde hizalama güvencelerinin yapısal sınırlılıkları nelerdir?

8. Spekülatif: Meta'nın yapay zeka modellerini açık erişimli yapma stratejisi, şirketin reklam tabanlı iş modeli açısından nasıl bir avantaj sağlamaktadır? Bu strateji, yapay zeka endüstrisinin uzun vadeli rekabet dinamiklerini nasıl şekillendirebilir?

9. Etik: Büyük dil modellerinin eğitimi için gereken devasa enerji tüketimi göz önüne alındığında, her yeni model nesli için artan hesaplama ihtiyacının çevresel maliyeti nasıl dengelenebilir? "Daha küçük ama daha çok eğitilmiş" stratejisi bu soruna bir çözüm sunmakta mıdır?

10. Güncel: Türkiye'deki yapay zeka araştırma ekosistemine, Llama gibi açık ağırlıklı modellerin katkısı ne olmuştur? Türkçe dil desteğinin yetersizliği, bu modellerin Türkiye'deki uygulanabilirliğini nasıl sınırlamaktadır ve bu sorun nasıl aşılabilir?