Bölüm 44 2025Büyük Dil Modelleri

DeepSeek ve Yapay Zekânın Sputnik Anı

DeepSeek'in düşük maliyetli yüksek performanslı modeli ve yapay zeka yarışının yeni boyutu.

DeepSeek Sputnik anı Çin yapay zekası açık kaynak maliyet verimliliği

1. Giriş

20 Ocak 2025'te, Hangzhou merkezli küçük bir Çinli yapay zekâ girişimi olan DeepSeek, R1 adlı akıl yürütme modelini MIT lisansı altında dünyaya açtı [1]. Model, OpenAI'ın o1 modeliyle doğrudan rekabet edebilecek düzeyde muhakeme kapasitesi sergiliyordu — ancak asıl şoku yaratan, modelin nasıl geliştirildiğiydi: yalnızca 2.048 adet Nvidia H800 GPU ile, yaklaşık 5,6 milyon dolar eğitim maliyetiyle ve ABD'nin Çin'e uyguladığı ileri çip ihracat kısıtlamalarına rağmen [1][2]. Bir hafta içinde DeepSeek uygulaması, ABD iOS App Store'da ChatGPT'yi geçerek bir numaralı ücretsiz uygulama konumuna yükseldi [3]. 27 Ocak 2025 Pazartesi günü, ABD borsaları tarihlerinin en büyük teknoloji satışlarından birini yaşadı: Nvidia tek başına yaklaşık 589 milyar dolar piyasa değeri kaybetti — ABD borsa tarihinin bir şirket tarafından tek günde yaşanan en büyük değer kaybı [4][5]. Toplam teknoloji sektörü kayıpları bir trilyon doları aştı [6].

DeepSeek olayı, yalnızca teknik bir başarı değildir; yapay zekâ tarihinin en çok boyutlu krizlerinden biridir. Bu olay, birden fazla yerleşik varsayımı aynı anda sarsmıştır: büyük dil modeli geliştirmenin mutlaka milyarlarca dolar gerektirdiği varsayımını, ABD'nin ileri yapay zekâda tartışmasız liderliğini, çip ihracat kısıtlamalarının Çin'in yapay zekâ kapasitesini sınırlayabileceği inancını ve ölçeklemenin (scaling) tek geçerli strateji olduğu paradigmasını [7][8]. Gözlemciler, bu anı Soğuk Savaş'ın en ikonik teknolojik şoklarından birine benzeterek "yapay zekânın Sputnik anı" olarak nitelendirdiler [9].

Bir önceki bölümde ele aldığımız Meta'nın Llama serisinin açık ağırlıklı model ekosistemini olgunlaştırması, DeepSeek'in yükselişi için zemini hazırlamıştı. Ancak DeepSeek, bu ekosistemi farklı bir boyuta taşıdı: yalnızca model ağırlıklarını değil, eğitim metodolojisini, mimari yeniliklerini ve araştırma sürecini de açık biçimde paylaşarak, "açık kaynak yapay zekâ" kavramını yeniden tanımladı [1][10]. Bu bölüm, DeepSeek'in kuruluşundan R1'in küresel etkisine, teknik yeniliklerinden jeopolitik sonuçlarına kadar çok boyutlu bir analiz sunacaktır.

2. Literatür Taraması

DeepSeek'in entelektüel ve teknik temelleri, birbirine bağlı birkaç araştırma geleneğine dayanmaktadır.

Birinci eksen, Mixture-of-Experts (MoE) mimarisinin evrimidir. Jacobs ve arkadaşlarının (1991) öncü çalışması, uzman karışımları kavramını ortaya koymuştur [11]. Shazeer ve arkadaşlarının (2017) seyrek geçitlemeli MoE katmanı, bu fikri modern derin öğrenme bağlamına taşımıştır [12]. Fedus ve arkadaşlarının (2022) Switch Transformer çalışması, MoE'yi trilyon parametrelik modellere ölçeklemiştir [13]. DeepSeek-V2 (DeepSeek-AI, 2024) ve DeepSeek-V3 (DeepSeek-AI, 2025), bu geleneği Multi-head Latent Attention (MLA) ve DeepSeekMoE mimarileriyle daha ileriye taşımıştır [14][15].

İkinci eksen, pekiştirmeli öğrenmenin (reinforcement learning, RL) dil modellerinde kullanımıdır. Ouyang ve arkadaşlarının (2022) InstructGPT çalışması, insan geri bildiriminden pekiştirmeli öğrenme (reinforcement learning from human feedback, RLHF) paradigmasını büyük dil modellerine uygulamıştır [16]. Shao ve arkadaşlarının (2024) Group Relative Policy Optimization (GRPO) çalışması — DeepSeek bünyesinde geliştirilen — eleştirmen model (critic model) gerektirmeden grup karşılaştırmasına dayalı daha verimli bir RL yöntemi sunmuştur [17]. DeepSeek-R1, GRPO'yu akıl yürütme yeteneklerini teşvik etmek için kullanan ilk büyük ölçekli açık model olmuştur [1].

Üçüncü eksen, ölçekleme yasaları (scaling laws) ve verimlilik araştırmalarıdır. Kaplan ve arkadaşlarının (2020) ölçekleme yasaları çalışması, daha büyük modellerin daha iyi performans gösterdiği ampirik yasayı formalize etmiştir [18]. Hoffmann ve arkadaşlarının (2022) Chinchilla çalışması, hesaplama-optimal eğitim kavramını ortaya koymuştur [19]. DeepSeek'in katkısı, bu yasaların kısıtlı hesaplama kaynakları altında nasıl optimize edilebileceğini göstermesidir — bir anlamda "kısıtlama altında ölçekleme" (scaling under constraint) paradigmasını başlatmıştır [15].

Dördüncü eksen, yapay zekânın jeopolitik boyutuna ilişkin literatürdür. Lee'nin (2018) AI Superpowers kitabı, ABD-Çin yapay zekâ rekabetinin genel çerçevesini çizmiştir [20]. Allen (2019), ABD'nin çip ihracat kısıtlamalarının stratejik mantığını analiz etmiştir [21]. Miller'ın (2022) Chip War kitabı, yarı iletken tedarik zincirinin jeopolitik önemini belgelemiştir [22]. DeepSeek olayı, bu literatürün öngörülerini hem doğrulamış hem de sorgulamıştır: ihracat kısıtlamaları Çin'in erişimini sınırlamış, ancak inovasyonu durdurmak yerine alternatif çözümlere yönelmeyi teşvik etmiştir [8][23].

Beşinci eksen, akıl yürütme modelleri (reasoning models) ve test-zamanı hesaplama ölçeklemesi (test-time compute scaling) alanıdır. OpenAI'ın o1 modeli (2024), düşünce zinciri (chain-of-thought) tabanlı akıl yürütmeyi büyük dil modellerine entegre eden ilk ticari modeldir [24]. Wei ve arkadaşlarının (2022) düşünce zinciri istemleme çalışması, bu alanın kavramsal temellerini atmıştır [25]. DeepSeek-R1, bu paradigmayı açık kaynak olarak erişilebilir kılarak, akıl yürütme modellerinin demokratikleşmesine katkıda bulunmuştur [1].

Türkçe literatürde, DeepSeek'in Türkçe performansına ilişkin sistematik değerlendirmeler henüz sınırlı olmakla birlikte, Safaya ve arkadaşlarının (2022) Türkçe NLP kıyaslama çalışması, çok dilli modellerin düşük kaynaklı dillerdeki performans dinamiklerini ele almıştır [26].

3. Tarihsel ve Teorik Arka Plan

DeepSeek'in ortaya çıkışını anlamak için, üç tarihsel gelişme hattını birlikte takip etmek gerekmektedir: Çin'in yapay zekâ ekosisteminin olgunlaşması, ABD ihracat kısıtlamalarının yarattığı baskı ve verimlilik odaklı yapay zekâ araştırmalarının yükselişi.

Çin'in yapay zekâ ekosistemi. Çin'in yapay zekâ alanındaki yükselişi, 2017 yılında Devlet Konseyi'nin yayımladığı "Yeni Nesil Yapay Zekâ Geliştirme Planı" ile kurumsal bir ivme kazanmıştır [27]. Bu plan, Çin'in 2030 yılına kadar yapay zekâda dünya lideri olmayı hedeflediğini ilan etmiş ve devlet destekli araştırma yatırımlarının artırılmasını öngörmüştür [27]. Alibaba, Baidu, Tencent ve ByteDance gibi büyük teknoloji şirketleri, kendi dil modellerini — Qwen, Ernie, Hunyuan ve benzerleri — geliştirmiştir [28]. Ancak bu şirketler büyük ölçüde ABD kökenli mimari ve eğitim paradigmalarını takip etmekte, orijinal araştırma katkıları sınırlı kalmaktaydı [20]. DeepSeek'i farklı kılan, bir teknoloji devinden değil, nicel yatırım (quantitative trading) alanında uzmanlaşmış bir hedge fondan doğmuş olmasıdır [29].

Liang Wenfeng ve High-Flyer'dan DeepSeek'e. DeepSeek'in kurucusu Liang Wenfeng (梁文锋), 1985'te Guangdong'da doğmuş, Zhejiang Üniversitesi'nde elektronik bilgi mühendisliği alanında lisans ve iletişim mühendisliği alanında yüksek lisans derecelerini almıştır [29][30]. 2015 yılında üniversite arkadaşlarıyla birlikte High-Flyer (幻方) adlı nicel yatırım fonunu kurmuş, fon 2021 yılına kadar 100 milyar yuan'ın (yaklaşık 14 milyar dolar) üzerinde yönetilen varlığa ulaşmıştır [30][31]. Kritik bir öngörüyle, Liang 2021'de — ABD'nin ileri çip ihracat kısıtlamalarını uygulamaya başlamasından önce — yaklaşık 10.000 adet Nvidia A100 GPU satın almıştır [29][31]. Bu donanım birikimi, DeepSeek'in kuruluş altyapısını oluşturacaktır. Nisan 2023'te High-Flyer, yapay genel zekâ (AGI) araştırma laboratuvarı kurma planını açıklamış; Temmuz 2023'te bu laboratuvar bağımsız bir şirket olarak DeepSeek adıyla ayrılmıştır [32].

ABD ihracat kısıtlamaları ve "zorunlu inovasyon". Biden yönetimi, Ekim 2022'de Çin'e yönelik kapsamlı yarı iletken ihracat kısıtlamalarını yürürlüğe koymuştur [22]. Bu kısıtlamalar, Nvidia'nın en ileri GPU'larının (A100 ve H100) Çin'e satışını engellemiştir. Nvidia, kısıtlamalara uyumlu olarak performansı düşürülmüş H800 çipini geliştirmiştir [33]. DeepSeek, modellerini bu kısıtlı çiplerle eğitmek zorunda kalmıştır — ve bu kısıtlama, paradoksal biçimde, şirketin verimlilik odaklı yenilikler geliştirmesini teşvik etmiştir [8]. Liang'ın ifadesiyle: "Kısıtlamalar bizi daha yaratıcı olmaya zorladı" [29]. Bu dinamik, teknoloji tarihinde "zorunluluktan doğan inovasyon" (necessity-driven innovation) kalıbının çarpıcı bir örneğidir.

Verimlilik paradigmasının yükselişi. 2020'lerin başında yapay zekâ araştırma topluluğunda baskın paradigma "daha büyük = daha iyi" formülüydü: GPT-3'ün 175 milyar parametresi, GPT-4'ün tahmini trilyon parametresi ve Llama 3.1'in 405 milyar parametresi bu eğilimi yansıtıyordu [18][34][35]. Ancak Schwartz ve arkadaşlarının (2020) "Green AI" manifestosu, hesaplama verimliliğini birincil araştırma metriği olarak savunmuş [36] ve Strubell ve arkadaşlarının (2019) büyük modellerin karbon ayak izi hesaplaması çevresel kaygıları gündeme getirmişti [37]. DeepSeek, bu verimlilik paradigmasını söylemden pratiğe taşıyan ilk büyük ölçekli başarıdır.

4. Ana Konu Analizi

4a. Temel Mekanizma: DeepSeek'in Teknik Yenilikleri

DeepSeek-V3: Mimari ve eğitim. Aralık 2024'te yayımlanan DeepSeek-V3, 671 milyar toplam parametreye sahip bir MoE modelidir; her jeton için yalnızca 37 milyar parametre aktive edilmektedir [15]. Model, iki temel mimari yenilik üzerine inşa edilmiştir. İlki, Multi-head Latent Attention (MLA) mekanizmasıdır: geleneksel dikkat mekanizmalarında anahtar-değer (key-value, KV) önbelleği bellek darboğazı yaratırken, MLA, anahtarları ve değerleri düşük boyutlu gizli (latent) temsillere sıkıştırarak çıkarım sırasında bellek kullanımını dramatik biçimde azaltmaktadır [14][15]. Bu yenilik, DeepSeek-V2'de doğrulanmış ve V3'te olgunlaştırılmıştır [14]. İkinci yenilik, DeepSeekMoE mimarisinin geliştirilmiş versiyonudur: geleneksel MoE modellerindeki yardımcı kayıp (auxiliary loss) tabanlı yük dengeleme stratejisi, model performansını olumsuz etkileyebilmektedir; DeepSeek-V3, yardımcı kayıp gerektirmeyen (auxiliary-loss-free) bir yük dengeleme stratejisi geliştirerek bu sorunu çözmüştür [15].

DeepSeek-V3'ün bir diğer önemli teknik katkısı, çoklu jeton tahmini (multi-token prediction, MTP) eğitim hedefidir [15]. Geleneksel otoregresif dil modelleri her adımda tek bir sonraki jetonu tahmin ederken, DeepSeek-V3 her adımda birden fazla gelecek jetonu tahmin etmektedir. Bu yaklaşım, hem eğitim sırasında performansı artırmakta hem de çıkarım sırasında spekülatif çözümleme (speculative decoding) için kullanılabilmektedir [15]. Model, 14,8 trilyon jeton üzerinde ön-eğitim görmüş, 128.000 jetonluk bağlam penceresini desteklemektedir [15]. Eğitim, 2.048 adet Nvidia H800 GPU ile gerçekleştirilmiş ve toplam eğitim maliyeti yalnızca 2,788 milyon H800 GPU saati olarak raporlanmıştır [15]. Karşılaştırma yapılacak olursa, Meta'nın Llama 3.1 405B modeli 16.000 H100 GPU kullanmıştır [35] — DeepSeek'in kullandığı hesaplama kaynağının yaklaşık sekiz katı.

DeepSeek-V3, FP8 karma hassasiyet eğitimi (mixed precision training) kullanarak hesaplama verimliliğini daha da artırmıştır [15]. Ekip, bu eğitim formatının ilk kez son derece büyük ölçekli bir modelde geçerliliğini ve etkinliğini doğruladığını iddia etmiştir [15]. Kıyaslama sonuçlarına göre DeepSeek-V3, Llama 3.1 ve Qwen 2.5 gibi açık modelleri geçmiş, GPT-4o ve Claude 3.5 Sonnet ile karşılaştırılabilir performans sergilemiştir [15].

DeepSeek-R1: Akıl yürütmenin pekiştirmeli öğrenmeyle teşviki. DeepSeek-R1, DeepSeek-V3-Base üzerine inşa edilmiş bir akıl yürütme modelidir ve Ocak 2025'te yayımlanmıştır [1]. Modelin en radikal özelliği, akıl yürütme kapasitesinin doğrudan pekiştirmeli öğrenme (RL) ile — geleneksel denetimli ince ayar (supervised fine-tuning, SFT) aşaması atlanarak — teşvik edilmiş olmasıdır [1]. DeepSeek-R1-Zero adı verilen ara model, yalnızca doğruluk tabanlı ödül sinyalleri (correctness-based reward signals) kullanılarak eğitilmiş; modelin kendi kendine doğrulama, yansıtma (reflection) ve alternatif yaklaşımları keşfetme gibi davranışlar geliştirdiği gözlemlenmiştir [1]. Araştırma ekibi bunu, modelin eğitim sürecinde "aha anları" yaşaması olarak nitelendirmiştir — model, dış yönlendirme olmaksızın karmaşık akıl yürütme stratejileri keşfetmiştir [1].

DeepSeek-R1'in eğitim süreci GRPO (Group Relative Policy Optimization) algoritmasını kullanmaktadır [1][17]. GRPO, geleneksel PPO (Proximal Policy Optimization) algoritmasından farklı olarak eleştirmen model gerektirmez; bunun yerine, bir grup yanıtın birbirine göre kalitesini değerlendirerek politika güncellemesi yapar [17]. Bu yaklaşım, hem hesaplama maliyetini düşürmekte hem de eğitim kararlılığını artırmaktadır [1]. Ödül sinyali, matematiksel problemlerde son cevabın doğruluğuna, programlama problemlerinde birim testlerinin geçilmesine dayalıdır — süreç tabanlı değil, sonuç tabanlı bir doğrulama [1].

DeepSeek-R1, AIME 2024 (Amerikan Davet Matematik Sınavı) kıyaslamasında ortalama %79,8 doğruluk oranına ulaşarak OpenAI o1 ile karşılaştırılabilir performans sergilemiştir [1]. Kodlama, matematik ve bilimsel muhakeme testlerinde kapalı kaynak modellerle rekabet edebilecek düzeyde sonuçlar elde etmiştir [1][15].

Bilgi damıtma (knowledge distillation). DeepSeek-R1'in bir diğer önemli katkısı, büyük akıl yürütme modelinden daha küçük modellere bilgi aktarımıdır. DeepSeek-R1-Distill modelleri, R1'in ürettiği 800.000 sentetik veri örneği üzerinde Llama ve Qwen tabanlı daha küçük modellerin ince ayar yapılmasıyla oluşturulmuştur [1]. Özellikle DeepSeek-R1-Distill-Qwen-32B modeli, kendi boyut sınıfında etkileyici performans sergilemiştir [1]. Bu damıtma yaklaşımı, büyük modellerin bilgisini demokratikleştirmenin pratik bir yolunu sunmaktadır.

4b. Kilit Aktörler ve Katkıları

Liang Wenfeng ve DeepSeek kültürü. DeepSeek'in kurucusu ve CEO'su Liang Wenfeng, yapay zekâ dünyasının alışıldık profillerine uymamaktadır [29]. Silikon Vadisi girişimcisi veya akademisyen değil, Çinli bir hedge fon yöneticisidir. Liang'ın liderlik felsefesi, DeepSeek'in araştırma kültürünü doğrudan şekillendirmiştir: düz hiyerarşi, proje tabanlı çalışma grupları, deneyim yerine yetenek ve tutku odaklı işe alım [29][30]. MLA mekanizması gibi kritik yenilikler, genç araştırmacıların kişisel ilgi alanlarından doğmuştur [31]. Liang'ın "açık kaynak kültürel bir karardır, ticari bir karar değil" [29] ifadesi, şirketin stratejik yönelimini özetlemektedir.

DeepSeek araştırma ekibi. DeepSeek-V3 teknik raporu 200'den fazla yazarın katkısıyla hazırlanmıştır [15]. Ekibin çoğunluğu Çin'in önde gelen üniversitelerinden — Zhejiang, Pekin, Tsinghua — mezun olmuş genç araştırmacılardan oluşmaktadır [31]. Şirket, bilinçli olarak yurtdışı deneyimi şartı koymamış; yerel yeteneği geliştirmeye öncelik vermiştir [29]. Bu yaklaşım, Çin'in yapay zekâ araştırma kapasitesinin yalnızca ABD'den dönen araştırmacılara bağımlı olmadığını gösteren önemli bir sinyaldir.

4c. Dönem İçindeki Yeri: "Sputnik Anı"

DeepSeek-R1'in Ocak 2025'teki lansmanı, birden fazla boyutta şok dalgaları yaratmıştır.

Finansal şok. 27 Ocak 2025, ABD borsalarında tarihi bir gün olmuştur [4]. Nvidia'nın yaklaşık 589 milyar dolarlık tek günlük piyasa değeri kaybı, ABD borsa tarihinin en büyük tek şirket kaybıdır [5]. Broadcom yüzde 17, Marvell Technology yüzde 19, Micron yüzde 11 düşmüştür [6]. Philadelphia Yarı İletken Endeksi yüzde 9,2 gerilemiştir [6]. Bu satış, yatırımcıların yapay zekâ altyapısına yönelik yüzlerce milyar dolarlık yatırım planlarını yeniden sorgulamasından kaynaklanmıştır: eğer DeepSeek düzeyinde bir model 5,6 milyon dolara eğitilebiliyorsa, Meta'nın 65 milyar, Microsoft'un 80 milyar dolarlık yapay zekâ yatırım planlarının gerekçesi neydi [4][6]?

Teknolojik şok. DeepSeek, ABD ihracat kısıtlamalarına rağmen, performansı düşürülmüş H800 çipleriyle sınır düzeyinde modeller geliştirmiştir [2][8]. Bu başarı, iki yerleşik varsayımı sarstı: birincisi, en ileri yapay zekâ modellerinin mutlaka en ileri donanım gerektirdiği; ikincisi, ihracat kısıtlamalarının Çin'in yapay zekâ kapasitesini etkili biçimde sınırlayabileceği varsayımları [8][22]. Stratejik ve Uluslararası Çalışmalar Merkezi (CSIS), piyasa tepkisini Soğuk Savaş döneminin Sputnik şokuyla karşılaştırmıştır [9].

Açık kaynak şoku. DeepSeek-R1'in MIT lisansı altında — en gevşek açık kaynak lisanslarından biri — yayımlanması, akıl yürütme modellerini anında erişilebilir kılmıştır [1]. Berkeley AI Research'ten Jiayi Pan, DeepSeek-R1-Zero'nun akıl yürütme tekniklerini 30 doların altında bir maliyetle yeniden üretebildiğini göstermiştir [10]. Bu, gelişmiş yapay zekâ araştırmalarının demokratikleşmesinde somut bir adımdır.

4d. Genel YZ Tarihindeki Yeri

DeepSeek, yapay zekâ tarihinde birkaç açıdan paradigma değiştirici bir olaydır.

Birincisi, "verimlilik paradigmasını" meşrulaştırmıştır. 2020'lerden beri baskın olan "ölçekleme her şeydir" (scaling is all you need) mantığına karşı, DeepSeek "akıllı ölçekleme" (smart scaling) ve "kısıtlama altında inovasyon" alternatifini somut biçimde kanıtlamıştır [15][36]. MLA, yardımcı kayıp gerektirmeyen yük dengeleme ve GRPO gibi teknikler, ham hesaplama gücünün algoritma zekâsıyla ikame edilebileceğini göstermiştir.

İkincisi, yapay zekânın jeopolitik haritasını yeniden çizmiştir. DeepSeek öncesinde, yapay zekâ yarışı büyük ölçüde ABD merkezli şirketler arasında — OpenAI, Google, Meta, Anthropic — geçiyordu [20]. DeepSeek, Çin'in yalnızca takipçi değil, belirli alanlarda öncü olabileceğini kanıtlamıştır [8][9]. Bu durum, yapay zekâ araştırmalarının çok kutuplu bir yapıya evrildiğinin somut göstergesidir.

Üçüncüsü, açık kaynak ile kapalı kaynak tartışmasını yeniden şekillendirmiştir. DeepSeek'in açık kaynak stratejisi, Meta'nın "açık ağırlıklı" (open-weight) yaklaşımından daha kapsamlıdır: model ağırlıklarının yanı sıra detaylı teknik raporlar ve eğitim metodolojileri de paylaşılmıştır [1][15]. Bu şeffaflık düzeyi, OpenAI ve Google gibi kapalı kaynak aktörlerin araştırma gizliliği politikasına doğrudan meydan okumaktadır.

5. Eleştirel Değerlendirme

Maliyet iddialarının sorgulanması. DeepSeek'in 5,6 milyon dolarlık eğitim maliyeti iddiası, önemli nüanslar içermektedir [4][6]. Bu rakam, yalnızca son eğitim koşusunun (final training run) hesaplama maliyetini kapsamaktadır; önceki model nesilleri (V1, V2) için yapılan araştırma ve geliştirme harcamaları, donanım edinme maliyetleri, personel giderleri ve altyapı yatırımları dahil değildir [6][8]. Bernstein analistleri, gerçek toplam maliyetin çok daha yüksek olduğunu ileri sürmüştür [4]. Ancak karşılaştırmalı perspektiften bakıldığında, DeepSeek'in Llama 3.1'in sekizde biri hesaplama kaynağıyla karşılaştırılabilir performans elde etmesi — maliyet iddiasının kesin tutarı ne olursa olsun — başlı başına kayda değer bir verimlilik başarısıdır [15][35].

Veri kaynakları ve eğitim şeffaflığı. DeepSeek, model ağırlıklarını ve teknik raporlarını paylaşmış olsa da, eğitim verilerinin tam kapsamı ve kaynakları konusunda sınırlı bilgi sunmuştur [15]. Open Source Initiative'in açık kaynak tanımına göre, tam şeffaflık eğitim verilerinin de belgelenmesini gerektirmektedir [38]. Şubat 2026'da Anthropic, DeepSeek'in Claude modelleriyle binlerce sahte hesap üzerinden milyonlarca konuşma üreterek kendi modellerini eğittiğini iddia etmiştir [32] — bu iddia doğrulanırsa, DeepSeek'in açık kaynak idealleri ile eğitim pratiği arasında ciddi bir tutarsızlık ortaya çıkacaktır.

Kıyaslama performansının sınırları. DeepSeek-R1'in matematik ve kodlama kıyaslamalarındaki etkileyici sonuçları, modelin genel yeteneklerinin tam bir göstergesi değildir [15]. İngilizce SimpleQA gibi olgusal bilgi testlerinde model, GPT-4o ve Claude 3.5 Sonnet'in gerisinde kalmıştır [15]. Çince bilgi testlerinde ise rakiplerini geçmiştir — bu durum, eğitim verisinin dil dağılımını yansıtmaktadır [15]. Ayrıca, R1-Zero'nun okunabilirlik sorunları, dil karışması ve aşırı uzun çıktılar üretme eğilimi, saf RL tabanlı eğitimin sınırlarını göstermiştir [1].

Sansür ve ideolojik uyum. DeepSeek'in Çin merkezli bir şirket olması, modelin belirli konularda — Tiananmen Meydanı, Tayvan, Tibet, Uygur meselesi gibi — Çin Komünist Partisi'nin resmi pozisyonuyla uyumlu yanıtlar ürettiği gözlemlenmiştir [32]. Bu durum, "açık kaynak" bir modelin politik olarak ne kadar "açık" olabileceği sorusunu gündeme getirmektedir. Model ağırlıkları açık olduğu için topluluk bu sansürleri kaldırabilir; ancak varsayılan davranışın ideolojik olarak şekillendirilmiş olması, modelin güvenilirliği konusunda soru işaretleri yaratmaktadır.

Bugünden bakıldığında. DeepSeek-R1'in Ocak 2025'teki şoku, zamanla perspektif kazanmıştır. Nvidia'nın hisse fiyatı toparlanmış ve şirket Ekim 2025'te 5 trilyon dolar piyasa değerine ulaşmıştır [39]. ABD teknoloji şirketlerinin yapay zekâ yatırımları yavaşlamamış, aksine hızlanmıştır [39]. DeepSeek ise 2025 boyunca V3-0324, R1-0528 ve V3.1 gibi güncellemeler yayımlamış; ancak hiçbiri Ocak ayındaki piyasa şokunu tekrarlamamıştır [39]. Bu durum, ilk şokun kısmen piyasa aşırı tepkisi olduğunu düşündürmekle birlikte, DeepSeek'in verimlilik paradigmasının kalıcı bir etki bıraktığı tartışmasızdır.

6. Etik ve Toplumsal Boyutlar

Jeopolitik gerilim ve teknoloji milliyetçiliği. DeepSeek olayı, yapay zekâ araştırmalarının jeopolitik çerçevesini dramatik biçimde değiştirmiştir [8][9]. ABD'nin ihracat kısıtlamaları, Çin'in yapay zekâ kapasitesini sınırlama amacı taşıyordu; ancak DeepSeek'in başarısı, bu stratejinin beklenmedik sonuçlar doğurabileceğini göstermiştir [22]. Kısıtlamalar, Çin'i kendi çözümlerini geliştirmeye zorlamış ve bu süreçte ortaya çıkan verimlilik yenilikleri, küresel yapay zekâ araştırma topluluğuna katkıda bulunmuştur [8]. Bu durum, teknoloji politikalarının karmaşık ve öngörülemeyen dinamiklerini somut biçimde ortaya koymaktadır.

Veri gizliliği ve ulusal güvenlik. DeepSeek'in gizlilik politikası, kullanıcı verilerinin Çin'deki sunucularda depolandığını belirtmektedir [32]. Toplanan veriler — cihaz bilgileri, tuş vuruşu kalıpları, IP adresleri, konuşma geçmişleri — Çin'in özel şirketleri ulusal güvenlik amaçlarıyla işbirliğine zorunlu kılan yasal çerçevesi bağlamında ciddi istihbarat toplama endişeleri yaratmıştır [9][32]. Bu kaygılar, birçok hükümet ve kurumun DeepSeek uygulamasını yasaklamasına veya sınırlandırmasına yol açmıştır [32]. Bu durum, açık kaynak modellerin kendiliğinden "güvenli" olmadığını ve açık kaynak ile gizlilik arasındaki gerilimi gözler önüne sermektedir.

Askeri bağlantılar. New York Times'ın raporuna göre, DeepSeek araştırmacılarının düzinelercesi, Halk Kurtuluş Ordusu (PLA) laboratuvarları ve "Ulusal Savunmanın Yedi Oğlu" olarak bilinen savunma odaklı üniversitelerle bağlantılıdır [32]. 2025 yılında PLA'ya bağlı kuruluşlar, en az bir düzine askeri ihalede DeepSeek modellerine atıfta bulunmuştur [33]. Çin savunma devi Norinco, Şubat 2025'te DeepSeek destekli otonom muharebe destek aracı tanıtmıştır [33]. Bu bağlantılar, açık kaynak yapay zekâ modellerinin ikili kullanım (dual-use) riskini somutlaştırmaktadır.

Yapay zekâ demokratikleşmesi ve eşitsizlik. DeepSeek'in verimlilik başarısı, yapay zekâ araştırmalarının mutlaka milyarlarca dolar gerektirmediğini göstererek, daha küçük araştırma gruplarına ve gelişmekte olan ülkelere umut vermiştir [10]. Özellikle damıtma modelleri aracılığıyla, gelişmiş akıl yürütme yeteneklerinin 1,5 milyar parametrelik modellere bile aktarılabilmesi, hesaplama eşiğini önemli ölçüde düşürmüştür [1]. Ancak bu demokratikleştirici potansiyel, veri gizliliği kaygıları ve askeri bağlantı endişeleriyle gölgelenmektedir.

Emek ve araştırma kültürü. DeepSeek'in genç, yerel yeteneklere dayalı araştırma modeli, yapay zekâ araştırmalarında alternatif bir kurumsal yapının mümkün olduğunu göstermiştir [29][31]. Düz hiyerarşi, proje tabanlı çalışma ve "tutkudan doğan inovasyon" vurgusu, büyük teknoloji şirketlerinin bürokratik yapılarına bir alternatif sunmaktadır. Ancak bu modelin uzun vadeli sürdürülebilirliği ve çalışanların koşulları hakkında bağımsız değerlendirmeler sınırlıdır.

7. Güncel Uygulamalar ve Miras

Verimlilik paradigmasının yaygınlaşması. DeepSeek'in başarısı, yapay zekâ araştırma topluluğunda "daha az hesaplamayla daha fazla performans" yaklaşımını meşrulaştırmıştır. MLA mekanizması, yardımcı kayıp gerektirmeyen yük dengeleme ve FP8 eğitimi gibi teknikler, sonraki model geliştirme çalışmalarında yaygın biçimde benimsenmeye başlamıştır [14][15]. DeepSeek'in "zorunluluktan doğan verimlilik" başarısı, kaynak kısıtlı ortamlarda yapay zekâ araştırmasının potansiyelini gösteren bir emsal olmuştur.

Akıl yürütme modellerinin demokratikleşmesi. DeepSeek-R1 öncesinde, gelişmiş akıl yürütme yeteneklerine sahip modeller (OpenAI o1 gibi) yalnızca kapalı API'lar aracılığıyla erişilebilirdi [24]. R1'in açık kaynak olarak yayımlanması, akıl yürütme modellerinin araştırılması, özelleştirilmesi ve geliştirilmesini herkes için mümkün kılmıştır [1]. GRPO algoritması ve damıtma teknikleri, sonraki araştırmalarda yaygın biçimde kullanılmaya başlanmıştır [17].

Jeopolitik miras. DeepSeek, ABD'nin Çin'e yönelik yapay zekâ çip politikalarını doğrudan etkilemiştir. Nisan 2025'te ABD hükümeti, Nvidia'nın H20 çipinin ihracatı için lisans zorunluluğu getirmiş; Nvidia 4,5 milyar dolarlık stok zararı kaydetmiştir [33]. Ocak 2026'da Trump yönetimi, şaşırtıcı biçimde H200 — H800'den daha güçlü bir çip — satışını koşullu olarak onaylamıştır [33]. Bu politika dalgalanmaları, DeepSeek'in yarattığı stratejik belirsizliğin doğrudan yansımalarıdır.

Piyasa dinamiklerinin yeniden kalibrasyonu. DeepSeek şoku, yapay zekâ yatırım değerlemelerinin yeniden kalibre edilmesine yol açmıştır [4][6]. "Yapay zekâ altyapısına sınırsız yatırım" söylemi, verimlilik kaygılarıyla dengelenmeye başlamıştır. Ancak 2025 yılı boyunca ABD teknoloji şirketlerinin yapay zekâ harcamalarının yavaşlamaması, piyasa şokunun kalıcı bir yatırım daralmasına yol açmadığını göstermektedir [39].

Akademik miras. DeepSeek'in teknik raporları — özellikle V3 ve R1 raporları — mimari tasarım, eğitim verimliliği, pekiştirmeli öğrenme ve bilgi damıtma konularında kapsamlı ve detaylı belgeleme sunarak, araştırma topluluğuna değerli referans kaynakları sağlamıştır [1][15]. GRPO algoritması, sonraki RL araştırmalarında temel bir referans noktası haline gelmiştir [17].

8. Bölüm Özeti

Bu bölümde, DeepSeek'in yapay zekâ tarihindeki yerini — teknik yeniliklerinden küresel finansal etkisine, jeopolitik sonuçlarından etik sorunlarına kadar — çok boyutlu bir perspektiften analiz ettik. DeepSeek-V3, MLA ve yardımcı kayıp gerektirmeyen yük dengeleme gibi mimari yeniliklerle, 671 milyar parametrelik bir MoE modelini yalnızca 2.048 GPU ve 5,6 milyon dolar maliyetle eğiterek, verimlilik paradigmasını somutlaştırmıştır [15]. DeepSeek-R1, GRPO algoritmasıyla pekiştirmeli öğrenmeyi akıl yürütme yeteneklerinin teşvikinde kullanarak, modellerin dış yönlendirme olmaksızın karmaşık muhakeme stratejileri geliştirebildiğini göstermiştir [1].

DeepSeek'in Ocak 2025'teki lansmanı, yapay zekâ tarihinin en çok boyutlu krizlerinden birini tetiklemiştir: Nvidia'nın tek günde 589 milyar dolar piyasa değeri kaybetmesi [5], ABD ihracat kısıtlamalarının etkinliğinin sorgulanması [8][22], yapay zekâ yatırım değerlemelerinin yeniden kalibrasyonu [6] ve açık kaynak ile jeopolitik gerilim arasındaki karmaşık dinamiklerin su yüzüne çıkması [9][32].

Kitabımızın genel argümanı açısından, DeepSeek olayı birkaç temel temayı yeniden doğrulamaktadır. Birincisi, yapay zekâ tarihinin tekrarlayan bir kalıbını — kısıtlamalardan doğan inovasyon — somutlaştırmaktadır; tıpkı ikinci yapay zekâ kışında sınırlı kaynaklarla çalışan araştırmacıların alternatif paradigmalar geliştirmesi gibi, DeepSeek de çip kısıtlamalarından verimlilik yenilikleri çıkarmıştır. İkincisi, teknolojik ilerlemenin asla teknik boyutundan ayrı değerlendirilemeyeceğini, jeopolitik, etik ve toplumsal bağlamların araştırma yönelimini doğrudan şekillendirdiğini göstermektedir. Üçüncüsü, yapay zekânın küresel güç dengelerini yeniden biçimlendirme potansiyelinin artık teorik değil, somut ve acil olduğunu kanıtlamıştır.


9. Kaynakça

1. DeepSeek-AI. (2025a). DeepSeek-R1: Incentivizing reasoning capability in LLMs via reinforcement learning. arXiv preprint arXiv:2501.12948.

2. CBS News. (2025, 28 Ocak). What is DeepSeek, and why is it causing Nvidia and other stocks to slump? CBS News. https://www.cbsnews.com/news/what-is-deepseek-ai-china-stock-nvidia-nvda-asml/

3. Wikipedia. (2026). DeepSeek. Wikipedia. https://en.wikipedia.org/wiki/DeepSeek

4. CNBC. (2025, 27 Ocak). Nvidia drops nearly 17% as China's cheaper AI model DeepSeek sparks global tech sell-off. CNBC. https://www.cnbc.com/2025/01/27/nvidia-falls-10percent-in-premarket-trading-as-chinas-deepseek-triggers-global-tech-sell-off.html

5. Bloomberg. (2025, 27 Ocak). Nvidia's $589 billion DeepSeek plunge is largest in market history. Bloomberg.

6. CNN Business. (2025, 27 Ocak). A shocking Chinese AI advancement called DeepSeek is sending US stocks plunging. CNN. https://www.cnn.com/2025/01/27/tech/deepseek-stocks-ai-china

7. Fortune. (2025, 21 Şubat). Jensen Huang says investors got it wrong over DeepSeek stock selloff. Fortune. https://fortune.com/2025/02/21/jensen-huang-deepseek-stock-sell-nvidia-value/

8. The Soufan Center. (2025, 6 Şubat). The geopolitics of DeepSeek: Narratives, perception, and the AI race. The Soufan Center IntelBrief. https://thesoufancenter.org/intelbrief-2025-february-6/

9. Center for Strategic and International Studies. (2025). DeepSeek and the "Sputnik Moment" for American AI. CSIS Reports.

10. BentoML. (2025). The complete guide to DeepSeek models: V3, R1, V3.1, V3.2 and beyond. BentoML Blog. https://www.bentoml.com/blog/the-complete-guide-to-deepseek-models-from-v3-to-r1-and-beyond

11. Jacobs, R. A., Jordan, M. I., Nowlan, S. J., & Hinton, G. E. (1991). Adaptive mixtures of local experts. Neural Computation, 3(1), 79–87.

12. Shazeer, N., Mirhoseini, A., Maziarz, K., Davis, A., Le, Q., Hinton, G., & Dean, J. (2017). Outrageously large neural networks: The sparsely-gated mixture-of-experts layer. International Conference on Learning Representations (ICLR).

13. Fedus, W., Zoph, B., & Shazeer, N. (2022). Switch Transformers: Scaling to trillion parameter models with simple and efficient sparsity. Journal of Machine Learning Research, 23(120), 1–39.

14. DeepSeek-AI. (2024). DeepSeek-V2: A strong, economical, and efficient mixture-of-experts language model. arXiv preprint arXiv:2405.04434.

15. DeepSeek-AI. (2025b). DeepSeek-V3 technical report. arXiv preprint arXiv:2412.19437.

16. Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C. L., Mishkin, P., ... & Lowe, R. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35, 27730–27744.

17. Shao, Z., Wang, P., Zhu, Q., Xu, R., Song, J., Zhang, M., ... & Guo, D. (2024). DeepSeekMath: Pushing the limits of mathematical reasoning in open language models. arXiv preprint arXiv:2402.03300.

18. Kaplan, J., McCandlish, S., Henighan, T., Brown, T. B., Chess, B., Child, R., ... & Amodei, D. (2020). Scaling laws for neural language models. arXiv preprint arXiv:2001.08361.

19. Hoffmann, J., Borgeaud, S., Mensch, A., Buchatskaya, E., Cai, T., Rutherford, E., ... & Sifre, L. (2022). Training compute-optimal large language models. Advances in Neural Information Processing Systems, 35, 30016–30030.

20. Lee, K.-F. (2018). AI Superpowers: China, Silicon Valley, and the New World Order. Houghton Mifflin Harcourt.

21. Allen, G. C. (2019). Understanding China's AI strategy: Clues to Chinese strategic thinking on artificial intelligence and national security. Center for a New American Security (CNAS) Report.

22. Miller, C. (2022). Chip War: The Fight for the World's Most Critical Technology. Scribner.

23. The Conversation. (2025). DeepSeek shatters beliefs about the cost of AI, leaving US tech giants reeling. The Conversation. https://theconversation.com/deepseek-shatters-beliefs-about-the-cost-of-ai-leaving-us-tech-giants-reeling-248424

24. OpenAI. (2024). Learning to reason with LLMs. OpenAI Blog. https://openai.com/index/learning-to-reason-with-llms/

25. Wei, J., Wang, X., Schuurmans, D., Bosma, M., Ichter, B., Xia, F., Chi, E., Le, Q., & Zhou, D. (2022). Chain-of-thought prompting elicits reasoning in large language models. Advances in Neural Information Processing Systems, 35, 24824–24837.

26. Safaya, A., Kurtulus, E., & Gokcen, A. (2022). Mukayese: Turkish NLP strikes back. Findings of the Association for Computational Linguistics: ACL 2022, 846–857.

27. State Council of the People's Republic of China. (2017). New generation artificial intelligence development plan (新一代人工智能发展规划). State Council Document No. 35.

28. Ding, J., & Dafoe, A. (2021). Engines of power: Electricity, AI, and general-purpose military transformations. Journal of Strategic Studies, 44(2), 222–253.

29. Fortune. (2025, 27 Ocak). Meet DeepSeek founder Liang Wenfeng, a hedge fund manager. Fortune. https://fortune.com/2025/01/27/deepseek-founder-liang-wenfeng-hedge-fund-manager-high-flyer-quant-trading/

30. ChinaTalk. (2024, 9 Aralık). DeepSeek: From hedge fund to frontier model maker. ChinaTalk. https://www.chinatalk.media/p/deepseek-from-hedge-fund-to-frontier

31. Wikipedia. (2026). Liang Wenfeng. Wikipedia. https://en.wikipedia.org/wiki/Liang_Wenfeng

32. Wikipedia. (2026). DeepSeek [Güncellenmiş sürüm]. Wikipedia. https://en.wikipedia.org/wiki/DeepSeek

33. Fintool News. (2026, 29 Ocak). Congress accuses Nvidia of helping DeepSeek build AI now used by China's military. Fintool News. https://fintool.com/news/nvidia-deepseek-congress-china-military

34. Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., ... & Amodei, D. (2020). Language models are few-shot learners. Advances in Neural Information Processing Systems, 33, 1877–1901.

35. Grattafiori, A., Dubey, A., Jauhri, A., Pandey, A., Kadian, A., Al-Dahle, A., ... & diğerleri. (2024). The Llama 3 herd of models. arXiv preprint arXiv:2407.21783.

36. Schwartz, R., Dodge, J., Smith, N. A., & Etzioni, O. (2020). Green AI. Communications of the ACM, 63(12), 54–63.

37. Strubell, E., Ganesh, A., & McCallum, A. (2019). Energy and policy considerations for deep learning in NLP. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics (ACL), 3645–3650.

38. Open Source Initiative. (2024). The open source AI definition. https://opensource.org/deepdive/drafts/the-open-source-ai-definition-draft-v-0-0-8

39. CNBC. (2026, 6 Ocak). Why DeepSeek didn't cause an investor frenzy again in 2025. CNBC. https://www.cnbc.com/2026/01/06/why-deepseek-didnt-cause-an-investor-frenzy-again-in-2025.html

40. Bender, E. M., Gebru, T., McMillan-Major, A., & Shmitchell, S. (2021). On the dangers of stochastic parrots: Can language models be too big? Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency (FAccT), 610–623.

41. Raschka, S. (2025, 3 Aralık). A technical tour of the DeepSeek models from V3 to V3.2. Sebastian Raschka's AI Magazine. https://magazine.sebastianraschka.com/p/technical-deepseek


10. Tartışma Soruları

1. Analitik: DeepSeek-V3'ün 2.048 GPU ile, Llama 3.1'in 16.000 GPU ile karşılaştırılabilir performans elde etmesi [15][35], yapay zekâ araştırmalarında "ham hesaplama gücü" ile "algoritma verimliliği" arasındaki dengeye ilişkin ne söylemektedir? Bu bulgu, gelecekteki araştırma önceliklerini nasıl yeniden şekillendirebilir?

2. Karşılaştırmalı: DeepSeek-R1'in GRPO tabanlı pekiştirmeli öğrenme yaklaşımı ile OpenAI'ın InstructGPT/RLHF yaklaşımını karşılaştırınız. Her iki yöntemin avantajları, dezavantajları ve uygun kullanım senaryoları nelerdir? [1][16]

3. Spekülatif: ABD ihracat kısıtlamaları uygulanmamış olsaydı ve DeepSeek en ileri Nvidia H100 GPU'lara erişebilseydi, verimlilik odaklı MLA ve yardımcı kayıp gerektirmeyen yük dengeleme gibi yenilikler yine de geliştirilir miydi? "Zorunluluktan doğan inovasyon" paradigması, yapay zekâ araştırmalarında ne ölçüde genellenebilir? [8][22]

4. Etik: DeepSeek'in kullanıcı verilerini Çin'deki sunucularda depolaması ve Çin'in ulusal güvenlik yasaları bağlamında bu verilere devlet erişimi riski [32], açık kaynak yapay zekâ modellerinin güvenilirliği konusunda ne söylemektedir? "Açık model" ile "güvenli model" arasındaki fark nasıl tanımlanmalıdır?

5. Güncel: DeepSeek araştırmacılarının askeri laboratuvarlarla bağlantıları ve PLA ihalelerinde DeepSeek modellerine atıfta bulunulması [32][33], açık kaynak yapay zekâ modellerinin ikili kullanım (dual-use) riskini nasıl somutlaştırmaktadır? Bu risklere karşı hangi politika araçları etkili olabilir?

6. Analitik: DeepSeek-R1-Zero'nun dış yönlendirme olmaksızın doğrulama ve yansıtma davranışları geliştirmesi ("aha anları") [1], yapay zekâ sistemlerinin "ortaya çıkan davranışlar" (emergent behaviors) sergilemeleri konusundaki tartışmaya nasıl bir katkıda bulunmaktadır?

7. Karşılaştırmalı: Meta'nın Llama serisinin "açık ağırlıklı" (open-weight) stratejisi ile DeepSeek'in MIT lisansı altında model ve teknik raporlarını paylaşma stratejisini karşılaştırınız [35][1]. Yapay zekâ araştırmalarında "açıklık" kavramının farklı düzeyleri — ağırlık açıklığı, veri açıklığı, metodoloji açıklığı — nelerdir ve hangisi daha önemlidir?

8. Etik: DeepSeek'in 5,6 milyon dolarlık maliyet iddiası, büyük ölçüde önceki model nesillerinin araştırma ve geliştirme maliyetlerini hariç tutmaktadır [6][8]. Yapay zekâ şirketlerinin maliyet raporlama pratiklerinde şeffaflık standartları nasıl oluşturulabilir? Bu konuda endüstri genelinde bir norm geliştirmek mümkün müdür?

9. Spekülatif: DeepSeek'in verimlilik paradigmasının yaygınlaşması, uzun vadede yapay zekâ araştırmalarının daha az sayıda büyük şirketin tekelinde olmasını engelleyebilir mi? Yoksa büyük şirketler, verimlilik tekniklerini kendi devasa kaynaklarıyla birleştirerek avantajlarını daha da artırabilir mi?

10. Güncel: Anthropic'in Şubat 2026'da DeepSeek'in Claude modelleriyle sahte hesaplar üzerinden eğitim verisi topladığı iddiası [32], yapay zekâ şirketleri arasındaki rekabetin etik sınırlarına ilişkin ne söylemektedir? Büyük dil modellerinin eğitim verisi tedarik zincirinde "adil kullanım" kavramı nasıl tanımlanmalıdır?