Bölüm 18 1959Yapay Zekanın Doğuşu

Arthur Samuel ve Makine Öğrenmesinin Doğuşu

Samuel'in dama programının devrimci mirası ve makine öğrenmesi paradigmasının doğuşu.

Arthur Samuel makine öğrenmesi dama kendi kendine öğrenme IBM 704
Önemli isimler: Arthur Samuel

1. Giriş

1959 yılının Temmuz ayında, IBM Araştırma ve Geliştirme Dergisi'nde (IBM Journal of Research and Development) yayımlanan on dokuz sayfalık bir makale, bilgisayar biliminin sözlüğüne yeni bir terim kazandırdı: "makine öğrenmesi" (machine learning) [1]. Makalenin yazarı Arthur Lee Samuel, elli yedi yaşında bir elektrik mühendisi ve IBM araştırmacısıydı; konusu ise bilgisayarlara dama oynamayı öğretmekti. Başlık sıradan görünebilirdi — "Some Studies in Machine Learning Using the Game of Checkers" — ancak bu çalışma, yapay zeka tarihinin en etkili paradigma değişimlerinden birinin temelini atacaktı [1]. Samuel'in makalesi, bir bilgisayarın açıkça programlanmadan, yalnızca deneyimden öğrenerek programcısından daha iyi performans gösterebileceğini deneysel olarak kanıtlıyordu [2]. Bu iddia, dönemin baskın yapay zeka yaklaşımı olan sembolik programlama anlayışına — bir önceki bölümde incelediğimiz LISP'in temsil ettiği "bilgiyi açıkça kodla ve mantıksal olarak işle" paradigmasına — köklü bir alternatif sunuyordu.

Samuel'in çalışmasını anlamak için 1950'lerin entelektüel iklimini kavramak gerekmektedir. 1956 Dartmouth Konferansı, yapay zeka alanını kurmuş ve sembolik akıl yürütme ile problem çözmeyi merkeze yerleştirmişti [3]. Newell ve Simon'ın Logic Theorist'i teorem kanıtlıyor, McCarthy'nin LISP'i sembolik ifadeleri işliyordu [4]. Bu yaklaşımların ortak noktası, insan bilgisini açık kurallar biçiminde makinelere aktarmaktı. Samuel ise tamamen farklı bir soru soruyordu: "Ya makine, bilgiyi biz kodlamadan kendi deneyiminden öğrenebilirse?" [1]. Bu soru, yapay zeka tarihindeki en temel gerilimlerden birini — sembolik zeka ile öğrenen zeka arasındaki gerilimi — ilk kez somut biçimde gündeme getiriyordu.

Samuel'in IBM'deki dama programı, yalnızca akademik bir egzersiz değildi. Program 1956'da televizyonda canlı olarak gösterilmiş ve Amerikan kamuoyunda büyük ilgi uyandırmıştı [5]. IBM'in hisse senetlerinin bir gecede on beş puan yükselmesine neden olan bu gösteri, yapay zekanın ilk büyük halkla ilişkiler başarılarından biriydi [6]. Ancak gösterinin ardındaki teknik yenilikler — bugün alfa-beta budama (alpha-beta pruning), zamansal fark öğrenmesi (temporal-difference learning) ve kendi kendine oyun (self-play) olarak adlandırdığımız teknikler — çok daha derin bir mirasa sahipti [7]. Bu teknikler, 1990'larda Tesauro'nun TD-Gammon'ını, 2010'larda DeepMind'ın AlphaGo'sunu ve günümüzün pekiştirmeli öğrenme (reinforcement learning) devrimini doğrudan besleyecekti [8].

Bu bölümde, Arthur Samuel'in yaşam öyküsünü, dama programının teknik mekanizmalarını, "makine öğrenmesi" kavramının doğuşunu, bu çalışmanın dönemindeki ve sonrasındaki etkisini, eleştirel değerlendirmesini ve günümüze uzanan mirasını kapsamlı biçimde ele alacağız. Bir önceki bölümde incelediğimiz LISP, yapay zekanın "düşünce dili"ni oluşturmuştu; bu bölümde ele alacağımız Samuel'in çalışması ise makinelerin "deneyimden öğrenme" yolunu açacak ve yapay zeka tarihindeki iki büyük paradigma — sembolik ve öğrenme tabanlı yaklaşımlar — arasındaki diyalektiğin ilk perdesini kuracaktır.

2. Literatür Taraması

Arthur Samuel'in makine öğrenmesi çalışmalarına ilişkin akademik literatür, birincil teknik kaynaklar, tarihsel analizler ve modern yeniden yorumlamalar olmak üzere birkaç katmanda incelenebilir.

En temel birincil kaynak, Samuel'in 1959 tarihli "Some Studies in Machine Learning Using the Game of Checkers" makalesidir [1]. Bu makale, iki farklı öğrenme prosedürünü — ezbere öğrenme (rote learning) ve genelleme yoluyla öğrenme (learning by generalization) — ayrıntılı biçimde tanımlamakta ve bir bilgisayarın programcısından daha iyi dama oynayabildiğini deneysel olarak göstermektedir. Samuel'in 1967 tarihli ikinci makalesi, "Some Studies in Machine Learning Using the Game of Checkers. II — Recent Progress," alfa-beta budama tekniğinin tam uygulamasını, imza tabloları (signature tables) adlı yeni bir değer fonksiyonu temsil yöntemini ve "kitap öğrenme" (book learning) adını verdiği denetimli öğrenme tekniğini tanıtmıştır [9]. Bu iki makale birlikte, makine öğrenmesi alanının kurucu metinleri olarak kabul edilmektedir.

Feigenbaum ve Feldman'ın (1963) derlemesi Computers and Thought, Samuel'in 1959 makalesini yeniden yayımlayarak onu yapay zekanın "klasik metinleri" arasına yerleştirmiştir [10]. Bu derleme, erken dönem yapay zeka araştırmalarının en etkili antolojilerinden biri olarak, Samuel'in çalışmasının geniş bir akademik kitleye ulaşmasını sağlamıştır.

Richard Sutton ve Andrew Barto'nun (2018) Reinforcement Learning: An Introduction kitabı, Samuel'in çalışmasını pekiştirmeli öğrenme tarihinin kilit noktalarından biri olarak ele almıştır [7]. Sutton ve Barto, Samuel'in genelleme yoluyla öğrenme yönteminin modern zamansal fark öğrenmesi (temporal-difference learning) ile kavramsal olarak aynı olduğunu göstermiş ve Samuel'in yönteminin hem güçlü yanlarını hem de eksiklerini — özellikle açık ödül sinyali (reward signal) bulunmamasını — analiz etmiştir [7]. Bu analiz, Samuel'in çalışmasını modern pekiştirmeli öğrenme kuramı çerçevesinde yeniden değerlendiren en kapsamlı akademik çalışmadır.

Shannon'ın (1950) "Programming a Computer for Playing Chess" makalesi, Samuel'in çalışmasının doğrudan entelektüel öncülüdür [11]. Shannon, bir oyun oynayan bilgisayar programının minimax stratejisi, değerlendirme fonksiyonu ve arama ağacı budama gibi temel bileşenlerini tanımlamış ve Samuel bu çerçeveyi dama oyununa uyarlamıştır [1]. Turing'in (1950) "Computing Machinery and Intelligence" makalesi ise "öğrenme makinesi" kavramını felsefi düzeyde tartışmış ve makinelerin deneyimden öğrenme kapasitesinin yapay zekanın anahtarı olabileceğini öne sürmüştür [12].

Nilsson'ın (2010) The Quest for Artificial Intelligence eseri, Samuel'in çalışmasını erken dönem yapay zeka araştırmaları bağlamında konumlandırmış ve dama programının hem teknik hem de kültürel etkisini değerlendirmiştir [13]. McCorduck'ın (2004) Machines Who Think kitabı, Samuel'in IBM'deki çalışma koşullarını ve programın televizyon gösterisinin kamuoyu üzerindeki etkisini aktarmıştır [14]. Crevier'in (1993) AI: The Tumultuous History of the Search for Artificial Intelligence eseri ise Samuel'in çalışmasını yapay zekanın "altın çağı" bağlamında ele almış ve programın gerçek gücü ile medyada yarattığı abartılı beklentiler arasındaki uçurumu tartışmıştır [15].

Schaeffer ve Lake'in (1996) "Solving the Game of Checkers" çalışması, Samuel'in mirasını doğrudan devam ettiren bir araştırma olarak, dama oyununun hesaplama karmaşıklığını analiz etmiş ve 1962'deki Robert Nealey yenilgisinin medyada nasıl abartıldığını belgelemiştir [16]. Schaeffer'in (2009) One Jump Ahead kitabı, Chinook programının hikayesini anlatırken Samuel'in öncü çalışmasına kapsamlı bir tarihsel bağlam sunmuştur [17].

Tesauro'nun (1995) "Temporal Difference Learning and TD-Gammon" makalesi, Samuel'in zamansal fark öğrenme yöntemini sinir ağlarıyla birleştirerek tavla oyununda dünya şampiyonu düzeyinde performans elde etmiş ve Samuel'in vizyonunun otuz beş yıl sonra nasıl somutlaştığını göstermiştir [18]. Silver ve arkadaşlarının (2016, 2017) AlphaGo çalışmaları, Samuel'in kendi kendine oyun (self-play) tekniğini derin öğrenme ile birleştirerek Go oyununda insanüstü performansa ulaşmış ve Samuel'in temel fikirlerinin güncelliğini kanıtlamıştır [19].

Wiederhold, McCarthy ve Feigenbaum'ın (1990) Samuel için yazdığı anma yazısı, onun kişisel ve akademik yaşamını birincil elden aktarmakta ve Stanford'daki son yıllarını belgelemektedir [6]. Fürnkranz'ın (2000) "Machine Learning in Games: A Survey" çalışması, Samuel'den günümüze oyun oynayan yapay zeka sistemlerinin evrimini kapsamlı biçimde taramıştır [20]. Russell ve Norvig'in (2021) Artificial Intelligence: A Modern Approach ders kitabı, Samuel'in çalışmasını modern yapay zeka müfredatı bağlamında ele almış ve makine öğrenmesinin sembolik yaklaşıma alternatif olarak nasıl şekillendiğini tartışmıştır [21]. Türkçe literatürde, Nabiyev'in (2021) Yapay Zeka ders kitabı, makine öğrenmesinin tarihçesini ve Samuel'in katkılarını Türk okuyucuya tanıtmıştır [22].

3. Tarihsel ve Teorik Arka Plan

Entelektüel Soy Ağacı: Oyunlardan Öğrenmeye. Makinelerin oyun oynama fikri, yapay zekanın en eski ilham kaynaklarından biridir. On sekizinci yüzyılda Wolfgang von Kempelen'in "Mekanik Türk" adlı satranç oynayan otomatı (aslında içinde gizlenen bir insan satranç ustası tarafından kontrol ediliyordu), makinelerin entelektüel görevleri yerine getirebileceği hayalini popüler kültüre taşımıştı [14]. Ancak gerçek anlamda bilgisayarla oyun oynama fikri, Claude Shannon'ın 1950 tarihli satranç makalesine dayanmaktadır [11]. Shannon, bir bilgisayar satranç programının temel bileşenlerini tanımlamıştı: olası hamlelerin ağaç yapısında temsili (game tree), minimax stratejisi (her oyuncunun en iyi hamleyi seçeceği varsayımı) ve ağacın belirli bir derinlikte kesilip bir değerlendirme fonksiyonuyla (evaluation function) puanlanması [11]. Samuel, bu çerçeveyi doğrudan benimsemiş ve dama oyununa uyarlamıştır [1].

Alan Turing'in katkısı farklı bir düzlemde gerçekleşmişti. Turing (1950), "öğrenme makinesi" kavramını tartışarak, bir makinenin zeki davranışa ulaşmasının en etkili yolunun onu açıkça programlamak değil, öğrenme kapasitesiyle donatmak olduğunu öne sürmüştü [12]. Turing, bir çocuğun zihnini taklit ederek eğitim yoluyla gelişen bir makine hayal etmişti. Samuel'in çalışması, Turing'in bu vizyonunun ilk somut uygulamalarından biri olarak değerlendirilebilir — bir dama programı, deneyimden öğrenerek kendi performansını artırıyordu [7].

Bir diğer önemli entelektüel kaynak, Norbert Wiener'in sibernetik kuramıdır. Wiener (1948), geri besleme (feedback) mekanizmalarının hem biyolojik hem de mekanik sistemlerde öğrenme ve uyumun temelini oluşturduğunu savunmuştu [23]. Samuel'in programı, tam da bu ilkeyi somutlaştırıyordu: program, oyun sonuçlarından geri bildirim alarak değerlendirme fonksiyonunu güncelliyordu [1]. Wiener, God & Golem, Inc. (1964) adlı kitabında Samuel'in dama programını "öğrenen makine" kavramının en somut kanıtlarından biri olarak doğrudan tartışmıştır [24].

Donald Hebb'in (1949) The Organization of Behavior eseri, sinir hücreleri arasındaki bağlantıların deneyimle güçlendiğini öne süren "Hebb kuralı"nı tanıtmış ve bu kuram, biyolojik öğrenmenin hesaplamalı modelleri için temel bir çerçeve oluşturmuştu [25]. Samuel'in çalışması doğrudan nörobilimden beslenmiyordu; ancak Hebb'in "deneyimle değişen bağlantılar" fikri ile Samuel'in "deneyimle güncellenen ağırlıklar" arasındaki kavramsal paralellik dikkat çekicidir [7].

Dönemin Teknolojik Altyapısı. Samuel, dama programını ilk olarak 1952'de IBM 701 bilgisayarında geliştirmiştir [5]. IBM 701, şirketin ilk ticari bilgisayarıydı ve manyetik tüp bellek (Williams tube) kullanan, vakum tüplü bir makineydi. Bellek kapasitesi son derece sınırlıydı — yalnızca 2.048 kelime (her biri 36 bit) [26]. Bu kısıtlama, Samuel'in programlama yaklaşımını doğrudan şekillendirmiştir: program, tüm olası hamle dizilerini araştıramayacağı için akıllı budama ve değerlendirme stratejileri geliştirmek zorundaydı [1]. Samuel, daha sonra IBM 704 ve IBM 7090 makinelerine geçiş yaparak programını geliştirmeye devam etmiştir [9].

Kurumsal Bağlam: IBM'de Araştırma. Samuel, 1949'da IBM'in Poughkeepsie, New York'taki araştırma laboratuvarına katılmıştı [5]. IBM, o dönemde ticari bilgisayar pazarına yeni giren bir şirketti ve Samuel'in dama programı, bilgisayarların yalnızca sayısal hesaplama yapan makineler olmadığını, "düşünebilen" ve "öğrenebilen" sistemler olabileceğini göstermek için stratejik bir vitrin işlevi görmüştür [6]. IBM, bu tür gösterileri kurumsal itibarını güçlendirmek ve bilgisayar teknolojisine olan kamusal güveni artırmak için bilinçli olarak kullanmıştır [14].

Rekabet Eden Yaklaşımlar. Samuel'in çalışması, 1950'lerin yapay zeka araştırmalarında ikincil bir konumdaydı. Dönemin baskın paradigması, Newell ve Simon'ın (1956) Logic Theorist'i ve ardından General Problem Solver (GPS) ile temsil edilen sembolik problem çözmeydi [4]. McCarthy, Minsky ve diğer MIT araştırmacıları, bilgiyi açık sembolik kurallar biçiminde temsil etmeyi ve mantıksal çıkarım yoluyla işlemeyi savunuyorlardı [3]. Samuel'in "veriden öğrenme" yaklaşımı, bu ana akıma karşı bir alternatif oluşturuyordu; ancak döneminde sembolik yaklaşım kadar ilgi görmedi [15]. Bu dengesizlik, yapay zeka tarihinin erken dönemindeki en önemli yönelim kararlarından birini yansıtmaktadır.

4. Ana Konu Analizi

4a. Temel Mekanizma: Samuel'in Dama Programı

Samuel'in dama programı, birbirine bağlı birkaç temel mekanizma üzerine inşa edilmiştir. Bu mekanizmaları ayrıntılı biçimde incelemek, modern makine öğrenmesinin kökenlerini anlamak açısından büyük önem taşımaktadır.

Oyun Ağacı ve Minimax Araması. Programın temel çalışma prensibi, Shannon'ın (1950) tanımladığı minimax stratejisine dayanmaktadır [11]. Program, mevcut tahta konumundan başlayarak olası hamlelerin bir ağaç yapısını oluşturur; bu ağaçta her düğüm bir tahta pozisyonunu, her dal ise bir hamleyi temsil eder [1]. Minimax algoritması, programın (maksimize eden oyuncu) en yüksek puanlı hamleyi seçeceğini ve rakibin (minimize eden oyuncu) en düşük puanlı hamleyi seçeceğini varsayarak, ağacı geriye doğru değerlendirir [1]. Ancak dama oyununda olası pozisyonların sayısı astronomik boyutlardadır (yaklaşık 5 × 10²⁰), bu nedenle ağacın tamamını araştırmak imkansızdır [17]. Samuel, bu sorunu iki yolla çözmüştür: arama derinliğini sınırlayarak ve bir değerlendirme fonksiyonu kullanarak [1].

Değerlendirme Fonksiyonu (Scoring Polynomial). Samuel, arama ağacının uç noktalarındaki tahta pozisyonlarını puanlamak için doğrusal bir değerlendirme fonksiyonu kullanmıştır [1]. Bu fonksiyon, tahta üzerindeki çeşitli özelliklerin — taş avantajı, merkez kontrolü, ilerleme, hareketlilik gibi parametrelerin — ağırlıklı toplamından oluşuyordu [7]. Matematiksel olarak:

V(s) = w₁f₁(s) + w₂f₂(s) + ... + wₙfₙ(s)

Burada V(s) bir tahta pozisyonunun değeri, fᵢ(s) pozisyonun belirli özelliklerini ölçen fonksiyonlar ve wᵢ bu özelliklerin ağırlıklarıdır [1]. Programın "öğrenmesi," esasen bu ağırlıkların deneyim yoluyla güncellenmesini ifade ediyordu. Samuel, başlangıçta yaklaşık otuz sekiz farklı özellik tanımlamış ve programın hangilerinin en etkili olduğunu keşfetmesine izin vermiştir [1].

Alfa-Beta Budama. IBM 701'in sınırlı bellek kapasitesi, Samuel'i arama ağacını verimli biçimde budamaya zorunlu kılmıştır [5]. Samuel, bugün alfa-beta budama olarak bilinen tekniğin erken bir versiyonunu geliştirmiştir [9]. Bu teknik, minimax aramasında kesin olarak sonucu etkilemeyecek dalları erkenden keserek arama alanını önemli ölçüde daraltır [15]. Alfa-beta budama, bağımsız olarak birçok araştırmacı tarafından — McCarthy, Newell ve Simon, Brudno — yeniden keşfedilmiştir; Samuel'in versiyonu, bilinen en erken uygulamalardan biridir [27].

Ezbere Öğrenme (Rote Learning). Samuel'in ilk öğrenme yöntemi, programın karşılaştığı her tahta pozisyonunu ve bu pozisyonun nihai sonucunu (kazanma veya kaybetme) kaydetmesine dayanıyordu [1]. Program, daha önce gördüğü bir pozisyonla yeniden karşılaştığında, o pozisyonun kayıtlı değerini kullanarak arama derinliğini etkin biçimde artırıyordu [7]. Bu yöntem basit ama etkili bir hafıza mekanizmasıydı ve modern yapay zekadaki "deneyim tekrarı" (experience replay) kavramının habercisi olarak değerlendirilebilir [8].

Genelleme Yoluyla Öğrenme. Samuel'in ikinci ve daha sofistike öğrenme yöntemi, değerlendirme fonksiyonunun ağırlıklarını deneyim yoluyla güncellemeyi içeriyordu [1]. Bu yöntemde program, kendi kendine binlerce oyun oynamış ve her hamlede tahta pozisyonunun değerini bir sonraki pozisyonun değerine yaklaştırmaya çalışmıştır [7]. Sutton ve Barto'nun (2018) gösterdiği üzere, Samuel'in bu yöntemi, modern pekiştirmeli öğrenme literatüründe zamansal fark öğrenmesi (temporal-difference learning, TD learning) olarak adlandırılan teknikle kavramsal olarak aynıdır [7]. Samuel, bir tahta pozisyonunun değerini, o pozisyondan birkaç hamle sonraki pozisyonun değerine göre güncelliyordu — bu, Sutton'ın (1988) TD(λ) algoritmasının öncülüdür [28].

Kendi Kendine Oyun (Self-Play). Samuel, programını geliştirmek için onu kendi kendine binlerce oyun oynattırmıştır [1]. Bu teknik, insan rakip bulma ihtiyacını ortadan kaldırarak öğrenme sürecini hızlandırmıştır. Ancak kendi kendine oyunda bir risk vardı: program, kendi zayıflıklarını öğrenerek aslında kötüleşebilirdi [7]. Samuel bu sorunu, programın iki kopyasını — biri öğrenen, diğeri sabit — birbirine karşı oynattırarak hafifletmeye çalışmıştır [1]. Bu teknik, altmış yıl sonra DeepMind'ın AlphaGo ve AlphaZero sistemlerinde merkezi bir rol oynayacaktır [19].

4b. Kilit Aktörler ve Katkıları

Arthur Lee Samuel (1901–1990), makine öğrenmesinin adını koyan ve ilk somut uygulamasını gerçekleştiren kişidir. Samuel, Kansas eyaletinin Emporia kasabasında doğmuş, College of Emporia'dan mezun olduktan sonra MIT'de elektrik mühendisliği alanında yüksek lisans yapmıştır (1926) [5]. 1928'de Bell Laboratuvarları'na katılarak vakum tüpleri üzerine çalışmış ve İkinci Dünya Savaşı sırasında radar teknolojisinin geliştirilmesine katkıda bulunmuştur [6]. 1946'dan 1949'a kadar MIT ve Illinois Üniversitesi'nde öğretim üyeliği yapmış, ardından 1949'da IBM'e geçmiştir [5]. Samuel, IBM'de yalnızca dama programıyla değil, ilk yazılım karma tablolarından (hash tables) birini geliştirmesiyle ve IBM'in transistör tabanlı bilgisayarlara geçiş sürecine katkılarıyla da tanınmıştır [6]. 1966'da IBM'den emekli olarak Stanford Üniversitesi'ne geçmiş ve 1990'daki ölümüne kadar burada çalışmaya devam etmiştir [6]. Samuel, 1987'de IEEE Computer Pioneer Ödülü'nü ve 1990'da AAAI'ın (Association for the Advancement of Artificial Intelligence) kurucu üyesi unvanını almıştır [5].

Samuel'in kişisel özellikleri de dikkat çekicidir. Karmaşık konuları anlaşılır biçimde açıklama yeteneğiyle tanınan Samuel, bilgisayar bilimine ayrılmış ilk dergilerden biri için giriş yazısı yazmak üzere seçilmiştir (1953) [6]. Stanford'daki son yıllarında TeX toplulğunun aktif bir üyesi olarak, başlangıç düzeyi TeX kılavuzları yazmıştır [5]. Wiederhold, McCarthy ve Feigenbaum'un anma yazısına göre, Samuel muhtemelen dünyanın en yaşlı aktif bilgisayar programcısıydı — 2 Şubat 1990'da, ölümünden kısa süre önce, Stanford bilgisayarına son kez giriş yapmıştır [6].

IBM'in Kurumsal Rolü. Samuel'in çalışması, IBM'in araştırma kültürü ve ticari stratejisiyle iç içe geçmiştir. IBM, 1950'lerde bilgisayar pazarına hakimiyet kurmaya çalışan bir şirketti ve Samuel'in dama programı, bilgisayarların "akıllı" olabileceğini göstermek için mükemmel bir pazarlama aracıydı [14]. 1956'daki televizyon gösterisi, IBM'in bilinçli bir stratejisinin parçasıydı ve programın teknik başarısından çok kamusal algısı ön plana çıkartılmıştır [15].

Claude Shannon'ın Entelektüel Etkisi. Shannon, Samuel'in doğrudan meslektaşı olmasa da, minimax stratejisi ve değerlendirme fonksiyonu kavramlarıyla programın teorik temellerini atmıştır [11]. Samuel, Shannon'ın satranç makalesindeki çerçeveyi dama oyununa uyarlamış ve öğrenme boyutunu eklemiştir [1].

4c. Dönem İçindeki Yeri

Samuel'in dama programı, 1950'lerin yapay zeka araştırmaları bağlamında benzersiz bir konuma sahiptir. Dönemin diğer büyük yapay zeka projeleri — Newell ve Simon'ın Logic Theorist'i (1956) ve General Problem Solver'ı (1957), McCarthy'nin LISP'i (1958) — sembolik akıl yürütme ve problem çözmeye odaklanmıştı [4]. Bu projeler, bilgiyi açıkça programlayarak zekice davranış üretmeyi hedefliyordu. Samuel'in programı ise farklı bir felsefeden hareket ediyordu: bilgiyi açıkça kodlamak yerine, programın kendi deneyiminden öğrenmesini sağlamak [1].

Programın 1961'deki en ünlü başarısı, Connecticut eyalet dama şampiyonu Robert Nealey'i yenmesi olmuştur [16]. Bu olay, medyada büyük yankı uyandırmış ve yapay zekanın gücüne ilişkin aşırı iyimser beklentilere yol açmıştır. Ancak Schaeffer ve Lake'in (1996) gösterdiği üzere, Nealey aslında ulusal düzeyde dördüncü sıradaki bir oyuncuydu ve kayıp, medyada abartılı biçimde sunulmuştur [16]. 1965'te dünya şampiyonu W. F. Hellman ile yapılan maçta program dört oyunun dördünü kaybetmiş, yalnızca bir hızlı oyunda berabere kalmıştır [9]. Bu sonuçlar, programın gerçek gücünü — "saygın amatör" düzeyini — daha doğru biçimde yansıtmaktadır [7].

Samuel'in çalışması, döneminde önemli olmakla birlikte ana akım yapay zeka araştırmalarının odağında değildi. Sembolik yaklaşım, 1960'lar ve 1970'ler boyunca baskın paradigma olmaya devam etmiş ve makine öğrenmesi, yapay zeka alanının görece marjinal bir alt dalı olarak kalmıştır [15]. Bu durum, ancak 1980'lerin sonunda uzman sistem balonunun patlaması ve istatistiksel yöntemlerin yükselişiyle değişmeye başlayacaktır [21].

4d. Genel YZ Tarihindeki Yeri

Samuel'in dama programı, yapay zeka tarihinde birkaç kritik açıdan dönüm noktası niteliğindedir.

Birincisi, "makine öğrenmesi" kavramını hem terim hem de pratik olarak kurmuştur [1]. Samuel'in tanımı — "bilgisayarların açıkça programlanmadan öğrenme yeteneği" — bugün hâlâ alanın temel tanımı olarak kullanılmaktadır [21]. Bu kavramsal çerçeve, yapay zekanın "el yapımı kurallar" paradigmasına alternatif bir yol açmış ve günümüzün veri odaklı yapay zeka yaklaşımlarının entelektüel temelini oluşturmuştur.

İkincisi, pekiştirmeli öğrenmenin pratikte ilk büyük uygulamasını gerçekleştirmiştir [7]. Samuel'in zamansal fark öğrenmesi, kendi kendine oyun ve değer fonksiyonu güncelleme teknikleri, Sutton ve Barto'nun (2018) sistematize ettiği pekiştirmeli öğrenme kuramının doğrudan öncülleridir [7]. Bu teknikler olmadan, Tesauro'nun TD-Gammon'ı (1992), DeepMind'ın AlphaGo'su (2016) ve günümüzün RLHF (Reinforcement Learning from Human Feedback) sistemleri mümkün olmazdı [18][19].

Üçüncüsü, oyunların yapay zeka araştırmaları için bir "test yatağı" (testbed) olarak kullanılmasını meşrulaştırmıştır [20]. Samuel, oyunları tercih etme nedenini şöyle açıklamıştı: oyunlar, gerçek yaşam problemlerinden daha basit olmasına rağmen, sezgisel yöntemlerin ve öğrenme tekniklerinin incelenmesi için yeterli derinliğe sahiptir [1]. Bu yaklaşım, IBM'in Deep Blue'sundan (1997) DeepMind'ın AlphaGo'suna (2016) uzanan yapay zeka araştırma geleneğinin temelini oluşturmuştur.

Dördüncüsü, bir programın yaratıcısını geçebileceğini deneysel olarak göstermiştir [2]. Bu, yapay zeka felsefesi açısından derin bir sonuçtur: bir sistem, tasarımcısının sahip olmadığı bir yetkinlik geliştirebilir. Bu fikir, günümüzde "süper insan yapay zeka" tartışmalarının erken bir habercisidir.

5. Eleştirel Değerlendirme

Samuel'in çalışmasına yöneltilen eleştiriler birkaç düzlemde değerlendirilebilir.

Teknik Sınırlılıklar. Sutton ve Barto (2018), Samuel'in genelleme yoluyla öğrenme yönteminin kritik bir eksikliğine dikkat çekmişlerdir: programda açık bir ödül sinyali (reward signal) bulunmamaktaydı [7]. Modern pekiştirmeli öğrenme kuramında, bir öğrenme sisteminin düzgün çalışması için değer fonksiyonunun gerçek durum değerlerine bağlanması gerekmektedir — bu genellikle ödüller ve indirim (discounting) yoluyla sağlanır [28]. Samuel bu mekanizma yerine, taş avantajı özelliğinin ağırlığını sabit tutarak dolaylı bir çözüm üretmiştir [7]. Ancak bu çözüm, değer fonksiyonunun tüm pozisyonlara aynı değeri atayarak "tutarlı ama anlamsız" hale gelmesi riskini taşıyordu — ve Samuel, uzun kendi kendine oyun seanslarında programın performansının gerçekten kötüleştiğini gözlemlemiştir [7].

Ölçeklenebilirlik Sorunları. Samuel'in doğrusal değerlendirme fonksiyonu — özelliklerin ağırlıklı toplamı — dama oyunundaki karmaşık pozisyonel ilişkileri yeterince yakalayamıyordu [9]. Samuel, 1967 makalesinde imza tabloları (signature tables) adını verdiği tablosal bir temsile geçerek bu sorunu kısmen çözmüştür; ancak bu yaklaşım da boyutluluk laneti (curse of dimensionality) ile sınırlıydı [9]. Doğrusal olmayan fonksiyon yaklaşımı — özellikle sinir ağları — ancak 1990'larda Tesauro'nun TD-Gammon'ıyla pratik hale gelecektir [18].

Abartılı Beklentiler. Samuel'in programının medyadaki temsili, gerçek performansının çok ötesinde beklentiler yaratmıştır [15]. 1962'deki Nealey yenilgisi, bazı kaynaklarda "bilgisayarın dünya şampiyonunu yendiği" şeklinde aktarılmış ve dama oyununun "çözülmüş" olduğu algısı yaratılmıştır [16]. Gerçekte program, güçlü amatör düzeyinde kalmış ve usta düzeyine hiçbir zaman ulaşamamıştır [9]. Bellin (1965), Proceedings of the National Academy of Sciences'ta, on yıl içinde damanın "tamamen çözülebilir" bir oyun olacağını tahmin etmişti; bu tahmin ancak 2007'de — Schaeffer'in Chinook projesiyle — gerçekleşecektir [17]. Bu durum, yapay zeka tarihinde tekrarlanan bir kalıbı yansıtmaktadır: erken başarıların abartılması ve ardından hayal kırıklığı döngüsü.

Sembolik Paradigma Karşısında Marjinalleşme. Samuel'in çalışması, döneminde hak ettiği ilgiyi yeterince görememiştir. 1960'lar ve 1970'lerde yapay zeka araştırmalarına sembolik yaklaşım hakimdi ve "öğrenme" konusu, alan içinde ikincil bir öncelik olarak kalmıştır [15]. Minsky ve Papert'in (1969) Perceptrons kitabı, tek katmanlı sinir ağlarının sınırlılıklarını göstererek bağlantıcı (connectionist) ve öğrenme tabanlı yaklaşımlara olan ilgiyi daha da azaltmıştır [29]. Samuel'in çalışması, bağlantıcı değil istatistiksel bir yaklaşım olmasına rağmen, "öğrenme" temasıyla bu marjinalleşmeden etkilenmiştir.

Bugünden Bakıldığında. Samuel'in temel sezgileri zaman içinde büyük ölçüde doğrulanmıştır. Makinelerin deneyimden öğrenebileceği fikri, bugün yapay zekanın baskın paradigmasıdır [21]. Zamansal fark öğrenmesi, pekiştirmeli öğrenmenin temel algoritmalarından biridir [28]. Kendi kendine oyun, AlphaGo ve AlphaZero'nun başarısının anahtarıdır [19]. Samuel'in "yanlış" çıkan yanları — programın usta düzeyine ulaşamaması, doğrusal değerlendirme fonksiyonunun yetersizliği — aslında dönemin donanımsal ve algoritmik kısıtlamalarının sonucuydu; fikirlerin kendisi, uygun araçlar ve hesaplama gücü sağlandığında olağanüstü başarılara ulaşmıştır.

6. Etik ve Toplumsal Boyutlar

Samuel'in dama programının etik ve toplumsal boyutları, görünüşte mütevazı bir oyun programının ötesine uzanmaktadır.

Kamuoyu Algısı ve Beklenti Yönetimi. Programın 1956'daki televizyon gösterisi ve ardından 1962'deki Nealey yenilgisi, yapay zeka teknolojisine ilişkin abartılı beklentiler yaratmıştır [14]. IBM'in bu başarıyı pazarlama amacıyla kullanması, yapay zekanın gerçek kapasitesi ile kamuoyu algısı arasındaki uçurumun erken bir örneğidir [15]. Bu kalıp — yapay zeka başarılarının medyada abartılması, ardından gerçeklikle karşılaşıldığında hayal kırıklığı — YZ tarihinde "hype döngüsü" olarak tekrar tekrar kendini gösterecektir. Samuel'in dama programı, bu döngünün ilk örneklerinden birini sunmaktadır.

"Öğrenen Makine" Kavramının Felsefi İmplikasyonları. Bir makinenin yaratıcısından daha iyi performans gösterebilmesi, derin felsefi sorular doğurmaktadır [12]. Bu durum, Wiener'in de tartıştığı "kontrol" meselesini gündeme getirmektedir: bir sistemin davranışını tam olarak programlamıyorsak ve sistem deneyimden öğreniyorsa, davranışını ne ölçüde öngörebilir ve kontrol edebiliriz? [24]. Bu soru, günümüzün büyük dil modelleri (LLM'ler) ve otonom yapay zeka sistemleri bağlamında merkezi bir etik kaygı olarak varlığını sürdürmektedir.

Kurumsal Çıkar ve Araştırma Yönelimi. Samuel'in çalışmasının IBM'in ticari çıkarlarıyla iç içe geçmesi, araştırma yönelimlerinin kurumsal stratejilerden nasıl etkilenebileceğini göstermektedir [14]. IBM, dama programını bir vitrin olarak kullanırken, programın gerçek teknik başarıları ve sınırlılıkları ikincil planda kalmıştır. Bu durum, günümüzde büyük teknoloji şirketlerinin yapay zeka gösterileriyle — GPT lansmanları, robot gösterileri — kamuoyunda yarattığı algı yönetimi pratiklerinin erken bir habercisidir.

Erişim ve Demokratikleşme. Samuel'in programı, IBM'in pahalı bilgisayarlarında çalışıyordu ve bu teknolojiye erişim, yalnızca büyük şirketler ve seçkin üniversitelerle sınırlıydı [26]. Makine öğrenmesi araştırmaları, uzun süre bu dar kurumsal tabanda kalmış ve ancak kişisel bilgisayarların yaygınlaşması, internetin gelişmesi ve açık kaynak yazılımların ortaya çıkmasıyla demokratikleşebilmiştir. Bu erişim eşitsizliği, yapay zeka araştırmalarının erken dönemdeki coğrafi ve kurumsal yoğunlaşmasının önemli nedenlerinden biridir.

7. Güncel Uygulamalar ve Miras

Samuel'in dama programının mirası, günümüz yapay zeka teknolojisinin birçok katmanında varlığını sürdürmektedir.

Pekiştirmeli Öğrenme Devrimi. Samuel'in zamansal fark öğrenmesi ve kendi kendine oyun teknikleri, modern pekiştirmeli öğrenme alanının doğrudan öncülleridir [7]. Sutton'ın (1988) TD(λ) algoritması, Samuel'in yöntemini matematiksel olarak genelleştirmiştir [28]. Tesauro'nun TD-Gammon'ı (1992), Samuel'in yaklaşımını sinir ağlarıyla birleştirerek tavla oyununda dünya şampiyonu düzeyinde performans elde etmiştir [18]. DeepMind'ın AlphaGo'su (2016) ve AlphaZero'su (2017), kendi kendine oyun tekniğini derin sinir ağları ve Monte Carlo ağaç aramasıyla birleştirerek Go, satranç ve shogi oyunlarında insanüstü performansa ulaşmıştır [19]. Bu başarılar, Samuel'in altmış yıl önce ortaya koyduğu temel fikirlerin — deneyimden öğrenme, kendi kendine oyun, değer fonksiyonu güncelleme — doğru hesaplama gücü ve algoritmik araçlarla buluştuğunda ne kadar güçlü olabildiğini göstermektedir.

Modern Makine Öğrenmesi Ekosistemi. Samuel'in "bilgisayarların açıkça programlanmadan öğrenmesi" vizyonu, bugün yapay zekanın baskın paradigmasıdır [21]. Derin öğrenme (deep learning), doğal dil işleme (NLP), bilgisayarlı görü (computer vision) ve öneri sistemleri — tümü, makinelerin veriden öğrenmesi ilkesine dayanmaktadır. Samuel'in tanımladığı temel öğrenme mekanizmaları — deneyim toplama, değerlendirme fonksiyonu güncelleme, genelleme — farklı biçimlerde modernize edilerek günümüzün her yapay zeka uygulamasının altyapısını oluşturmaktadır.

Oyunlar ve YZ Araştırması. Samuel'in oyunları yapay zeka araştırmaları için test yatağı olarak kullanma geleneği, günümüzde de canlılığını korumaktadır [20]. OpenAI'ın Dota 2 botu (2018), DeepMind'ın StarCraft II oynayan AlphaStar'ı (2019) ve çeşitli Atari oyun ortamları, pekiştirmeli öğrenme algoritmalarının geliştirilmesi ve değerlendirilmesi için standart platformlar olarak kullanılmaktadır. Samuel'in "oyunlar, gerçek yaşam problemlerinden daha basit ama yeterince zengin" argümanı, altmış yıl sonra hâlâ geçerliliğini korumaktadır [1].

RLHF ve Büyük Dil Modelleri. Günümüzün en etkili yapay zeka sistemleri olan büyük dil modelleri (GPT, Claude, Gemini gibi), eğitim süreçlerinde pekiştirmeli öğrenme ile insan geri bildirimi (RLHF — Reinforcement Learning from Human Feedback) kullanmaktadır [8]. Bu yaklaşım, Samuel'in temel fikrinin — makinelerin geri bildirimden öğrenmesi — en güncel ve geniş ölçekli uygulamasıdır. Samuel'in dama programından RLHF'ye uzanan çizgi, makine öğrenmesinin altmış yıllık evriminin en çarpıcı göstergelerinden biridir.

8. Bölüm Özeti

1959 yılında Arthur Samuel'in yayımladığı dama programı makalesi, yapay zeka tarihinin en etkili dönüm noktalarından birini oluşturmaktadır. Samuel, "makine öğrenmesi" terimini akademik sözlüğe kazandırarak ve bir bilgisayarın deneyimden öğrenerek programcısından daha iyi performans gösterebileceğini deneysel olarak kanıtlayarak, yapay zekanın sembolik paradigmaya alternatif bir yolunu açmıştır. Dama programında kullandığı teknikler — minimax araması, alfa-beta budama, değerlendirme fonksiyonu, zamansal fark öğrenmesi, kendi kendine oyun — pekiştirmeli öğrenmenin temel kavramlarının ilk pratik uygulamaları olarak modern yapay zeka araştırmalarının doğrudan öncülleridir.

Samuel'in çalışması, döneminde sembolik yapay zeka paradigmasının gölgesinde kalmış olsa da, ortaya koyduğu fikirler zaman içinde büyük ölçüde doğrulanmıştır. Tesauro'nun TD-Gammon'ından DeepMind'ın AlphaGo'suna, günümüzün RLHF sistemlerine uzanan çizgi, Samuel'in vizyonunun kalıcılığını göstermektedir. Programın medyadaki abartılı temsili ise yapay zeka tarihinde tekrarlayan "hype döngüsü"nün erken bir örneğini sunmaktadır.

Bu bölüm, kitabın genel argümanı çerçevesinde, sembolik yapay zeka ile öğrenme tabanlı yapay zeka arasındaki temel gerilimin ilk somut tezahürünü ortaya koymuştur. Bir önceki bölümde LISP ile somutlaşan "bilgiyi açıkça kodla ve mantıksal olarak işle" paradigmasına karşı, Samuel'in "veriden öğren" paradigması, yapay zeka tarihinin iki büyük akımını tanımlamıştır. Bir sonraki bölümde ele alacağımız Frank Rosenblatt'ın Perceptron'u (1958), bu öğrenme paradigmasının bir başka boyutunu — biyolojik sinir ağlarından esinlenen yapay sinir ağlarını — sahneye taşıyarak, makine öğrenmesinin farklı bir kolunu aydınlatacaktır.

9. Kaynakça

[1] Samuel, A. L. (1959). Some studies in machine learning using the game of checkers. IBM Journal of Research and Development, 3(3), 210–229. https://doi.org/10.1147/rd.33.0210

[2] Samuel, A. L. (1960). Programming computers to play games. Advances in Computers, 1, 165–192.

[3] McCarthy, J., Minsky, M. L., Rochester, N., & Shannon, C. E. (1955). A proposal for the Dartmouth Summer Research Project on Artificial Intelligence. AI Magazine, 27(4), 12–14. (Yeniden basım, 2006).

[4] Newell, A., & Simon, H. A. (1956). The Logic Theory Machine: A complex information processing system. IRE Transactions on Information Theory, 2(3), 61–79.

[5] Arthur Samuel (computer scientist). Wikipedia. https://en.wikipedia.org/wiki/Arthur_Samuel_(computer_scientist)

[6] Wiederhold, G., McCarthy, J., & Feigenbaum, E. (1990). Memorial resolution: Arthur L. Samuel (1901–1990). AI Magazine, 11(3).

[7] Sutton, R. S., & Barto, A. G. (2018). Reinforcement learning: An introduction (2. baskı). MIT Press.

[8] Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C. L., Mishkin, P., ... & Lowe, R. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35, 27730–27744.

[9] Samuel, A. L. (1967). Some studies in machine learning using the game of checkers. II — Recent progress. IBM Journal of Research and Development, 11(6), 601–617. https://doi.org/10.1147/rd.116.0601

[10] Feigenbaum, E. A., & Feldman, J. (Eds.). (1963). Computers and thought. McGraw-Hill.

[11] Shannon, C. E. (1950). Programming a computer for playing chess. The London, Edinburgh, and Dublin Philosophical Magazine and Journal of Science, 41(314), 256–275.

[12] Turing, A. M. (1950). Computing machinery and intelligence. Mind, 59(236), 433–460.

[13] Nilsson, N. J. (2010). The quest for artificial intelligence: A history of ideas and achievements. Cambridge University Press.

[14] McCorduck, P. (2004). Machines who think: A personal inquiry into the history and prospects of artificial intelligence (2. baskı). A K Peters.

[15] Crevier, D. (1993). AI: The tumultuous history of the search for artificial intelligence. Basic Books.

[16] Schaeffer, J., & Lake, R. (1996). Solving the game of checkers. Games of No Chance, 29, 119–133.

[17] Schaeffer, J. (2009). One jump ahead: Computer perfection at checkers (2. baskı). Springer.

[18] Tesauro, G. (1995). Temporal difference learning and TD-Gammon. Communications of the ACM, 38(3), 58–68.

[19] Silver, D., Huang, A., Maddison, C. J., Guez, A., Sifre, L., van den Driessche, G., ... & Hassabis, D. (2016). Mastering the game of Go with deep neural networks and tree search. Nature, 529(7587), 484–489. https://doi.org/10.1038/nature16961

[20] Fürnkranz, J. (2000). Machine learning in games: A survey. Austrian Research Institute for Artificial Intelligence, OEFAI-TR-2000-3.

[21] Russell, S., & Norvig, P. (2021). Artificial intelligence: A modern approach (4. baskı). Pearson.

[22] Nabiyev, V. V. (2021). Yapay zeka: İnsan-bilgisayar etkileşimi (6. baskı). Seçkin Yayıncılık.

[23] Wiener, N. (1948). Cybernetics: Or control and communication in the animal and the machine. MIT Press.

[24] Wiener, N. (1964). God & Golem, Inc.: A comment on certain points where cybernetics impinges on religion. MIT Press.

[25] Hebb, D. O. (1949). The organization of behavior: A neuropsychological theory. Wiley.

[26] Ceruzzi, P. E. (2003). A history of modern computing (2. baskı). MIT Press.

[27] Knuth, D. E., & Moore, R. W. (1975). An analysis of alpha-beta pruning. Artificial Intelligence, 6(4), 293–326.

[28] Sutton, R. S. (1988). Learning to predict by the methods of temporal differences. Machine Learning, 3(1), 9–44.

[29] Minsky, M., & Papert, S. (1969). Perceptrons: An introduction to computational geometry. MIT Press.

10. Tartışma Soruları

1. Analitik: Samuel, neden dama oyununu satranç yerine tercih etmiştir? Bu tercih, makine öğrenmesi araştırmalarının "basitlik ile derinlik dengesi" ilkesini nasıl yansıtmaktadır?

2. Karşılaştırmalı: Samuel'in "veriden öğrenme" yaklaşımı ile aynı dönemdeki Newell ve Simon'ın "sembolik problem çözme" yaklaşımı arasındaki temel felsefî fark nedir? Bu iki yaklaşımın güçlü ve zayıf yönlerini karşılaştırınız.

3. Spekülatif: Samuel'in dama programı, dönemin sembolik yapay zeka paradigması yerine ana akım olarak benimsenseydi, yapay zeka araştırmalarının seyri nasıl farklılaşabilirdi? 1960'lar ve 1970'lerde makine öğrenmesi daha fazla kaynak alsaydı, ilk "YZ kışı" yaşanır mıydı?

4. Etik: IBM'in Samuel'in programını ticari bir vitrin olarak kullanması, yapay zeka teknolojisinin kamuoyu algısı üzerinde nasıl bir etki yaratmıştır? Bu durumun günümüzdeki büyük teknoloji şirketlerinin yapay zeka pazarlama stratejileriyle paralelliği nedir?

5. Güncel: Samuel'in zamansal fark öğrenmesi (temporal-difference learning) tekniği, günümüzün RLHF (Reinforcement Learning from Human Feedback) sistemlerinde nasıl bir karşılık bulmaktadır? Samuel'in temel fikirlerinden hangilerinin günümüzde hâlâ kullanıldığını somut örneklerle tartışınız.

6. Analitik: Samuel'in dama programının 1962'de Nealey'i yenmesi ile 1965'te Hellman'a kaybetmesi, yapay zeka başarılarının değerlendirilmesinde "kime karşı test edildi?" sorusunun önemini nasıl göstermektedir? Bu sorunun günümüzdeki yapay zeka karşılaştırma testleri (benchmarks) açısından önemi nedir?

7. Karşılaştırmalı: Samuel'in ezbere öğrenme (rote learning) yöntemi ile genelleme yoluyla öğrenme (learning by generalization) yöntemi arasındaki fark, günümüzdeki "ezber" (memorization) ile "genelleme" (generalization) tartışmasını nasıl önceden haber vermektedir? Büyük dil modellerinin bu iki öğrenme biçimi arasındaki dengesi nasıl değerlendirilmelidir?

8. Spekülatif: Samuel'in programı, daha güçlü hesaplama kaynaklarına ve modern sinir ağlarına sahip olsaydı — yani yalnızca Samuel'in fikirleri 2020'lerin donanımıyla buluşsaydı — ne düzeyde bir performans elde edebilirdi? Bu düşünce deneyi, fikirlerin mi yoksa araçların mı yapay zeka ilerlemesinde daha belirleyici olduğu sorusuna nasıl ışık tutmaktadır?

9. Etik: Bir makinenin yaratıcısından "daha iyi" performans gösterebilmesi, yapay zeka sistemlerinin kontrolü ve hesap verebilirliği açısından hangi felsefi soruları doğurmaktadır? Samuel'in dama programından günümüzün otonom sistemlerine uzanan bu "kontrol" meselesi nasıl evrilmiştir?

10. Güncel: DeepMind'ın AlphaZero'su, Samuel'in kendi kendine oyun (self-play) tekniğini derin öğrenme ile birleştirerek satranç, Go ve shogi'de insanüstü performansa ulaşmıştır. Bu başarı, Samuel'in vizyonunun doğrulanması mıdır, yoksa Samuel'in hayal bile edemeyeceği kadar farklı bir paradigma mıdır? Sürekliliği ve kopuşu tartışınız.