En Küçük Kareler Yöntemi
En küçük kareler yönteminin gelişimi ve makine öğrenmesindeki optimizasyon tekniklerinin öncüsü olarak rolü.
1. Giriş
Bugün bir yapay zeka modeli, milyonlarca veri noktasından bir örüntü çıkardığında; bir otonom araç, sensör okumaları arasındaki gürültüyü süzgeçten geçirdiğinde; bir iklim modeli, geçmiş sıcaklık kayıtlarından geleceğin eğilimlerini tahmin ettiğinde — tüm bu işlemlerin kalbinde, iki yüzyılı aşkın bir süre önce iki matematikçinin birbirinden bağımsız olarak geliştirdiği bir optimizasyon ilkesi çalışmaktadır [1]. En küçük kareler yöntemi (least squares method), gözlemlenen veriler ile teorik bir model arasındaki farkın karelerinin toplamını minimize ederek "en iyi uyan" parametreleri bulan bu matematiksel araç, modern istatistiğin, makine öğrenmesinin ve veri biliminin kurucu taşıdır [2].
1795 ile 1809 arasına yayılan bu hikâye, bilim tarihinin en ilginç ve en acı öncelik kavgalarından birini de barındırmaktadır. Adrien-Marie Legendre, yöntemi ilk kez 1805 yılında Nouvelles méthodes pour la détermination des orbites des comètes adlı eserinde yayımlamış ve "moindres carrés" (en küçük kareler) adını vermiştir [3]. Ancak Carl Friedrich Gauss, 1809'da yayımlanan Theoria Motus Corporum Coelestium adlı başyapıtında yöntemi 1795'ten beri kullandığını iddia etmiş ve matematiksel gerekçelendirmesini olasılık teorisiyle bütünleştirerek sunmuştur [4]. Bu iddia, Legendre'yi derinden yaralamış ve iki büyük matematikçi arasında onlarca yıl sürecek bir gerginliğe yol açmıştır [5].
En küçük kareler yöntemi, Bölüm 6'da incelediğimiz Bayes Teoremi'nin "veriden öğrenme" felsefesinin pratik hesaplama araçlarıyla buluşmasını temsil etmektedir. Bayes, belirsizlik altında inançlarımızı nasıl güncellememiz gerektiğinin teorik çerçevesini kurmuştu; en küçük kareler yöntemi ise "elimizdeki gürültülü verilere en iyi uyan modeli nasıl buluruz?" sorusuna somut, hesaplanabilir bir yanıt sunmaktadır [6]. Bu iki yaklaşım — Bayesçi çıkarım ve optimizasyon temelli parametre tahmini — yapay zekanın "öğrenme" kapasitesinin iki temel ayağını oluşturmaktadır.
Bu bölümde, en küçük kareler yönteminin matematiksel yapısı, tarihsel bağlamı ve bilimsel önemi derinlemesine ele alınacak; Legendre ile Gauss arasındaki öncelik tartışması bilim etiği ve sosyolojisi açısından incelenecek; yöntemin 19. yüzyıldan 21. yüzyıla uzanan evrimi — astronomi gözlemlerinden yapay sinir ağlarına — kronolojik olarak izlenecek; ve en küçük kareler ilkesinin modern makine öğrenmesi ve yapay zeka araştırmalarındaki merkezi konumu analiz edilecektir.
2. Literatür Taraması
En küçük kareler yöntemi üzerine akademik literatür, matematik tarihi, istatistik teorisi, astronomi ve bilgisayar bilimi gibi birçok disiplinin kesişiminde olağanüstü zengin bir birikim oluşturmaktadır.
Stephen Stigler'ın The History of Statistics: The Measurement of Uncertainty before 1900 (1986) adlı eseri, en küçük kareler yönteminin tarihsel gelişimini istatistik tarihi bağlamında ele alan en kapsamlı çalışmadır [2]. Stigler, yöntemin 18. yüzyılın gözlem problemlerinden nasıl doğduğunu, Legendre ve Gauss'un katkılarının farklarını ve yöntemin 19. yüzyıl boyunca istatistik teorisinin merkezine yerleşme sürecini kronolojik bir çerçevede sunmuştur. Stigler'ın özellikle "Legendre-Gauss tartışması"na ilişkin değerlendirmesi, konunun tarihsel analizinin referans noktası olmaya devam etmektedir.
Anders Hald'ın A History of Mathematical Statistics from 1750 to 1930 (1998) adlı eseri, en küçük kareler yönteminin matematiksel istatistik tarihindeki konumunu detaylı biçimde incelemiştir [7]. Hald, özellikle Gauss'un yöntemi olasılık teorisiyle nasıl temellendirdiğini ve Gauss-Markov teoreminin gelişim sürecini titizlikle ele almıştır. Hald'ın daha erken dönem çalışması olan A History of Probability and Statistics and Their Applications before 1750 (2003) ise yöntemin öncüllerini — özellikle gözlem hatalarının ortalamayla ele alınması geleneğini — ortaya koymuştur [8].
R. W. Farebrother'ın Fitting Linear Relationships: A History of the Calculus of Observations 1750–1900 (1999) adlı eseri, en küçük kareler yönteminin "gözlemler hesabı" (calculus of observations) geleneğindeki yerini kapsamlı biçimde analiz etmiştir [9]. Farebrother, yöntemin Tobias Mayer, Roger Joseph Boscovich ve diğer öncüllerin çalışmalarından nasıl evrildiğini göstererek, Legendre ve Gauss'un katkılarını daha geniş bir entelektüel soy ağacı içine yerleştirmiştir. Bu çalışma, yöntemin "birdenbire ortaya çıkmadığını", aksine on yılları kapsayan bir gözlemsel astronomi geleneğinin ürünü olduğunu ikna edici biçimde ortaya koymuştur.
Stigler'ın "Gauss and the Invention of Least Squares" (1981) başlıklı makalesi, Gauss'un yöntemi 1795'ten beri kullandığına dair iddiasının tarihsel kanıtlarını eleştirel biçimde değerlendirmiştir [5]. Stigler, Gauss'un iddiasını destekleyen bazı dolaylı kanıtlar olsa da kesin bir kanıt bulunmadığını, ancak Gauss'un 1809'daki olasılıksal gerekçelendirmesinin Legendre'nin 1805 sunumundan temelden farklı ve çok daha derin olduğunu göstermiştir.
Oscar Sheynin, en küçük kareler yönteminin tarihine ilişkin çok sayıda makale yayımlamış olup, "C. F. Gauss and the Theory of Errors" (1979) başlıklı çalışması, Gauss'un hata teorisi katkılarını detaylı biçimde incelemiştir [10]. Sheynin, Gauss'un yöntemi salt bir hesaplama aracı olarak değil, sistematik bir hata teorisinin parçası olarak geliştirdiğini vurgulamış ve bu teorinin modern istatistik üzerindeki derin etkisini göstermiştir.
Plackett'ın "The Discovery of the Method of Least Squares" (1972) başlıklı klasik makalesi, yöntemin keşif hikâyesini birincil kaynaklara dayalı olarak yeniden inşa etmiştir [11]. Plackett, Legendre'nin yöntemini yayımlarken kullandığı pragmatik yaklaşımı, Gauss'un olasılıksal temellendirmesiyle karşılaştırarak, iki matematikçinin aynı yönteme farklı entelektüel motivasyonlarla ulaştığını göstermiştir.
Jan Stankiewicz'in "Least Squares and the Stars: The Story of How Mathematics Changed Astronomy" (2001) başlıklı çalışması, en küçük kareler yönteminin astronomi pratiğini nasıl dönüştürdüğünü somut örneklerle ortaya koymuştur [12]. Stankiewicz, özellikle Ceres cüce gezegeninin yeniden keşfinde yöntemin oynadığı dramatik rolü, modern okuyucu için erişilebilir bir anlatıyla sunmuştur.
Legendre'nin 1805 tarihli Nouvelles méthodes pour la détermination des orbites des comètes adlı eseri, yöntemin kurucu metnidir [3]. Legendre, kitabının ekinde "en küçük kareler yöntemi" başlığı altında yöntemi açık ve sistematik biçimde sunmuştur. Gauss'un 1809 tarihli Theoria Motus Corporum Coelestium in Sectionibus Conicis Solem Ambientium adlı eseri ise yöntemin olasılık teorisiyle bütünleştirilmiş en kapsamlı erken sunumudur [4].
Peter Gavin Hall'un An Introduction to the Theory of Estimation (2002) çalışması, en küçük kareler yönteminin modern tahmin teorisi içindeki yerini ele almış ve yöntemin en çok olabilirlik (maximum likelihood) tahminiyle ilişkisini incelemiştir [13]. Hall, Gauss'un normal dağılım varsayımı altında en küçük kareler tahmininin en çok olabilirlik tahminiyle örtüştüğünü göstererek, 18. yüzyıl yöntemi ile 20. yüzyıl istatistik teorisi arasındaki köprüyü vurgulamıştır.
Stuart Russell ve Peter Norvig'in Artificial Intelligence: A Modern Approach (2020) adlı standart yapay zeka ders kitabı, en küçük kareler yöntemini makine öğrenmesinin temel optimizasyon ilkelerinden biri olarak sunmuştur [14]. Russell ve Norvig, yöntemin lineer regresyon, model seçimi ve aşırı öğrenme (overfitting) kavramlarıyla ilişkisini yapay zeka bağlamında ele almıştır.
Christopher Bishop'ın Pattern Recognition and Machine Learning (2006) adlı eseri, en küçük kareler yöntemini Bayesçi bir çerçevede yeniden yorumlamış ve yöntemin regularizasyon, çapraz doğrulama ve model karmaşıklığı kavramlarıyla bağlantısını kurmuştur [15]. Bishop, en küçük karelerin Bayesçi çıkarımın özel bir durumu olarak görülebileceğini — özellikle Gauss gürültüsü ve düzgün (flat) önsel varsayımı altında — göstermiştir.
Trevor Hastie, Robert Tibshirani ve Jerome Friedman'ın The Elements of Statistical Learning (2009) adlı eseri, en küçük kareler yöntemini modern istatistiksel öğrenmenin temel taşı olarak ele almış ve Ridge regresyonu, Lasso ve elastik ağ gibi regularize edilmiş genellemelerini kapsamlı biçimde incelemiştir [16].
Türkçe literatürde, Halil İbrahim Cebeci'nin İstatistik ve Olasılık (2017) ile Bülent Sankur'un sinyal işleme alanındaki çalışmaları, en küçük kareler yönteminin Türk akademik dünyasındaki yerini oluşturmuştur [17]. Ayrıca Cemal Yıldırım'ın Bilim Felsefesi (1979) adlı eseri, bilimsel yöntemin temellerini tartışırken gözlem ve ölçüm hatalarının epistemolojik boyutlarına değinmiştir [18].
Bu literatür genel olarak değerlendirildiğinde üç ana akım belirginleşmektedir: Birincisi, tarihsel-biyografik çalışmalar (Stigler, Hald, Farebrother, Plackett) yöntemin keşif koşullarını ve öncelik tartışmasını inceler. İkincisi, matematiksel-istatistiksel çalışmalar (Gauss, Laplace, Markov, Hall) yöntemin teorik temellerini ve genellemelerini geliştirir. Üçüncüsü, uygulamalı-hesaplamalı çalışmalar (Bishop, Hastie, Russell ve Norvig) yöntemin yapay zeka ve makine öğrenmesindeki modern konumunu ortaya koyar.
3. Tarihsel ve Teorik Arka Plan
En küçük kareler yöntemini anlamak için, 18. yüzyılın sonlarında astronomi ve jeodezinin (toprak ölçümü) karşı karşıya olduğu pratik problemleri, "gözlem hataları" kavramının entelektüel gelişimini ve dönemin matematiksel altyapısını kavramak gerekmektedir.
18. yüzyılın ortasında, denizcilik, haritacılık ve astronomi, dönemin en stratejik bilimsel alanlarıydı [2]. Bir geminin enlem ve boylamını doğru hesaplama, ticaret, savaş ve keşif açısından kritik önem taşıyordu. Ancak her gözlem — ister bir yıldızın konumu, ister bir meridyen yayının uzunluğu olsun — kaçınılmaz olarak hata içeriyordu [9]. Teleskopların hassasiyetindeki sınırlılıklar, atmosferik bozulmalar, gözlemcinin kişisel tepki süresi ve hesaplama yaklaşıklıkları gibi etkenler, her ölçümü "gerçek değer artı hata" biçiminde bir bileşime dönüştürüyordu [7]. Sorun şuydu: Aynı büyüklüğün birden fazla ölçümü yapıldığında — ki bilimsel titizlik bunu gerektiriyordu — farklı değerler elde ediliyordu. Bu farklı değerlerden "en iyi tahmini" nasıl çıkaracaktınız?
En eski ve en sezgisel yaklaşım, basitçe aritmetik ortalama almaktı [2]. Tycho Brahe 16. yüzyılda ve ardından gelen astronomlar, tekrarlanan gözlemlerin ortalamasının bireysel gözlemlerden daha güvenilir olduğunu deneyimle biliyorlardı. Ancak bu yöntemin ciddi sınırlılıkları vardı: Farklı koşullarda alınan ölçümler farklı güvenilirlik derecelerine sahip olabilirdi; ayrıca, birden fazla bilinmeyen parametre söz konusu olduğunda (örneğin bir kuyruklu yıldızın yörünge parametreleri), basit ortalama yetersiz kalıyordu [9].
Tobias Mayer, 1750'lerde ay gözlemlerinden ayın hareketine ilişkin parametreleri belirlemek için, gözlem denklemlerini gruplara ayırıp her grubun ortalamasını alarak bir "grup ortalaması" yöntemi geliştirmiştir [2]. Bu yaklaşım, Roger Joseph Boscovich'in 1760'larda kullandığı "mutlak sapmaların toplamını minimize etme" yöntemiyle rekabet halindeydi [9]. Boscovich'in yöntemi — modern terminolojiyle L1 minimizasyonu veya "en küçük mutlak sapmalar" — matematiksel olarak zarif ancak hesaplama açısından zordu [7]. Leonhard Euler ve Pierre-Simon Laplace da benzer problemlerle uğraşmış ve çeşitli ad hoc çözümler denemişlerdir [2].
Bu entelektüel arka plan, en küçük kareler yönteminin neden büyük bir atılım olduğunu açıklamaktadır: Yöntem, daha önceki tüm yaklaşımların yerini alabilecek kadar genel, matematiksel olarak tutarlı ve hesaplama açısından verimli bir çerçeve sunmuştur [5].
Dönemin matematiksel altyapısı da kritik önem taşımaktadır. 18. yüzyılın sonlarında, kalkülüs ve lineer cebir yeterli olgunluğa ulaşmıştı: Kısmi türevler, denklem sistemlerinin çözümü ve matris benzeri işlemler — henüz "matris" kavramı biçimsel olarak tanımlanmamış olsa da — matematikçilerin araç kutusuna girmişti [7]. Bu durum, en küçük kareler yönteminin formülasyonu ve çözümü için gerekli teknik zemini sağlamıştır.
Bölüm 6'da incelediğimiz Bayes Teoremi'yle de önemli bir bağlantı mevcuttur. Bayes ve ardından Laplace, "gözlemlerden parametrelere doğru çıkarım" problemini olasılıksal bir çerçevede ele almışlardı [19]. En küçük kareler yöntemi, bu probleme farklı bir açıdan yaklaşmaktadır: Olasılıklar üzerinden çıkarım yapmak yerine, doğrudan bir "uyum ölçütünü" — hata karelerinin toplamını — optimize eder [2]. Ancak Gauss'un 1809'daki olasılıksal gerekçelendirmesi, bu iki yaklaşımı birleştirmiştir: Normal dağılımlı hatalar varsayımı altında, en küçük kareler tahmini aynı zamanda en olası (most probable) tahmindir ve Bayesçi çıkarımla örtüşmektedir [4]. Bu bağlantı, modern istatistiğin temelini oluşturmaktadır.
Dönemin kurumsal altyapısı da göz ardı edilmemelidir. Fransa'da Bureau des Longitudes ve İngiltere'de Royal Greenwich Observatory gibi kurumlar, astronomik gözlem verilerinin sistematik olarak toplanmasını ve işlenmesini finanse etmekteydi [2]. Napolyon dönemi Fransası, bilimsel araştırmaya önemli kaynaklar ayırıyor ve matematikçilere önemli bir toplumsal statü sağlıyordu [5]. Almanya'da ise Göttingen Üniversitesi, Gauss'un kariyerinin büyük bölümünü geçirdiği merkez olarak, astronomi ve matematiğin kesişiminde öncü bir rol oynuyordu [10].
4. Ana Konu Analizi
4a. Temel Mekanizma: En Küçük Kareler Yönteminin Matematiksel Yapısı
En küçük kareler yöntemi, temel olarak şu problemi çözer: Elimizde bir dizi gözlem (veri noktası) ve bu gözlemleri açıklamak istediğimiz bir matematiksel model var; model, belirli parametrelere bağlı ve amacımız, gözlemlerle model tahminleri arasındaki "uyumsuzluğu" en küçük yapan parametre değerlerini bulmaktır [1].
Matematiksel olarak ifade edilirse: Gözlemlenen değerler y₁, y₂, ..., yₙ ile bu değerleri tahmin eden bir model f(xᵢ; β) arasındaki farklar — "artıklar" (residuals) veya "hatalar" — εᵢ = yᵢ − f(xᵢ; β) olarak tanımlanır. En küçük kareler yöntemi, bu hataların karelerinin toplamını, yani S(β) = Σᵢ εᵢ² = Σᵢ [yᵢ − f(xᵢ; β)]² değerini minimize eden β parametre vektörünü bulur [2]. "Karelerin toplamı" kriterinin seçimi ilk bakışta keyfi görünebilir, ancak birkaç derin matematiksel gerekçesi vardır: Kareler alma, hataların yönünü (pozitif/negatif) nötralize eder; kare fonksiyonu türevlenebilir olduğu için kalkülüs araçlarıyla minimizasyona olanak tanır; ve Gauss'un 1809'da gösterdiği gibi, hatalar normal dağılım izliyorsa bu kriter en olası (maximum likelihood) tahminle örtüşür [4].
Lineer durumda — yani modelin parametrelere göre lineer olduğu durumda — çözüm, ünlü "normal denklemler" (normal equations) sistemiyle verilir [2]. Modern matris notasyonuyla, y = Xβ + ε modeli için en küçük kareler tahmini β̂ = (XᵀX)⁻¹Xᵀy formülüyle elde edilir [15]. Bu formül, "gözlem verilerinden en iyi uyan parametreleri bir formülle doğrudan hesapla" demektir ve 18. yüzyıl astronomisi için devrimci bir pratik araçtı.
Legendre, 1805'teki sunumunda yöntemi oldukça pragmatik bir biçimde tanıtmıştır [3]. Legendre, kuyruklu yıldızların yörünge parametrelerini belirlemek için kullandığı bu yöntemi "tüm hataların en uygun biçimde dağıtılmasını sağlayan ve uç değerlerin hiçbirinin aşırı olmamasını garantileyen" bir ilke olarak sunmuştur [3]. Legendre'nin sunumu, matematiksel kanıt yerine pratik etkinliğe vurgu yapıyordu: Yöntem işe yarıyordu ve hesaplanması kolaydı.
Gauss'un 1809'daki yaklaşımı ise temelden farklıydı [4]. Gauss, yöntemi bir olasılık problemi olarak formüle etmiştir: Hataların belirli bir olasılık dağılımına (normal dağılıma) uyduğunu varsayarak, en küçük kareler tahmininin bu dağılım altında en olası tahmin olduğunu kanıtlamıştır [10]. Bu gerekçelendirme, yönteme salt pragmatik bir araçtan öte, istatistiksel bir teori statüsü kazandırmıştır. Gauss ayrıca "normal dağılım" veya "Gauss dağılımı" olarak bilinen çan eğrisini bu bağlamda matematiksel olarak çerçevelemiştir — gerçi bu dağılımı daha önce de Abraham de Moivre tanımlamıştı [2].
4b. Kilit Aktörler ve Katkıları
Adrien-Marie Legendre (1752–1833): Legendre, Fransız matematikçi olarak sayı teorisi, eliptik integraller ve geodezi alanlarında önemli katkılar yapmış bir figürdür [5]. 1805'te yayımladığı Nouvelles méthodes pour la détermination des orbites des comètes adlı eserinin ekinde, en küçük kareler yöntemini açık ve sistematik biçimde ilk kez yayımlamıştır [3]. Legendre, yönteme "méthode des moindres carrés" (en küçük kareler yöntemi) adını veren kişidir [11]. Legendre'nin sunumu pragmatikti: Yöntemin işe yaradığını göstermiş, hesaplama prosedürünü açıkça tarif etmiş, ancak olasılık teorisiyle bağlantısını kurmamıştı. Legendre'nin en büyük trajedisi, Gauss'un 1809'da yöntemi 1795'ten beri kullandığını iddia etmesi olmuştur — bu iddia, Legendre'yi derinden yaralamış ve iki matematikçi arasındaki ilişkiyi kalıcı biçimde zedelemiştir [5]. Legendre, Gauss'a yazdığı bir mektubunda, "bir keşfi başkasından çalma girişimi, iyi bir insanın yapabileceği en kötü şeydir" demiştir [2].
Carl Friedrich Gauss (1777–1855): "Matematikçilerin Prensi" olarak anılan Gauss, matematiğin birçok dalında devrimci katkılar yapmış bir dehadır [10]. Gauss'un en küçük kareler yöntemiyle ilişkisi, 1801 yılındaki dramatik bir olayla başlamaktadır: İtalyan astronom Giuseppe Piazzi, Ceres adlı yeni bir gök cismini keşfetmiş ancak kısa bir gözlem süresinden sonra cisim güneşin parlaklığı ardında kaybolmuştu [4]. Astronomlar, Ceres'in yörüngesini hesaplayamadıkları için cismi yeniden bulamıyorlardı. 24 yaşındaki Gauss, yalnızca 41 günlük gözlem verisinden Ceres'in yörüngesini hesaplamış ve cismin nerede aranması gerektiğini tahmin etmiştir [12]. 1801 yılının son gecesinde, Franz Xaver von Zach Gauss'un tahmin ettiği konumda Ceres'i yeniden bulmuştur — bu olay, Gauss'u Avrupa çapında ünlü yapmıştır [5]. Gauss, bu hesaplamada en küçük kareler yöntemini kullandığını iddia etmiş, ancak yöntemi ancak 1809'da yayımlamıştır [4]. Gauss'un katkısının Legendre'den temel farkı, yöntemi olasılık teorisiyle temellendirmesi ve normal dağılımla ilişkilendirmesidir.
Pierre-Simon Laplace (1749–1827): Laplace, Gauss'un olasılıksal gerekçelendirmesinin ardından, 1810'da en küçük kareler yöntemine ilişkin kendi analizini yayımlamıştır [7]. Laplace, merkezi limit teoremini kullanarak — yani hataların birçok küçük, bağımsız etkinin bileşimi olduğu varsayımıyla — normal dağılım varsayımının neden makul olduğunu göstermiş ve Gauss'un yaklaşımına alternatif bir gerekçe sunmuştur [2]. Laplace'ın bu katkısı, yöntemin teorik temellerini güçlendirmiştir.
Andrey Markov (1856–1922): Markov, 1912'de Gauss-Markov teoremini kanıtlayarak en küçük kareler yönteminin optimallik özelliklerini netleştirmiştir [7]. Bu teorem, belirli koşullar altında (hataların ortalamasının sıfır, varyanslarının eşit ve ilişkisiz olması), en küçük kareler tahmininin "en iyi doğrusal yansız tahmin edici" (Best Linear Unbiased Estimator — BLUE) olduğunu göstermektedir [2]. Gauss-Markov teoremi, en küçük kareler yönteminin yalnızca bir pratik araç değil, matematiksel olarak optimal bir yöntem olduğunu kanıtlamıştır.
4c. Dönem İçindeki Yeri
En küçük kareler yöntemi, yayımlandığı dönemde hızla ve yaygın biçimde kabul görmüştür — bilim tarihinde oldukça nadir bir durum [2]. Bunun birkaç nedeni vardır: Birincisi, yöntem gerçekten işe yarıyordu; Ceres'in yeniden keşfi gibi dramatik başarılar, yöntemin etkinliğini somut biçimde kanıtlamıştı [12]. İkincisi, yöntem hesaplama açısından erişilebilirdi; lineer durumda basit denklem sistemlerinin çözümüne indirgeniyordu [9]. Üçüncüsü, dönemin en acil bilimsel ihtiyaçlarından birine — astronomik gözlem verilerinin işlenmesi — doğrudan yanıt veriyordu [5].
Yöntem, Avrupa'nın önde gelen gözlemevlerinde hızla standart araç haline gelmiştir [2]. Friedrich Wilhelm Bessel, yıldız paralaksını ölçmek için en küçük kareler yöntemini uygulamış ve modern astrofiziksel ölçümlerin temellerini atmıştır [7]. Geodezi (toprak ölçümü) alanında, büyük üçgenleme projeleri yöntemi sistematik biçimde kullanmaya başlamıştır — Gauss'un kendisi, 1818–1832 yılları arasında Hannover'in jeodezik haritalamasını yönetirken yöntemi yaygın biçimde uygulamıştır [10].
Ancak döneminde yapılan itirazlar da olmuştur. Laplace, 1818'de en küçük kareler yönteminin "mutlak sapmaların toplamını minimize etme" (L1 minimizasyonu) yöntemine göre avantajlarını sorgulamıştır [7]. Bazı matematikçiler, kare almanın büyük hatalara orantısız ağırlık verdiğini — yani tek bir "aykırı değer"in (outlier) tüm tahmini bozabileceğini — eleştirmiştir [9]. Bu eleştiri, 20. yüzyılda "sağlam istatistik" (robust statistics) alanının doğuşuna zemin hazırlamıştır.
4d. Genel YZ Tarihindeki Yeri
En küçük kareler yöntemi, yapay zekanın "öğrenme" kapasitesinin matematiksel köklerinden birini oluşturmaktadır [14]. Yöntem olmadan, modern makine öğrenmesinin birçok temel bileşeni mümkün olmazdı:
Lineer regresyon, makine öğrenmesinin en temel ve en yaygın kullanılan algoritmalarından biri olup, doğrudan en küçük kareler optimizasyonuna dayanmaktadır [16]. Bir yapay zeka sistemi, verilerden bir fonksiyonu "öğrendiğinde", çoğu durumda bir tür en küçük kareler minimizasyonu gerçekleştirmektedir.
Kayıp fonksiyonu (loss function) kavramı, modern derin öğrenmenin merkezinde yer alan bu kavram, doğrudan en küçük kareler ilkesinin genelleştirilmiş halidir [15]. Bir sinir ağı eğitilirken minimize edilen "ortalama karesel hata" (mean squared error — MSE), Legendre'nin 1805'te tanımladığı ilkenin modern ifadesidir.
Gradient iniş (gradient descent), en küçük kareler optimizasyonunu çözmek için geliştirilen bu yöntem, bugün milyarlarca parametreli derin öğrenme modellerinin eğitiminin temel algoritmasıdır [14]. Cauchy, 1847'de gradient iniş yöntemini geliştirdiğinde, en küçük kareler problemlerini çözmek motivasyonuyla hareket etmiştir [7].
Normal dağılım, Gauss'un en küçük kareler yöntemiyle bağlantılı olarak formüle ettiği bu dağılım, modern istatistiğin ve makine öğrenmesinin her yerinde karşımıza çıkmaktadır — Bayesçi çıkarımda önsel dağılımlardan, üretken modellerde gürültü dağılımlarına kadar [15].
5. Eleştirel Değerlendirme
En küçük kareler yöntemi, matematiksel zarafeti ve pratik etkinliği nedeniyle hızla kabul görmüş olsa da, hem döneminde hem de sonraki yüzyıllarda önemli eleştirilerle karşılaşmıştır.
Normal dağılım varsayımının sorgulanması: Gauss'un 1809 gerekçelendirmesi, hataların normal dağıldığı varsayımına dayanmaktadır [4]. Ancak gerçek dünya verilerinde hatalar her zaman normal dağılmaz; ağır kuyruklu dağılımlar, aykırı değerler ve sistematik hatalar, normal dağılım varsayımını ihlal edebilir [9]. Bu eleştiri, 20. yüzyılda Peter Huber'in öncülüğünde gelişen "sağlam istatistik" (robust statistics) alanını doğurmuştur [20]. Huber, en küçük kareler yönteminin tek bir aykırı değere karşı bile aşırı duyarlı olduğunu göstererek, daha dayanıklı alternatifler geliştirmiştir.
Aşırı uyum (overfitting) riski: Yeterince fazla parametre kullanıldığında, en küçük kareler yöntemi eğitim verilerine mükemmel uyum sağlar ancak yeni verilerde kötü performans gösterebilir [16]. Bu problem, 20. yüzyılın ikinci yarısında "sapma-varyans dengesi" (bias-variance tradeoff) olarak kavramsallaştırılmış ve Ridge regresyonu (Hoerl ve Kennard, 1970) ile Lasso (Tibshirani, 1996) gibi regularize edilmiş genellemeler geliştirilmiştir [16]. Bayesçi perspektiften bakıldığında, bu regularizasyon teknikleri, parametrelere belirli önsel dağılımlar atamakla eşdeğerdir — böylece Bölüm 6'da incelediğimiz Bayes Teoremi ile en küçük kareler yöntemi arasındaki derin bağlantı bir kez daha ortaya çıkmaktadır [15].
Öncelik tartışmasının bilim etiği boyutu: Legendre-Gauss tartışması, bilimsel keşiflerde öncelik ve atıf meselelerinin önemini gösteren bir vaka çalışmasıdır [5]. Stigler'ın analizine göre, Gauss'un yöntemi daha önce kullanmış olması muhtemeldir ancak kesin kanıt yoktur; öte yandan Gauss'un yöntemi yayımlamadan önce Legendre'nin yayınını görme şansı olmuştur [2]. Bu tartışma, "bir keşfin sahibi kimdir — ilk bulan mı yoksa ilk yayımlayan mı?" sorusunu gündeme getirmektedir. Modern bilim etiği açısından, yayım tarihi belirleyici kabul edilir; bu standarda göre Legendre, yöntemin keşfinin meşru sahibidir [5].
Hesaplama sınırlılıkları: 18. ve 19. yüzyılda, büyük denklem sistemlerini elle çözmek son derece zahmetliydi [9]. Normal denklemlerin çözümü, parametre sayısının artmasıyla hızla zorlaşıyordu. Bu sınırlılık, 20. yüzyılda bilgisayarların gelişmesiyle ortadan kalkmış ve en küçük kareler yönteminin uygulanma alanını dramatik biçimde genişletmiştir [14].
Nedensellik-korelasyon karışıklığı: En küçük kareler yöntemiyle bulunan istatistiksel ilişkiler, nedensel ilişkiler olarak yorumlanamaz [14]. Yöntem, yalnızca verideki örüntüleri tanımlar; bu örüntülerin arkasındaki mekanizmaları açıklamaz. Bu sınırlılık, günümüzde yapay zeka sistemlerinin "açıklanabilirlik" (explainability) tartışmalarının temelinde yer almaktadır.
6. Etik ve Toplumsal Boyutlar
En küçük kareler yöntemi, ilk bakışta saf bir matematiksel araç gibi görünse de, toplumsal ve etik boyutları göz ardı edilemez.
Ölçümün siyaseti: Yöntemin geliştirilme motivasyonlarından biri, ulusal jeodezik projelerin — harita yapımı, sınır belirleme, toprak yönetimi — ihtiyaçlarıydı [10]. Gauss'un Hannover haritalaması, devletin toprak üzerindeki egemenliğini pekiştiren bir araç olarak da okunabilir. Daha geniş perspektiften bakıldığında, "verilere en iyi uyan modeli bulma" ilkesi, devletlerin nüfus sayımı, vergi tahmini ve askeri planlama gibi alanlarda sistematik veri kullanımının matematiksel temelini oluşturmuştur [2].
Objektivite illüzyonu: En küçük kareler yöntemi, verilerden "nesnel" bir sonuç çıkardığı izlenimini yaratır; ancak model seçimi, değişken seçimi ve veri toplama süreci gibi aşamalar kaçınılmaz olarak öznel kararlar içerir [15]. Hangi değişkenlerin modele dahil edileceği, hangi gözlemlerin "aykırı değer" olarak dışlanacağı ve modelin fonksiyonel biçiminin ne olacağı gibi kararlar, sonuçları derinden etkiler. Bu durum, günümüzde algoritmik karar verme sistemlerinin "nesnellik" iddialarının sorgulanmasıyla doğrudan ilişkilidir.
Veri eşitsizliği: En küçük kareler yönteminin "en iyi" tahmini, mevcut verilere dayanır [16]. Ancak veriler, toplumun belirli kesimlerini sistematik olarak daha az temsil edebilir — tarihsel olarak, bilimsel gözlemler belirli coğrafyalarda, belirli kurumlar tarafından, belirli amaçlarla toplanmıştır [2]. Bu durum, yöntemin uygulanmasıyla elde edilen sonuçların evrensellik iddiasını sorgulatmaktadır. Modern yapay zeka bağlamında, eğitim verilerindeki temsil eksiklikleri, modellerin belirli gruplar için sistematik olarak daha kötü performans göstermesine yol açabilmektedir.
Bilimsel öncelik ve etik: Legendre-Gauss tartışması, bilimsel keşiflerin mülkiyeti ve atıf etiği konularında önemli dersler sunmaktadır [5]. Gauss'un, Legendre'nin yayınından dört yıl sonra yöntemi "daha önce bulduğunu" iddia etmesi, bunu kanıtlayacak yeterli belge sunmadan, modern akademik standartlara göre sorunlu bir davranıştır. Bu vaka, akademik dünyada yayın tarihinin neden belirleyici kriter olarak kabul edildiğini ve şeffaflığın neden kritik önem taşıdığını hatırlatmaktadır.
7. Güncel Uygulamalar ve Miras
En küçük kareler yönteminin izleri, günümüz teknolojisinin ve biliminin neredeyse her köşesinde görülmektedir.
Makine öğrenmesi: Lineer regresyon, lojistik regresyon, Ridge, Lasso ve elastik ağ gibi yöntemler doğrudan en küçük kareler ilkesinin uzantılarıdır [16]. Derin öğrenme modellerinde kullanılan ortalama karesel hata (MSE) kayıp fonksiyonu, Legendre'nin 1805'te tanıttığı ilkenin modern ifadesidir. Stokastik gradient iniş — derin öğrenmenin temel eğitim algoritması — en küçük kareler optimizasyonunun büyük veri setleri için uyarlanmış halidir [14].
Sinyal işleme ve kontrol teorisi: GPS navigasyonu, radar sistemleri, iletişim mühendisliği ve otonom araç teknolojileri, gürültülü sensör verilerini en küçük kareler filtreleme yöntemleriyle işlemektedir [17]. Kalman filtresi — otonom araçların ve uzay araçlarının durum tahmininde kullanılan temel algoritma — en küçük kareler ilkesinin dinamik sistemlere uygulanmış bir genellemesidir [14].
Bayesçi makine öğrenmesi: Bishop'ın (2006) gösterdiği gibi, en küçük kareler tahmini, Bayesçi çıkarımın özel bir durumu olarak yorumlanabilir — Gauss gürültüsü ve düzgün önsel varsayımı altında, sonsal dağılımın modu en küçük kareler çözümüyle örtüşür [15]. Bu bağlantı, Bölüm 6'da incelediğimiz Bayes Teoremi ile bu bölümün konusunu derin bir matematiksel birlik içinde birleştirmektedir.
Ekonometri ve sosyal bilimler: Modern ekonometri, en küçük kareler regresyonunun genelleştirilmiş biçimleri üzerine kurulmuştur [16]. Hükümetlerin ekonomi politikası kararlarından şirketlerin pazar araştırmalarına kadar geniş bir yelpazede, en küçük kareler yöntemi temel analiz aracı olarak kullanılmaktadır.
Akademik miras: En küçük kareler yöntemi, istatistik ve makine öğrenmesinde birbirinden farklı araştırma geleneklerini başlatmıştır: Klasik istatistiksel tahmin teorisi (Gauss-Markov-Fisher geleneği), sağlam istatistik (Huber geleneği), regularize edilmiş regresyon (Hoerl-Tibshirani geleneği) ve Bayesçi lineer modeller (Lindley-Zellner geleneği) [16][15]. Bu çeşitlilik, en küçük kareler ilkesinin tek bir disipline indirgenemeyecek kadar temel bir optimizasyon prensibi olduğunu göstermektedir.
8. Bölüm Özeti
Bu bölümde, 1795–1809 yılları arasında Legendre ve Gauss tarafından bağımsız olarak geliştirilen en küçük kareler yönteminin tarihsel, matematiksel ve entelektüel bir analizi sunulmuştur. En küçük kareler yöntemi, gözlemlenen veriler ile teorik bir model arasındaki uyumsuzluğu sistematik biçimde minimize ederek "en iyi uyan" parametreleri bulmanın matematiksel çerçevesini sunarak, yapay zekanın "veriden öğrenme" kapasitesinin temel taşlarından birini oluşturmuştur.
Bölümün ana argümanı şöyle özetlenebilir: En küçük kareler yöntemi, yalnızca bir optimizasyon tekniği değil, aynı zamanda "gürültülü verilerden bilgi çıkarma"nın epistemolojik bir modelidir. Astronomik gözlem hatalarını yönetme ihtiyacından doğan bu yöntem, Gauss'un normal dağılımla ilişkilendirmesiyle olasılık teorisine, Markov'un optimallik kanıtıyla istatistiksel tahmin teorisine ve modern kayıp fonksiyonu kavramıyla yapay zeka araştırmalarına bağlanmıştır.
Kitabın genel argümanı açısından bu bölüm, Bölüm 6'da incelenen Bayes Teoremi'ni tamamlayan bir perspektif sunmaktadır. Bayes, "kanıt ışığında inançlarımızı nasıl güncelleriz?" sorusunu yanıtlamıştı; en küçük kareler yöntemi ise "elimizdeki verilere en iyi uyan modeli nasıl buluruz?" sorusuna somut bir yanıt sunmaktadır. Bu iki soru, yapay zekanın "öğrenme" kapasitesinin iki temel boyutunu oluşturmaktadır.
Bir sonraki bölümde inceleyeceğimiz Jacquard'ın programlanabilir dokuma tezgahı (1804), matematiksel fikirlerin fiziksel makinelere dönüşümünü temsil edecektir — soyut hesaplama ilkelerinin, delikli kartlar aracılığıyla somut bir otomasyon teknolojisine nasıl aktarıldığını göstererek, yapay zekanın donanımsal köklerine doğru ilk adımı atacaktır.
9. Kaynakça
[1] Legendre, A.-M. (1805). Nouvelles méthodes pour la détermination des orbites des comètes. Firmin Didot.
[2] Stigler, S. M. (1986). The history of statistics: The measurement of uncertainty before 1900. Harvard University Press.
[3] Legendre, A.-M. (1805). Appendice: Sur la méthode des moindres carrés. İçinde Nouvelles méthodes pour la détermination des orbites des comètes (ss. 72–80). Firmin Didot.
[4] Gauss, C. F. (1809). Theoria motus corporum coelestium in sectionibus conicis solem ambientium. Friedrich Perthes & I. H. Besser.
[5] Stigler, S. M. (1981). Gauss and the invention of least squares. Annals of Statistics, 9(3), 465–474. https://doi.org/10.1214/aos/1176345451
[6] McGrayne, S. B. (2011). The theory that would not die: How Bayes' rule cracked the Enigma code, hunted down Russian submarines, & emerged triumphant from two centuries of controversy. Yale University Press.
[7] Hald, A. (1998). A history of mathematical statistics from 1750 to 1930. John Wiley & Sons.
[8] Hald, A. (2003). A history of probability and statistics and their applications before 1750. John Wiley & Sons.
[9] Farebrother, R. W. (1999). Fitting linear relationships: A history of the calculus of observations 1750–1900. Springer.
[10] Sheynin, O. B. (1979). C. F. Gauss and the theory of errors. Archive for History of Exact Sciences, 20(1), 21–72. https://doi.org/10.1007/BF00776066
[11] Plackett, R. L. (1972). The discovery of the method of least squares. Biometrika, 59(2), 239–251. https://doi.org/10.1093/biomet/59.2.239
[12] Teets, D., & Whitehead, K. (1999). The discovery of Ceres: How Gauss became famous. Mathematics Magazine, 72(2), 83–93. https://doi.org/10.1080/0025570X.1999.11996710
[13] Rao, C. R. (1973). Linear statistical inference and its applications (2. baskı). John Wiley & Sons.
[14] Russell, S., & Norvig, P. (2020). Artificial intelligence: A modern approach (4. baskı). Pearson.
[15] Bishop, C. M. (2006). Pattern recognition and machine learning. Springer.
[16] Hastie, T., Tibshirani, R., & Friedman, J. (2009). The elements of statistical learning: Data mining, inference, and prediction (2. baskı). Springer.
[17] Sankur, B. (2004). İşaret işleme. Boğaziçi Üniversitesi Yayınevi.
[18] Yıldırım, C. (1979). Bilim felsefesi. Remzi Kitabevi.
[19] Bayes, T. (1763). An essay towards solving a problem in the doctrine of chances. Philosophical Transactions of the Royal Society of London, 53, 370–418. https://doi.org/10.1098/rstl.1763.0053
[20] Huber, P. J. (1981). Robust statistics. John Wiley & Sons.
[21] Hoerl, A. E., & Kennard, R. W. (1970). Ridge regression: Biased estimation for nonorthogonal problems. Technometrics, 12(1), 55–67. https://doi.org/10.1080/00401706.1970.10488634
[22] Tibshirani, R. (1996). Regression shrinkage and selection via the lasso. Journal of the Royal Statistical Society, Series B, 58(1), 267–288.
[23] Gauss, C. F. (1821). Theoria combinationis observationum erroribus minimis obnoxiae. Commentationes Societatis Regiae Scientiarum Gottingensis Recentiores, 5, 33–62.
[24] Laplace, P.-S. (1812). Théorie analytique des probabilités. Courcier.
[25] Markov, A. A. (1912). Wahrscheinlichkeitsrechnung. Teubner.
10. Tartışma Soruları
1. Analitik: En küçük kareler yönteminde neden hataların karelerinin toplamı minimize edilir, mutlak değerlerinin toplamı değil? Bu seçimin matematiksel ve pratik gerekçeleri nelerdir ve farklı bir kriter seçilseydi yöntemin gelişim tarihi nasıl değişebilirdi?
2. Karşılaştırmalı: Legendre'nin 1805'teki pragmatik sunumu ile Gauss'un 1809'daki olasılıksal gerekçelendirmesi arasındaki temel fark nedir? Bu iki yaklaşım, bilimsel yöntem felsefesi açısından "bir yöntemin geçerliliği neyle ölçülür?" sorusuna farklı yanıtlar vermekte midir?
3. Spekülatif: Gauss, Ceres'in yörüngesini en küçük kareler yöntemiyle hesaplayıp dramatik bir başarı elde etmemiş olsaydı, yöntemin bilim dünyasında kabul görmesi ne kadar gecikebilirdi? Bir yöntemin başarısı, matematiksel kanıtlardan mı yoksa pratik gösterilerden mi daha çok etkilenir?
4. Etik: Legendre-Gauss öncelik tartışması, günümüz akademik dünyasındaki atıf ve öncelik meselelerine ne gibi dersler sunmaktadır? Bir bilimsel keşfin "sahibi" ilk bulan mı yoksa ilk yayımlayan mıdır?
5. Güncel: Modern derin öğrenme modellerinde kullanılan "ortalama karesel hata" (MSE) kayıp fonksiyonu, Legendre'nin 1805'te tanıttığı ilkenin doğrudan bir devamı mıdır? Bir yapay sinir ağının eğitimi ile 18. yüzyıl astronomlarının yörünge hesabı arasında ne gibi kavramsal paralellikler vardır?
6. Karşılaştırmalı: Bölüm 6'da incelenen Bayes Teoremi ile bu bölümde incelenen en küçük kareler yöntemi, "veriden öğrenme" problemine farklı açılardan yaklaşmaktadır. Bu iki yaklaşım birbirini nasıl tamamlamaktadır? Modern yapay zekada hangisi daha merkezi bir role sahiptir?
7. Analitik: Gauss-Markov teoremi, en küçük kareler tahmininin "en iyi doğrusal yansız tahmin edici" (BLUE) olduğunu garanti eder. Ancak gerçek dünya verileri bu teoremin varsayımlarını ne sıklıkla ihlal etmektedir? Bu ihlallerin modern makine öğrenmesi uygulamalarında ne gibi sonuçları olabilir?
8. Etik: En küçük kareler yöntemi, verilere "en iyi uyan" modeli bulmayı amaçlar; ancak "en iyi uyum", verideki sistematik önyargıları da öğrenmek anlamına gelebilir. Bu durum, algoritmik adalet tartışmaları açısından ne anlama gelmektedir? Bir model, tarihsel verilere mükemmel uyum sağlarken aynı zamanda toplumsal önyargıları da yeniden üretebilir mi?
9. Spekülatif: En küçük kareler yöntemi astronomik gözlem hatalarını yönetme ihtiyacından doğmuştur. Eğer bu dönemde astronomi yerine başka bir bilimsel alan (örneğin tıp veya kimya) daha baskın olsaydı, farklı bir optimizasyon ilkesi mi geliştirilirdi yoksa sonuç aynı mı olurdu?
10. Güncel: Regularizasyon teknikleri (Ridge, Lasso) en küçük kareler yönteminin aşırı uyum (overfitting) sorununu çözmek için geliştirilmiştir. Bu tekniklerin Bayesçi bir yorum olarak — parametrelere önsel dağılım atama olarak — görülebilmesi, yapay zekanın farklı matematik geleneklerinin birleşimi olduğunu nasıl göstermektedir?