Sonuçlar Belirsiz Olduğunda Daha İyi Kararlar Almak

0
435

Sonuçlar belirsiz olduğunda daha İyi kararlar almak için basit bir istatistiksel beceri, karar süreçlerinin her yerde bulunan bir modelini daha doğru hale getirmeye yardımcı olabilir.

Markov karar süreçleri (Markov decision processes (MDP ‘ler)), hem mevcut durum hem de gelecekteki sonuçlar belirsiz olduğunda en iyi eylem biçimlerini belirlemek için kullanılan matematiksel modellerdir. Doğal kaynak yönetimi, imalat, operasyon yönetimi, robot kontrolü, finans, epidemiyoloji, bilimsel tasarım ve tenis stratejisi gibi pek çok uygulamaya sahiplerdir.

Fakat Markov karar süreçlerini (MDP ‘ler) içeren analizler genellikle bazı basitleştirici varsayımlar yapar. Bir MDP’de belirli bir karar, her zaman öngörülebilir bir sonuç vermez, bir dizi olası sonuç verebilir. Ve bu sonuçların her biri farklı bir “değere” sahiptir. Bu, sonunda sonuçta istenen sonuca gideceği anlamına gelir.

Verilen kararın değerinin karakterize edilmesi, yasaklayıcı olarak zaman alıcı olabilen ampirik(deneysel) verilerin toplanmasını gerektirir, bu nedenle analistler genellikle eğitimli tahminler yaparlar. Bununla birlikte, MDP analizinin her durumda en iyi kararı garanti etmediği anlamına gelir.

Geçen ay yayınlanan Yapay Sinir Bilgi İşleme Sistemleri Konferansı‘nda, MIT ve Duke Üniversitesi’nden araştırmacılar, MDP analizini daha güvenli temellere oturtmak için bir adım attılar. İstatistikte uzun zamandan beri bilinen ancak makine öğrenmesinde az kullanılan basit bir numarayı benimseyerek, daha önce gerekli göründüğünden daha az ampirik veri toplarken, belli bir kararın değerini doğru olarak tanımlamak mümkün hale geldi.

Makalelerinde, araştırmacılar, olasılıkların karakterize edilmesine yönelik standart yaklaşımın, güvenilir bir değer tahmini sağlamak için aynı karara neredeyse 4 milyon kez yapılması gerektiği basit bir örnekte bahsediyorlardı.

MIT Bilgi ve Karar Sistemleri Laboratuvarı’ndaki postdoc ve yeni yazıyla ilgili ilk yazar Jason Pazis, “İnsanlar şu anda bu kadar çok örneklem kullanan bir şeyi kullanmaya başlayacak değil” diyor. “Örnek karmaşıklığını azaltmanın bir yolunu gösterdik. Ve umarım, diğer birçok yönden ortogonaldır(dikey), bu yüzden onları birleştirebiliriz.”

Tahmin Edilemeyen Sonuçlar

Araştırmacılar, gazetelerinde, bir robotun çevresini keşfetme simülasyonlarını da rapor ediyorlar; bu yaklaşımlar, mevcut yaklaşımdan daha iyi sonuç verdiğini gösteriyor. Ancak Pazis; Düşük örneklem büyüklüklerinde farklı algoritmaların göreli performansı hakkında hiçbir şey ispatlamamıştır.

Bir kararın olası sonuçları bir olasılık dağılımına göre açıklanabilmesine rağmen, kararın beklenen değeri sadece tüm sonuçların ortalama değeridir. Normal dağılım denilen tanıdık çan eğrisinde, ortalama çanın en yüksek noktasını tanımlar.

Araştırmacıların algoritmasının kullandığı hile, ‘ortalamanın aracı’ olarak adlandırılır. Bir grup rastgele değeriniz varsa ve bunlar elde edildiği doğal yol, ortalamaları elde etmektir. Olasılık dağılımının ortalamasını tahmin etmeniz istenir. Ancak, örneklemeniz bazı ender ancak aşırı uç değerler içeriyorsa, ortalamalar, doğru dağılımın çarpık bir resmini verebilir. Örneğin, 10 Amerikalı erkekten birinin bir örneğine sahipseniz, dokuz tanesi gerçek 5 fit 10 inç ortalamasının etrafında kümelendiği, ancak biri 7 fit-2 inçlik olan düz ortalamanın, ortalaması 1 inç ve 1,5 ortalama verecektir..

Araç ortalamasını kullanırsanız, bunun yerine örneklemenizi alt gruplara bölüyorsunuz, bunların her birinin ortalamasını alıyorsunuz ve sonuçların ortanca değerini alıyorsunuz. Değerlerinizi en düşükten en yükseğe ayarlarsanız, medyan, ortada kalan değerdir.

Değer Önermeleri

MDP analizinin amacı, bazı ödül fonksiyonlarının değerini en üst düzeye çıkaran, bir dizi politika (veya belirli koşullar altında eylemler) belirlemektir. Bir imalat ortamında, ödül fonksiyonu üretim hacmine karşı operasyonel maliyetleri ölçebilir; Robot kontrolünde, bir görevi tamamlama yönündeki ilerlemeyi ölçebilir.

Ancak verilen bir karar, “karar fonksiyonu” adı verilen çok daha karmaşık bir ölçüye göre değerlendirilir; bu, sadece bu kararın değil, olası her kararın beklenen ödülünün olasılıklı bir tahmini olan “değer fonksiyonu” olarak adlandırılır.

 

*Kaynak: http://news.mit.edu/2017/statistical-trick-decision-processes-more-accurate-0321

Facebook Yorumları