Takviyeli/Pekiştirmeli Öğrenme (Reinforcement Learning)


Takviyeli/Pekiştirmeli Öğrenme

(Reinforcement Learning)



İçindekiler  

          1-Takviyeli öğrenme nedir
          2-Takviyeli öğrenmenin diğer öğrenme yöntemlerinden farkı                  
3-Örnekler 

3.1 AlphaGo

3.2 Pekiştirmeli öğrenme(köpek-kız)

3.3 Pekiştirmeli öğrenme(bebeğin sıcak bir yüzeyle  teması) 




Takviyeli Öğrenme (Reinforement Learning) nedir?



Takviyeli/Pekiştirmeli öğrenme(Reinforement Learning),bulunduğu ortamı algılayan ve kendi başına kararlar alabilen bir sistemin,hedefine ulaşabilmesinde doğru kararlar almayı nasıl öğrenebileceğini gösterir.
Daha düzgün bir ifadeyle öğrenen makinemiz(ajan) karşılaştığı her durumda bir tepki verir ve bunun karşılığında sayısal bir ödül veya ceza alır.Aldığı ödül puanlarını maksimuma çıkarmak için çalışır.Bu şekilde çalışan deneme yanılma yöntemiyle diğer ögrenme yöntemlerinden(denetimli,denetimsiz öğrenme) ayırt edilebilir.


Takviyeli öğrenmede bir eğitmen bulunur.Danışmanlı öğrenmedeki gibi sisteme çok bilgi vermez veya veremez.Ödül ve ceza olduğundan,sistem bir karar verdiğinde bu kararın doğru olduğu durumlar için sistemi ödüllendirir ve yanlışlar için de cezalandırır.
TAKVİYELİ ÖĞRENMENİN DİĞER ÖĞRENME YÖNTEMLERİNDEN FARKI
  • ·         Herhangi bir danışman(supervisor) yoktur.Sadece ödül ve cezalar vardır.
  • ·         Önceki yapmış olduğu kararlar,gelecekte almış olduğu kararları etkiler.
  • ·         Geri besleme (Feedback) anlık değildir,gecikmelidir.
  • ·         Yapılan kararların iyi veya kötü olduğu oyunun,projenin…vb sonunda anlaşılır.


Daha fazla kafa karıştırmadan günlük hayattan örneklerle anlatmak daha kolay olacaktır.
                                                                                      1 
ÖRNEKLER(GÜNLÜK HAYATTAN YOLA ÇIKARAK)

Örnek-1

AlphaGo Google DeepMind tarafından geliştirilen Go oyununu oynayan bir programdır. AlphaGo, yapay zeka altyapısı olarak “Pekiştirmeli Öğrenme” denilen (Reinforcement learning) bir derin öğrenme tekniğini kullanmışlardır. Bu yapay zekaya sürekli deneme yanılma yöntemleri kullanarak,hiç duymadığı bir kişiye yabancı dil öğretmek gibi Go oyununu öğretmişlerdir.
Ekim 2015'te, 19x19'luk tahtada profesyonel bir go oyuncusunu avantaj verilmeden yenmiş ve bu galibiyetten sonra Mart ayında Lee Sedol ile 5 maç üzerinden yapılan oyunu da 4'e karşı 1 yenerekdan-9 seviyesinde bir go oyuncusunu avantajsız yenen ilk bilgisayar programı olmuştur.
                                                                                      2
Örnek-2
Takviye öğrenimini daha iyi anlamak için, gerçek dünyadaki eşdeğer bir duruma bakalım. 


Bu durumda takviye öğrenmesinin amacı, köpeği (ajan), köpeğin çevresini ve eğiticiyi içeren bir ortamda bir görevi tamamlamak için eğitmektir.
·         İlk olarak, eğitmen köpeğin gözlemlediği bir komut veya ipucu verir (gözlem).
·         Köpek daha sonra harekete geçerek yanıt verir.
·         Eylem istenen davranışa yakınsa, eğitmen muhtemelen bir yiyecek muamelesi veya oyuncak gibi bir ödül sağlayacaktır; aksi takdirde hiçbir ödül veya olumsuz bir ödül verilmeyecektir.

Sonuç:
Gözlemler ve eylemler arasındaki bu ilişkiye veya haritalamaya politika denir. Köpeğin bakış açısından, ideal durum, her ipucuna doğru bir şekilde tepki vereceği bir durumdur, böylece mümkün olduğunca çok muamele görür. Bu nedenle, takviye öğrenme eğitiminin tüm anlamı, köpeğin politikasını “ayarlamak” tır, böylece bir miktar ödülü en üst düzeye çıkaracak istenen davranışları öğrenir.

Eğitim tamamlandıktan sonra köpekler, sahibini gözlemleyebilmeli ve uygun eylemi yapabilmelidir, örneğin, geliştirdiği iç politikayı kullanarak “oturmak” komutu verildiğinde oturmalıdır.
                                                                           3
Örnek-3
Öğrenme çağındaki bir bebeği düşündüğümüzde sıcak bir sobaya veya çaya  dokunduğunda elinin yanmasıyla bir daha çaya dokunmak istemeyecektir.

Bu durumda öğrenme bebeğin çevresiyle olan etkileşimi ve çevreden geri bildirim almasıyla bu duruma negative reward(ödül) diyebiliriz.

Takviyeli/Pekiştirmeli öğrenme aynı şekilde Satranç,GTA 5,Doom,Pong,Mario,Pacman,Tetris ve bir çok atari oyununda da başarıyla uygulanmıştır.
                                                                              4
Kaynakça

Yorumlar

Bu blogdaki popüler yayınlar

Veri Madenciliği Bilgi Keşfi Nedir? Bilgi Keşfi Süreçleri Nelerdir?

QR Kod nedir? Ne İşe Yarar? Nerelerde Kullanılır? Nasıl Taranır?