Takviyeli/Pekiştirmeli Öğrenme (Reinforcement Learning)
Takviyeli/Pekiştirmeli
Öğrenme
(Reinforcement
Learning)
İçindekiler
1-Takviyeli öğrenme nedir
2-Takviyeli öğrenmenin diğer öğrenme yöntemlerinden farkı
3-Örnekler
3.1 AlphaGo
3.2 Pekiştirmeli öğrenme(köpek-kız)
3.3 Pekiştirmeli öğrenme(bebeğin sıcak bir yüzeyle teması)
Takviyeli/Pekiştirmeli
öğrenme(Reinforement Learning),bulunduğu ortamı algılayan ve kendi başına
kararlar alabilen bir sistemin,hedefine ulaşabilmesinde doğru kararlar almayı
nasıl öğrenebileceğini gösterir.
Daha düzgün bir
ifadeyle öğrenen makinemiz(ajan) karşılaştığı her durumda bir tepki verir ve
bunun karşılığında sayısal bir ödül veya ceza alır.Aldığı ödül puanlarını
maksimuma çıkarmak için çalışır.Bu şekilde çalışan deneme yanılma yöntemiyle
diğer ögrenme yöntemlerinden(denetimli,denetimsiz öğrenme) ayırt edilebilir.
Takviyeli
öğrenmede bir eğitmen bulunur.Danışmanlı öğrenmedeki gibi sisteme çok bilgi
vermez veya veremez.Ödül ve ceza olduğundan,sistem bir karar verdiğinde bu
kararın doğru olduğu durumlar için sistemi ödüllendirir ve yanlışlar için de
cezalandırır.
TAKVİYELİ ÖĞRENMENİN DİĞER ÖĞRENME YÖNTEMLERİNDEN FARKI
- ·
Herhangi bir danışman(supervisor) yoktur.Sadece ödül ve cezalar vardır.
- ·
Önceki yapmış olduğu kararlar,gelecekte almış olduğu kararları etkiler.
- ·
Geri besleme (Feedback) anlık değildir,gecikmelidir.
- ·
Yapılan kararların iyi veya kötü olduğu oyunun,projenin…vb sonunda
anlaşılır.
Daha fazla kafa
karıştırmadan günlük hayattan örneklerle anlatmak daha kolay olacaktır.
1
ÖRNEKLER(GÜNLÜK HAYATTAN YOLA ÇIKARAK)
Örnek-1
Ekim 2015'te, 19x19'luk tahtada profesyonel bir
go oyuncusunu avantaj verilmeden yenmiş ve bu galibiyetten sonra Mart
ayında Lee Sedol ile 5 maç üzerinden yapılan oyunu da 4'e karşı 1 yenerek, dan-9 seviyesinde bir go oyuncusunu avantajsız yenen
ilk bilgisayar programı olmuştur.
2
Örnek-2
Örnek-2
Takviye öğrenimini daha iyi anlamak için, gerçek dünyadaki
eşdeğer bir duruma bakalım.
Bu durumda takviye öğrenmesinin amacı, köpeği
(ajan), köpeğin çevresini ve eğiticiyi içeren bir ortamda bir görevi tamamlamak
için eğitmektir.
·
İlk olarak, eğitmen köpeğin gözlemlediği bir
komut veya ipucu verir (gözlem).
·
Köpek daha sonra harekete geçerek yanıt
verir.
·
Eylem istenen davranışa yakınsa, eğitmen
muhtemelen bir yiyecek muamelesi veya oyuncak gibi bir ödül sağlayacaktır; aksi
takdirde hiçbir ödül veya olumsuz bir ödül verilmeyecektir.
Sonuç:
Gözlemler ve eylemler arasındaki bu ilişkiye
veya haritalamaya politika denir.
Köpeğin bakış açısından, ideal durum, her ipucuna doğru bir şekilde tepki
vereceği bir durumdur, böylece mümkün olduğunca çok muamele görür. Bu nedenle,
takviye öğrenme eğitiminin tüm anlamı, köpeğin politikasını “ayarlamak” tır,
böylece bir miktar ödülü en üst düzeye çıkaracak istenen davranışları öğrenir.
Eğitim tamamlandıktan sonra köpekler, sahibini gözlemleyebilmeli ve uygun eylemi
yapabilmelidir, örneğin, geliştirdiği iç politikayı kullanarak “oturmak” komutu
verildiğinde oturmalıdır.
3
Örnek-3
Öğrenme çağındaki
bir bebeği düşündüğümüzde sıcak bir sobaya veya çaya dokunduğunda elinin yanmasıyla bir daha çaya
dokunmak istemeyecektir.
Bu durumda öğrenme
bebeğin çevresiyle olan etkileşimi ve çevreden geri bildirim almasıyla bu
duruma negative reward(ödül) diyebiliriz.
Takviyeli/Pekiştirmeli
öğrenme aynı şekilde Satranç,GTA 5,Doom,Pong,Mario,Pacman,Tetris ve bir çok
atari oyununda da başarıyla uygulanmıştır.
4
Kaynakça
Kaynakça
https://medium.com/deep-learning-turkiye/peki̇şti̇rmeli̇-öğrenmeye-gi̇ri̇ş-seri̇si̇-1-8f5c35b6044
Yorumlar
Yorum Gönder