強化學(xué)習(xí)
導(dǎo)論
基本的強化學(xué)習(xí)模型包括:
環(huán)境狀態(tài)的集合S{\displaystyle S};
動作的集合A{\displaystyle A};
在狀態(tài)之間轉(zhuǎn)換的規(guī)則;
規(guī)定轉(zhuǎn)換后“即時獎勵”的規(guī)則;
描述主體能夠觀察到什么的規(guī)則。
規(guī)則通常是隨機的。主體通??梢杂^察即時獎勵和最后一次轉(zhuǎn)換。在許多模型中,主體被假設(shè)為可以觀察現(xiàn)有的環(huán)境狀態(tài),這種情況稱為“完全可觀測”(full observability),反之則稱為“部分可觀測”(partial observability)。有時,主體被允許的動作是有限的(例如,你使用的錢不能多于你所擁有的)。
強化學(xué)習(xí)的主體與環(huán)境基于離散的時間步長相作用。在每一個時間t{\displaystyle t},主體接收到一個觀測ot{\displaystyle o_{t}},通常其中包含獎勵rt{\displaystyle r_{t}}。然后,它從允許的集合中選擇一個動作at{\displaystyle a_{t}},然后送出到環(huán)境中去。環(huán)境則變化到一個新的狀態(tài)st+1{\displaystyle s_{t+1}},然后決定了和這個變化(st,at,st+1){\displaystyle (s_{t},a_{t},s_{t+1})}相關(guān)聯(lián)的獎勵rt+1{\displaystyle r_{t+1}}。強化學(xué)習(xí)主體的目標,是得到盡可能多的獎勵。主體選擇的動作是其歷史的函數(shù),它也可以選擇隨機的動作。
將這個主體的表現(xiàn)和自始自終以最優(yōu)方式行動的主體相比較,它們之間的行動差異產(chǎn)生了“悔過”的概念。如果要接近最優(yōu)的方案來行動,主體必須根據(jù)它的長時間行動序列進行推理:例如,要最大化我的未來收入,我最好現(xiàn)在去上學(xué),雖然這樣行動的即時貨幣獎勵為負值。
因此,強化學(xué)習(xí)對于包含長期反饋的問題比短期反饋的表現(xiàn)更好。它在許多問題上得到應(yīng)用,包括機器人控制、電梯調(diào)度、電信通訊、雙陸棋和西洋跳棋。
強化學(xué)習(xí)的強大能來源于兩個方面:使用樣本來優(yōu)化行為,使用函數(shù)近似來描述復(fù)雜的環(huán)境。它們使得強化學(xué)習(xí)可以使用在以下的復(fù)雜環(huán)境中:
模型的環(huán)境未知,且解析解不存在;
僅僅給出環(huán)境的模擬模型(模擬優(yōu)化方法的問題)
從環(huán)境中獲取信息的唯一辦法是和它互動。前兩個問題可以被考慮為規(guī)劃問題,而最后一個問題可以被認為是genuine learning問題。使用強化學(xué)習(xí)的方法,這兩種規(guī)劃問題都可以被轉(zhuǎn)化為機器學(xué)習(xí)問題。
免責(zé)聲明:以上內(nèi)容版權(quán)歸原作者所有,如有侵犯您的原創(chuàng)版權(quán)請告知,我們將盡快刪除相關(guān)內(nèi)容。感謝每一位辛勤著寫的作者,感謝每一位的分享。
- 有價值
- 一般般
- 沒價值
{{item.userName}} 舉報
{{item.time}} {{item.replyListShow ? '收起' : '展開'}}評論 {{curReplyId == item.id ? '取消回復(fù)' : '回復(fù)'}}
{{_reply.userName}} 舉報
{{_reply.time}}