強化學(xué)習(xí)-族譜新聞-族譜網(wǎng)

強化學(xué)習(xí)

2020-10-16

出處：族譜網(wǎng)

作者：阿族小譜

瀏覽:644次

轉(zhuǎn)發(fā):0次

評論:0

導(dǎo)論基本的強化學(xué)習(xí)模型包括：環(huán)境狀態(tài)的集合S{displaystyleS};動作的集合A{displaystyleA};在狀態(tài)之間轉(zhuǎn)換的規(guī)則；規(guī)定轉(zhuǎn)換后“即時獎勵”的規(guī)則；描述主體能夠觀察到什么的

導(dǎo)論

基本的強化學(xué)習(xí)模型包括：

環(huán)境狀態(tài)的集合S{\displaystyle S};

動作的集合A{\displaystyle A};

在狀態(tài)之間轉(zhuǎn)換的規(guī)則；

規(guī)定轉(zhuǎn)換后“即時獎勵”的規(guī)則；

描述主體能夠觀察到什么的規(guī)則。

規(guī)則通常是隨機的。主體通?？梢杂^察即時獎勵和最后一次轉(zhuǎn)換。在許多模型中，主體被假設(shè)為可以觀察現(xiàn)有的環(huán)境狀態(tài)，這種情況稱為“完全可觀測”（full observability），反之則稱為“部分可觀測”（partial observability）。有時，主體被允許的動作是有限的（例如，你使用的錢不能多于你所擁有的）。

強化學(xué)習(xí)的主體與環(huán)境基于離散的時間步長相作用。在每一個時間t{\displaystyle t}，主體接收到一個觀測ot{\displaystyle o_{t}}，通常其中包含獎勵rt{\displaystyle r_{t}}。然后，它從允許的集合中選擇一個動作at{\displaystyle a_{t}}，然后送出到環(huán)境中去。環(huán)境則變化到一個新的狀態(tài)st+1{\displaystyle s_{t+1}}，然后決定了和這個變化(st,at,st+1){\displaystyle (s_{t},a_{t},s_{t+1})}相關(guān)聯(lián)的獎勵rt+1{\displaystyle r_{t+1}}。強化學(xué)習(xí)主體的目標，是得到盡可能多的獎勵。主體選擇的動作是其歷史的函數(shù)，它也可以選擇隨機的動作。

將這個主體的表現(xiàn)和自始自終以最優(yōu)方式行動的主體相比較，它們之間的行動差異產(chǎn)生了“悔過”的概念。如果要接近最優(yōu)的方案來行動，主體必須根據(jù)它的長時間行動序列進行推理：例如，要最大化我的未來收入，我最好現(xiàn)在去上學(xué)，雖然這樣行動的即時貨幣獎勵為負值。

因此，強化學(xué)習(xí)對于包含長期反饋的問題比短期反饋的表現(xiàn)更好。它在許多問題上得到應(yīng)用，包括機器人控制、電梯調(diào)度、電信通訊、雙陸棋和西洋跳棋。

強化學(xué)習(xí)的強大能來源于兩個方面：使用樣本來優(yōu)化行為，使用函數(shù)近似來描述復(fù)雜的環(huán)境。它們使得強化學(xué)習(xí)可以使用在以下的復(fù)雜環(huán)境中：

模型的環(huán)境未知，且解析解不存在；

僅僅給出環(huán)境的模擬模型（模擬優(yōu)化方法的問題）

從環(huán)境中獲取信息的唯一辦法是和它互動。前兩個問題可以被考慮為規(guī)劃問題，而最后一個問題可以被認為是genuine learning問題。使用強化學(xué)習(xí)的方法，這兩種規(guī)劃問題都可以被轉(zhuǎn)化為機器學(xué)習(xí)問題。

免責(zé)聲明：以上內(nèi)容版權(quán)歸原作者所有，如有侵犯您的原創(chuàng)版權(quán)請告知，我們將盡快刪除相關(guān)內(nèi)容。感謝每一位辛勤著寫的作者，感謝每一位的分享。

——— 沒有了 ———