歷程檔案 Portfolio

9. 強化學習

強化學習（英語：Reinforcement learning，簡稱RL）是機器學習中的一個領域，強調如何基於環境而行動，以取得最大化的預期利益^[1]。強化學習是除了監督學習和非監督學習之外的第三種基本的機器學習方法。與監督學習不同的是，強化學習不需要帶標籤的輸入輸出對，同時也無需對非最優解的精確地糾正。其關注點在於尋找探索（對未知領域的）和利用（對已有知識的）的平衡^[2]，強化學習中的「探索-利用」的交換，在多臂老虎機問題和有限MDP中研究得最多。

其靈感來源於心理學中的行為主義理論，即有機體如何在環境給予的獎勵或懲罰的刺激下，逐步形成對刺激的預期，產生能獲得最大利益的習慣性行為。這個方法具有普適性，因此在其他許多領域都有研究，例如博弈論、控制論、運籌學、資訊理論、仿真優化、多智能體系統、群體智能、統計學以及遺傳算法。在運籌學和控制理論研究的語境下，強化學習被稱作「近似動態規劃」（approximate dynamic programming，ADP）。在最優控制理論中也有研究這個問題，雖然大部分的研究是關於最優解的存在和特性，並非是學習或者近似方面。在經濟學和博弈論中，強化學習被用來解釋在有限理性的條件下如何出現平衡。

在機器學習問題中，環境通常被抽象為馬爾可夫決策過程（Markov decision processes，MDP），因為很多強化學習算法在這種假設下才能使用動態規劃的方法^[3]。傳統的動態規劃方法和強化學習算法的主要區別是，後者不需要關於MDP的知識，而且針對無法找到確切方法的大規模MDP。^[4]

介紹[編輯]

強化學習的典型框架：智能體在環境中採取一種行為，環境將其轉換為一次回報和一種狀態表示，隨後反饋給智能體。

由於其通用性很強，強化學習已經在諸如博弈論、控制論、運籌學、資訊理論、仿真優化、多智能體、群體智能和統計學等領域有了深入研究。在運籌學和控制文獻中，強化學習被稱為近似動態規劃或神經動態規劃。強化學習所感興趣的問題在最優控制（一種關注最優解的存在性、表示和求解的理論，但較少涉及學習和近似）中也有所研究，尤其是環境的數學模型難以求得的時候。在經濟學和博弈論中，強化學習可能被用來解釋在有限的理性（rationality）下如何達到平衡狀態。

基本的強化學習被建模為馬爾可夫決策過程：

環境狀態的集合 $S$ ;
動作的集合 $A$ ;
在狀態之間轉換的規則（轉移概率矩陣） $P$ ；
規定轉換後「即時獎勵」的規則（獎勵函數） $R$ ；
描述主體能夠觀察到什麼的規則。

規則通常是隨機的。主體通常可以觀察即時獎勵和最後一次轉換。在許多模型中，主體被假設為可以觀察現有的環境狀態，這種情況稱為「完全可觀測」（full observability），反之則稱為「部分可觀測」（partial observability）。通常，主體被允許的動作是有限的，例如，在棋盤中棋子只能上、下、左、右移動，或是使用的錢不能多於所擁有的。

強化學習的主體與環境基於離散的時間步作用。在每一個時間 $t$ ，主體接收到一個觀測 $o_{t}$ ，通常其中包含獎勵 $r_{t}$ 。然後，它從允許的集合中選擇一個動作 $a_{t}$ ，然後送出到環境中去。環境則變化到一個新的狀態 $s_{t+1}$ ，然後決定了和這個變化 $(s_{t},a_{t},s_{t+1})$ 相關聯的獎勵 $r_{t+1}$ 。強化學習主體的目標，是得到儘可能多的獎勵。主體選擇的動作是其歷史的函數，它也可以選擇隨機的動作。