马尔科夫决策过程
MDP如何定义
一个MDP提供了一种正式方式来描述强化学习问题中的环境,它假设环境满足马尔可夫性质,也就是未来状态和奖励只取决于当前状态和动作,而不依赖于之前的全部历史。
一个MDP由一个包含五个组成部分的元组定义$(S,A,P,R,\gamma)$
状态空间 (S)
状态空间(S)是环境可能处于的所有状态的集合。
一个重要假设是马尔可夫性质。它表明转移到下一个状态s’的概率只取决于当前状态s和所采取的动作a,与之前所有的状态和动作无关。
如果$S_t$是时间t的状态,且$A_t$是时间t的动作:
$$P(S_{t+1}=s’|S_t=s,A_t=a,S_{t-1},A_{t-1},…,S_0,A_0) = P(S_{t+1}=s’|S_t=s,A_t=a)$$
动作空间(A)
动作空间A是智能体可以从中选择的所有可能动作的集合。有时,可用动作的集合取决于当前状态 s,在这种情况下我们将其表示为 A(s)。动作 a∈A或a∈A(s)是智能体在给定时间步做出的决策。
转移概率函数(P)
转移概率函数P描述了环境的动态特性,常被称为模型。它指定了在智能体采取动作a的情况下,从当前状态s转移到下一个状态s’的概率。
$$P(s’|s,a)=Pr(S_{t+1}=s’|S_t=s,A_t=a)$$
这个函数告诉我们在给定当前状态 s和所采取动作a的情况下,每个潜在结果s’的可能性有多大。对于任何起始状态s和动作a,所有可能后继状态s’的和必须等于1:
$$\sum_{s’ \in S}P(s’|s,a) = 1$$
转移函数描绘了环境的基本规则。大多数情况下对于某个(s,a),其后继状态是不确定的,也就是在某个状态采取相同的动作可能导致不同的结果。
奖励函数®
奖励函数R定义了智能体从环境中获得的即时反馈信号
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 星语的博客!





