加载中...
文章
7
标签
6
分类
3
首页
归档
分类
标签
星语的博客
Q-learning
返回首页
搜索
首页
归档
分类
标签
Q-learning
发表于
2026-01-06
|
更新于
2026-01-07
|
强化学习
|
浏览量:
文章作者:
zhxy
文章链接:
http://example.com/2026/01/06/Qleaning/
版权声明:
本博客所有文章除特别声明外,均采用
CC BY-NC-SA 4.0
许可协议。转载请注明来源
星语的博客
!
强化学习
算法
上一篇
马尔科夫决策过程
MDP如何定义 一个MDP提供了一种正式方式来描述强化学习问题中的环境,它假设环境满足马尔可夫性质,也就是未来状态和奖励只取决于当前状态和动作,而不依赖于之前的全部历史。 一个MDP由一个包含五个组成部分的元组定义$(S,A,P,R,\gamma)$ 状态空间 (S) 状态空间(S)是环境可能处于的所有状态的集合。 一个重要假设是马尔可夫性质。它表明转移到下一个状态s’的概率只取决于当前状态s和所采取的动作a,与之前所有的状态和动作无关。 如果$S_t$是时间t的状态,且$A_t$是时间t的动作: $$P(S_{t+1}=s’|S_t=s,A_t=a,S_{t-1},A_{t-1},…,S_0,A_0) = P(S_{t+1}=s’|S_t=s,A_t=a)$$ 动作空间(A) 动作空间A是智能体可以从中选择的所有可能动作的集合。有时,可用动作的集合取决于当前状态 s,在这种情况下我们将其表示为 A(s)。动作 a∈A或a∈A(s)是智能体在给定时间步做出的决策。 转移概率函数(P) 转移概率函数P描述了环境的动态特性,常被称为模型。它指定了在智能体采取动作a的情况下,从当前状态...
下一篇
C语言模拟面向对象
C语言模拟面向对象
相关推荐
2026-01-06
马尔科夫决策过程
MDP如何定义 一个MDP提供了一种正式方式来描述强化学习问题中的环境,它假设环境满足马尔可夫性质,也就是未来状态和奖励只取决于当前状态和动作,而不依赖于之前的全部历史。 一个MDP由一个包含五个组成部分的元组定义$(S,A,P,R,\gamma)$ 状态空间 (S) 状态空间(S)是环境可能处于的所有状态的集合。 一个重要假设是马尔可夫性质。它表明转移到下一个状态s’的概率只取决于当前状态s和所采取的动作a,与之前所有的状态和动作无关。 如果$S_t$是时间t的状态,且$A_t$是时间t的动作: $$P(S_{t+1}=s’|S_t=s,A_t=a,S_{t-1},A_{t-1},…,S_0,A_0) = P(S_{t+1}=s’|S_t=s,A_t=a)$$ 动作空间(A) 动作空间A是智能体可以从中选择的所有可能动作的集合。有时,可用动作的集合取决于当前状态 s,在这种情况下我们将其表示为 A(s)。动作 a∈A或a∈A(s)是智能体在给定时间步做出的决策。 转移概率函数(P) 转移概率函数P描述了环境的动态特性,常被称为模型。它指定了在智能体采取动作a的情况下,从当前状态...
zhxy
学微电子的破大学生
文章
7
标签
6
分类
3
Follow Me
公告
期末复习中……
最新文章
刻蚀工艺
2026-01-11
新型光刻技术
2026-01-07
马尔科夫决策过程
2026-01-06
Q-learning
2026-01-06
C语言模拟面向对象
2026-01-05
搜索
数据加载中