加载中...
avatar
文章
7
标签
6
分类
3
首页
归档
分类
标签
星语的博客Q-learning 返回首页
搜索
首页
归档
分类
标签

Q-learning

发表于2026-01-06|更新于2026-01-07|强化学习
|浏览量:
文章作者: zhxy
文章链接: http://example.com/2026/01/06/Qleaning/
版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 星语的博客!
强化学习算法
cover of previous post
上一篇
马尔科夫决策过程
MDP如何定义 一个MDP提供了一种正式方式来描述强化学习问题中的环境,它假设环境满足马尔可夫性质,也就是未来状态和奖励只取决于当前状态和动作,而不依赖于之前的全部历史。 一个MDP由一个包含五个组成部分的元组定义$(S,A,P,R,\gamma)$ 状态空间 (S) 状态空间(S)是环境可能处于的所有状态的集合。 一个重要假设是马尔可夫性质。它表明转移到下一个状态s’的概率只取决于当前状态s和所采取的动作a,与之前所有的状态和动作无关。 如果$S_t$是时间t的状态,且$A_t$是时间t的动作: $$P(S_{t+1}=s’|S_t=s,A_t=a,S_{t-1},A_{t-1},…,S_0,A_0) = P(S_{t+1}=s’|S_t=s,A_t=a)$$ 动作空间(A) 动作空间A是智能体可以从中选择的所有可能动作的集合。有时,可用动作的集合取决于当前状态 s,在这种情况下我们将其表示为 A(s)。动作 a∈A或a∈A(s)是智能体在给定时间步做出的决策。 转移概率函数(P) 转移概率函数P描述了环境的动态特性,常被称为模型。它指定了在智能体采取动作a的情况下,从当前状态...
cover of next post
下一篇
C语言模拟面向对象
C语言模拟面向对象
相关推荐
cover
2026-01-06
马尔科夫决策过程
MDP如何定义 一个MDP提供了一种正式方式来描述强化学习问题中的环境,它假设环境满足马尔可夫性质,也就是未来状态和奖励只取决于当前状态和动作,而不依赖于之前的全部历史。 一个MDP由一个包含五个组成部分的元组定义$(S,A,P,R,\gamma)$ 状态空间 (S) 状态空间(S)是环境可能处于的所有状态的集合。 一个重要假设是马尔可夫性质。它表明转移到下一个状态s’的概率只取决于当前状态s和所采取的动作a,与之前所有的状态和动作无关。 如果$S_t$是时间t的状态,且$A_t$是时间t的动作: $$P(S_{t+1}=s’|S_t=s,A_t=a,S_{t-1},A_{t-1},…,S_0,A_0) = P(S_{t+1}=s’|S_t=s,A_t=a)$$ 动作空间(A) 动作空间A是智能体可以从中选择的所有可能动作的集合。有时,可用动作的集合取决于当前状态 s,在这种情况下我们将其表示为 A(s)。动作 a∈A或a∈A(s)是智能体在给定时间步做出的决策。 转移概率函数(P) 转移概率函数P描述了环境的动态特性,常被称为模型。它指定了在智能体采取动作a的情况下,从当前状态...
avatar
zhxy
学微电子的破大学生
文章
7
标签
6
分类
3
Follow Me
公告
期末复习中……
最新文章
刻蚀工艺
刻蚀工艺2026-01-11
新型光刻技术
新型光刻技术2026-01-07
马尔科夫决策过程
马尔科夫决策过程2026-01-06
Q-learning
Q-learning2026-01-06
C语言模拟面向对象
C语言模拟面向对象2026-01-05
© 2025 - 2026 By zhxy
搜索
数据加载中