如何用python实现可列折扣马尔科夫决策过程实例的构造

问答 / 0 / 2 / 创建于 2年前

最近在最近在学习马尔科夫决策过程，想要找一些离散折扣马尔科夫决策过程，状态集可列，行动集有限，报酬函数有界的实例，尝试过搜论文或者直接搜，找到的好像都不是很理想。请问大家有没有什么好的方法？
或者如果要自己想要写算法构造这样的实例的话应该如何去构造呢？
还有想要学习这方面的python编程的话，各位有没有比较推荐的教材？
看了蛮多篇文章，但是自己开始写就有一种无从下手的感觉TAT
谢谢大家Orz

python

wang_wil

1 声望

暂无个人描述~

0 人点赞

推荐文章：

更多推荐...

置顶

[进度 100.00%] Python Masonite 4.0 中文翻译召集（Python 中的类 Laravel 框架） 15 / 19 |

博客

2021年python库大全 30 / 5 |

公告

Python Masonite 框架中文翻译召集（Python 中的类 Laravel 框架） 24 / 25 |

博客

收集了一些各大网站 python 的登陆方式,希望对学习 python 的小白，和想写爬虫的你们有所帮助,,本项目用于研究和分享各大网站的模拟登陆方式 17 / 5 |

翻译

Python 3.7 的一些新特性 10 / 2 |

公告

一起学 Python 《Python 最佳实践指南》翻译召集 16 / 2 |

讨论数量: 2

hustnzj

版主 2.2k 声望

关于马尔科夫决策过程的Python书籍网上有很多，建议自己搜下。

2年前评论

GoCharm

0 声望

构建一个可列离散折扣马尔科夫决策过程 (MDP) 实例，可以遵循以下步骤：

定义状态空间：根据您的应用场景和问题定义状态集合 S，以列表或集合的形式表示。

定义行动空间：根据您的应用场景和问题定义行动集合 A，以列表或集合的形式表示。

定义转移概率：根据行动和状态，定义状态转移概率 P，即在当前状态下执行某个行动之后，下一个状态是什么。这可以用字典、嵌套字典或numpy数组等形式表示。

定义奖励函数：定义报酬函数 R，即在每个状态下执行某个行动所获得的回报。这可以用字典、嵌套字典或numpy数组等形式表示。

定义折扣因子：定义折扣因子 γ，代表长期回报与即时回报的相对重要性。通常取值范围为 0 到 1 之间。

定义初始状态：定义初始状态 s0，表示在何种状态下开始进行决策。

下面是一个简单的例子，展示如何用Python实现一个简单的MDP实例：

import numpy as np

# 状态空间
S = [0, 1, 2, 3]

# 行动空间
A = ['left', 'right']

# 转移概率
P = {
    0: {'left': 0, 'right': 1},
    1: {'left': 0.5, 'right': 0.5},
    2: {'left': 0.5, 'right': 0.5},
    3: {'left': 1, 'right': 0},
}

# 奖励函数
R = {
    0: {'left': 0, 'right': 1},
    1: {'left': 0, 'right': 0},
    2: {'left': 0, 'right': 0},
    3: {'left': 10, 'right': 0},
}

# 折扣因子
gamma = 0.9


# 初始状态
s0 = 0

在上面的例子中，我们定义了一个简单的MDP，其中状态空间为 [0, 1, 2, 3]，行动空间为 [‘left’, ‘right’]。转移概率和奖励函数分别用字典形式表示，折扣因子为 0.9，初始状态为 0。

2年前评论

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容，与人为善，比聪明更重要！

帮助

如何用python实现可列折扣马尔科夫决策过程实例的构造

推荐文章：

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

如何用python实现可列折扣马尔科夫决策过程实例的构造

推荐文章：

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

请登录