分散式部分可观察马尔可夫决策过程

此條目可参照英語維基百科相應條目来扩充。 (2022年4月25日)
若您熟悉来源语言和主题，请协助参考外语维基百科扩充条目。请勿直接提交机械翻译，也不要翻译不可靠、低品质内容。依版权协议，译文需在编辑摘要注明来源，或于讨论页顶部标记{{Translated page}}标签。

分散式部分可观察马尔可夫决策过程（英語：Decentralized partially observable Markov decision process，Dec-POMDP）^[1]^[2]是一种多智慧体协调决策模型。这是一种概率模型，对于现实生活中结果、传感器和通信的不确定性具有很好的解决能力。

该模型是马尔可夫决策过程和部分可觀察馬可夫決策過程的泛化，适用于分布式多智慧体的情形。^[3]

定义

正式定义

Dec-POMDP是一个7元组，其中：

$S$ 是状态的集合，
$A_{i}$ 是智慧体i的行动集合，其中 $A=\times _{i}A_{i}$ 是联合行动的集合，
$T$ 是是状态间条件转移概率的集合， $T(s,a,s')=P(s'\mid s,a)$ ，
$R:S\times A\to \mathbb {R}$ 是回报函数，
$\Omega _{i}$ 是智慧体i的观察集合，其中 $\Omega =\times _{i}\Omega _{i}$ 是联合观察的集合，
$O$ 是一组条件观察概率， $O(s',a,o)=P(o\mid s',a)$
$\gamma \in [0,1]$ 是折现因子

参考文献

^ Bernstein, Daniel S.; Givan, Robert; Immerman, Neil; Zilberstein, Shlomo. The Complexity of Decentralized Control of Markov Decision Processes. Math. Oper. Res. November 2002, 27 (4): 819–840. ISSN 0364-765X. S2CID 1195261. arXiv:1301.3836  . doi:10.1287/moor.27.4.819.297.
^ Oliehoek, Frans A.; Amato, Christopher. A Concise Introduction to Decentralized POMDPs | SpringerLink (PDF). SpringerBriefs in Intelligent Systems. 2016 [2022-04-24]. ISBN 978-3-319-28927-4. S2CID 3263887. doi:10.1007/978-3-319-28929-8. （原始内容存档 (PDF)于2021-09-16）（英国英语）.
^ Oliehoek, Frans A.; Amato, Christopher. A Concise Introduction to Decentralized POMDPs. Springer. 2016-06-03 [2022-04-24]. ISBN 978-3-319-28929-8. （原始内容存档于2022-04-24）（英语）.

检索自“https://zh.wikipedia.org/w/index.php?title=分散式部分可观察马尔可夫决策过程&oldid=73255279”