部分可观察马尔可夫决策过程

部分可观察马尔可夫决策过程(Partially Observable Markov Decision Process,缩写:POMDP),是一种通用化的马尔可夫决策过程。POMDP模拟代理人决策程序是假设系统动态由MDP决定,但是代理人无法直接观察目前的状态。相反的,它必须要根据模型的全域与部分区域观察结果来推断状态的分布。

因为POMDP架构的通用程度足以模拟不同的真实世界的连续过程,应用于机器人导航问题、机械维护和不定性规划。架构最早由研究机构所建立,随后人工智能自动规划社群继续发展。