近端策略优化

近端策略優化（英語：Proximal Policy Optimization，PPO）^[1]是OpenAI公司于2017年开发的一系列无模型强化学习算法。该算法采用了策略梯度算法，这意味着它们的做法是搜索策略空间而非状态-动作对的值。

近端策略优化包含了置信域方法的一些优点，如更易于实现，更通用，并且具有更好的样本复杂度。^[2]该算法是通过使用不同的目标函数来完成的。^[3]