随机高斯策略
随机高斯策略将每个动作维度建模为独立的正态分布,将均值和方差分别建模为均值网络和方差对数网络:
πθ(a∣s)=i=1∏d2πσi(s)1exp(−2σi2(s)[ai−μi(s)]2)=i=1∏d2πexp[ρθ; i(s)]1exp(−2exp[ρθ; i(s)][ai−μθ; i(s)]2)
其中方差对数网络可以避免标准差为正的约束,在均值网络和方差对数网络的基础上定义辅助网络:
fθ(s, a)=lnπθ(a∣s)=−21i=1∑d(ρθ; i(s)+exp[ρθ; i(s)][ai−μθ; i(s)]2)+constant
在随机高斯策略下的策略梯度可以写作:
∇θJ(θ)=t=0∑TγtEs0Ea0⋯EstEat[∇θlnπθ(at∣st)qπθ(t)(st, at)]=t=0∑TγtEs0Ea0⋯EstEat[∇θfθ(st, at)qπθ(t)(st, at)]
其中动作价值函数可以通过 REINFORCE、Actor-Critic 及其带基线的变种算法进行估计。