REINFORCE

REINFORCE 及其基线变种

REINFORCE

REINFORCE 算法通过蒙特卡洛方法估计策略梯度:

θJ(θ)t=0Tγtqπθ(st, at)θlnπθ(atst)\nabla_{\theta} J(\theta) \approx \sum_{t = 0}^{\mathrm{T}} \gamma^{t} q_{\pi_{\theta}}(s_{t},\ a_{t}) \nabla_{\theta} \ln \pi_{\theta}(a_{t} \mid s_{t})

内层的 qπθ(st, at)q_{\pi_{\theta}}(s_{t},\ a_{t}) 通过蒙特卡洛方法进行近似估计 qπθ(st, at)τ=tTγτtrτ+1q_{\pi_{\theta}}(s_{t},\ a_{t}) \approx \sum_{\tau = t}^{\mathrm{T}} \gamma^{\tau - t} r_{\tau + 1} 后得到近似策略梯度:

θJ(θ)t=0Tγt(τ=tTγτtrτ+1)θlnπθ(atst)\nabla_{\theta} J(\theta) \approx \sum_{t = 0}^{\mathrm{T}} \gamma^{t} \left( \sum_{\tau = t}^{\mathrm{T}} \gamma^{\tau - t} r_{\tau + 1} \right) \nabla_{\theta} \ln \pi_{\theta}(a_{t} \mid s_{t})

并通过梯度上升的方式更新策略参数 θ\theta

θθ+αθJ(θ)=θ+α[t=0Tγt(τ=tTγτtrτ+1)θlnπθ(atst)]\theta \leftarrow \theta + \alpha \nabla_{\theta} J(\theta) = \theta + \alpha \left[ \sum_{t = 0}^{\mathrm{T}} \gamma^{t} \left( \sum_{\tau = t}^{\mathrm{T}} \gamma^{\tau - t} r_{\tau + 1} \right) \nabla_{\theta} \ln \pi_{\theta}(a_{t} \mid s_{t}) \right]

REINFORCE 算法属于同策略算法,在实现时每采样一个完整的序列后使用上式进行更新,而过去的序列无法重复利用。同时估计的近似策略梯度虽然无偏,但是方差很大,造成算法性能的不稳定。

REINFORCE(带基线)

通过基线函数可以重写 REINFORCE 算法对策略梯度的估计:

θJ(θ)t=0Tγt(τ=tTγτtrτ+1vw(st))θlnπθ(atst)\nabla_{\theta} J(\theta) \approx \sum_{t = 0}^{\mathrm{T}} \gamma^{t} \left( \sum_{\tau = t}^{\mathrm{T}} \gamma^{\tau - t} r_{\tau + 1} - v_{w}(s_{t}) \right) \nabla_{\theta} \ln \pi_{\theta}(a_{t} \mid s_{t})

其中 vw(s)v_{w}(s) 是对 vπθ(s)v_{\pi_{\theta}}(s) 的估计,可以利用回报的估计值和均方误差作为损失函数:

(w)=12(T+1)t=0T(vw(st)τ=tTγτtrτ+1)=12(T+1)t=0T(vw(st)gt)2\ell(w) = \frac{1}{2 (\mathrm{T} + 1)} \sum_{t = 0}^{\mathrm{T}} \left( v_{w}(s_{t}) - \sum_{\tau = t}^{\mathrm{T}} \gamma^{\tau - t} r_{\tau + 1} \right) = \frac{1}{2(\mathrm{T} + 1)} \sum_{t = 0}^{\mathrm{T}} \Big( v_{w}(s_{t}) - g_{t} \Big)^{2}

损失函数对参数 ww 的梯度为:

w(w)=1T+1t=0T(vw(st)gt)wvw(st)\nabla_{w} \ell(w) = \frac{1}{\mathrm{T} + 1} \sum_{t = 0}^{\mathrm{T}} \Big( v_{w}(s_{t}) - g_{t} \Big) \nabla_{w} v_{w}(s_{t})

通过梯度下降在每个采样序列后对价值网络 vw(s)v_{w}(s) 进行更新,进而通过 vw(s)v_{w}(s) 进行策略提升。


REINFORCE
http://example.com/2024/07/19/REINFORCE/
Author
木辛
Posted on
July 19, 2024
Licensed under