马尔可夫奖励过程(MRP)
基础定义
一个 MRP 模型 M 可以形式化定义为元组 ⟨S, P, R, γ⟩:
- 有限状态集合 S={s1, s2, ⋯, sn}
- 状态转移概率矩阵 P={pij=p(St+1=si∣St=sj)}n×n
- 奖励函数 R:S↦R=E(Rt+1∣St=s)
- 衰减因子 γ∈[0, 1)
其中状态集合 S 和 状态转移概率矩阵 P 的定义和普通的马尔可夫过程一致。奖励函数 R 代表某时刻 t 处于状态 s 时获得的收益的期望(下一时刻收取)。考虑在某一时刻 t 处于状态 s 时未来一段时间 T 的回报:
Gt(T, 1)=Rt+1+Rt+2+⋯+Rt+T
考虑近期收益和远期收益在实际情况中并不等价,因此使用衰减因子 γ 对未来不同时间的收益进行加权:
Gt(T, γ)=Rt+1+γRt+2+⋯+γTRt+T
某个状态 s 的价值函数 v:S↦R 为任意时刻 t 处于状态 s 时收益的数学期望,可以定义为不同的形式:
收益形式 |
数学定义 |
有限期价值和 |
Gt(T, 1)=Rt+1+Rt+2+⋯+Rt+T |
有限期衰减价值和 |
Gt(T, γ)=Rt+1+γRt+2+⋯+γTRt+T |
无限期衰减价值和 |
Gt(∞, γ)=Rt+1+γRt+2+γ2Rt+3+⋯ |
不确定期价值和(伪无限期) |
Gt(T, γ)=Rt+1+γRt+2+⋯+γTRt+T |
无限期平均价值 |
Gˉt(∞, 1)=limt→∞T1Gt(T, 1) |
一般来说默认的回报为 Gt=Gt(∞, γ),在此定义下,状态价值函数为:
v(st)=E(Gt∣St=st)=Ert+1∼r(⋅∣st)Est+1∼p(⋅∣st)Ert+2∼r(⋅∣st+1)Est+2∼p(⋅∣st+1)⋯[τ=0∑∞γτrt+τ+1]=Ert+1∼r(⋅∣st)[rt+1]+γEst+1∼p(⋅∣st)Ert+2∼r(⋅∣st+1)[rt+2]+γ2Est+1∼p(⋅∣st)Est+2∼p(⋅∣st+1)Ert+3∼r(⋅∣st+1)[rt+3]+⋯=R(st)+γEst+1∼p(⋅∣st)[R(st+1)]+γ2Est+1∼p(⋅∣st)Est+2∼p(⋅∣st+1)[R(st+2)]+⋯=τ=0∑∞Est+1∼p(⋅∣st)Est+2∼p(⋅∣st+1)⋯[γτR(st+τ)]=Est+1∼p(⋅∣st)Est+2∼p(⋅∣st+1)⋯[τ=0∑∞γτR(st+τ)]
贝尔曼期望方程
通过定义可以将状态价值函数递归地分解为贝尔曼期望方程的形式:
v(st)=Est+1∼p(⋅∣st)Est+2∼p(⋅∣st+1)⋯[R(st)]+γEst+1∼p(⋅∣st)v(st+1)Est+2∼p(⋅∣st+1)⋯[τ=0∑∞γτR(s(t+1)+τ)]=R(st)+γEst+1∼p(⋅∣st)[v(st+1)]=R(st)+γst+1∑v(st+1)p(st+1∣st)