部分可观察马尔可夫决策过程(POMDP)
基础定义
一个 POMDP 模型 M 可以形式化定义为元组 ⟨S, A, O, P, Q, R, γ, b0⟩:
- 有限状态集合 S={s1, s2, ⋯, sn}
- 有限动作集合 A={a1, a2, ⋯, am}
- 有限观测集合 Ω={o1, o2, ⋯, ol}
- 状态转移概率矩阵 P={pij(a)=p(St+1=si∣St=sj, At=a)}m×n×n
- 观测状态激发概率矩阵 O={pij=p(Ot=oi∣St=sj)}l×n
- 奖励函数 R:S×A↦R=E(Rt+1∣St=s, At=a)
- 衰减因子 γ∈[0, 1)
- 初始状态概率分布 b0∈[0, 1]n
为了将 POMDP 转化为 MDP 问题,需要定义一个新的状态空间——信息状态空间 I,使得该空间内的状态的转移行为可以看做是一个 MDP,信息状态 I∈I(t+1) 的更新可以形式化为映射:
It+1=κ(I0, I1, ⋯, It Ot+1, At)
信息状态通过每次采取的动作 At 和新观测到的 Ot+1 进行更新,并且要求这种更新具有马尔可夫性,即:
p(It+1∣I0, I1, ⋯, It, Ot+1, At)=p(It+1∣It, Ot+1, At)
通过信息状态得到的奖励函数:
RI:I×A↦R=E(Rt+1∣It=i, At=a)=s∈S∑R(s, a)p(s∣i, a)=s∈S∑R(s, a)p(s∣i)
构造信息状态最直接的方式是将所有的历史信息全部包含在 It 中,即完全信息状态:
ItC=⟨b0, o0, ⋯, ot, a0, ⋯, at−1⟩
但是完全信息状态空间复杂度随着规划步数线性增长,并且在形式上难以处理,因此可以将满足以下性质:
- 马尔可夫性:It=τ(It−1, Ot, At)
- 隐状态条件概率等价性:p(St∣It)=p(St∣ItC)
- 显状态激发概率等价性:p(Ot∣It−1, At−1)=p(Ot∣It−1C, At−1)
的状态称为充分信息状态,即与完全信息状态的概率表现等价的信息状态。例如信念状态:
Bt(s)=b∈B:S↦R=p(St=s∣ItC)
经过动作 a 的执行并且观测到显状态 o 后信念状态 Bt(s)=b(s) 确定性地转移(I×A×Ω↦I)为:
boa(s′)=p(St+1=s′∣Bt=b, At=a, Ot+1=o)=p(b, a, o)p(s′, b, a, o)=p(b, a)p(s′∣b, a)Op(o∣s′, b, a)/p(b, a)p(o∣b, a)=p(o∣s′)s∈S∑p(s′, St=s∣b, a)/s′′∈S∑p(o, St+1=s′′∣b, a)=p(o∣s′)s∈S∑Pp(s′∣s, b, a)p(s∣b, a)/s′′∈S∑Op(o∣s′′, b, a)p(s′′∣b, a)=p(o∣s′)s∈S∑p(s′∣s, a)b(s)p(s∣ItC)/s′′∈S∑p(o∣s′′)s∈S∑p(s′′, St=s∣b, a)=p(o∣s′)s∈S∑p(s′∣s, a)b(s)/s′′∈S∑p(o∣s′′)s∈S∑p(s′′∣s, b, a)b(s)p(s∣b, a)=p(o∣s′)s∈S∑p(s′∣s, a)b(s)/s′′∈S∑p(o∣s′′)s∈S∑p(s′′∣s, a)b(s)
从上式中还可以看出:
p(o∣b, a)=s′′∈S∑p(o∣s′′)s∈S∑p(s′′∣s, a)b(s)
现在来说明信念状态是充分信息状态,首先从定义和上式中可以得出信念状态满足性质 1、2,对于性质 3:
p(Ot+1=o∣Bt=b, At=a)=s′′∈S∑p(o∣s′′)s∈S∑p(s′′∣s, a)b(s)=s′′∈S∑p(o∣s′′)s∈S∑p(s′′∣s, a)p(s∣ItC=i)=s′′∈S∑p(o∣s′′)s∈S∑p(s′′∣s, a, i)p(s∣a, i)=s′′∈S∑p(o∣s′′, a, i)p(s′′∣a, i)=p(Ot+1=o∣ItC=i, At=a)
因此建立在动作的基础之上的信念状态之间的转移(I×A→pI)概率为:
p(b′∣b, a)=o∈Ω∑p(b′, o∣b, a)=o∈Ω∑p(b′∣b, a, o)p(o∣b, a)=o∈Ω∑I{b′=boa}p(o∣b, a)
基于信念状态定义的奖励函数为:
RB:B×A↦R=s∈S∑R(s, a)p(s∣b)=s∈S∑R(s, a)b(s)
策略与价值
尽管通过信念状态可以将 POMDP 模型转化为 MDP 模型,但是考虑到信念状态的状态空间 B=Rn 是无限且连续的,因此难以通过有限离散状态集的 MDP 理论进行求解。另外,由于隐状态的存在,POMDP 模型的策略只能定义在信息状态上,可用的表示方法有策略树(有限期规划)和策略自动机(无限期规划):
以上表示方法均为确定性策略,类似地,定义信息状态价值函数,并且满足贝尔曼期望方程:
vπ(i)=RI(i, π(i))+γi′∈I∑p(i′∣i, π(i))vπ(i′)
对应的贝尔曼最优方程为:
v⋆(i)=a∈Amax⎩⎪⎨⎪⎧RI(i, a)+γi′∈I(i, a)∑p(i′∣i, a)v⋆(i′)⎭⎪⎬⎪⎫=a∈Amax{RI(i, a)+γo∈Ω∑p(o∣i, a)v⋆(τ(i, o, a))}=a∈Amax{s∈S∑R(s, a)p(s∣i)+γo∈Ω∑s′∈S∑p(o, s′∣i, a)v⋆(τ(i, o, a))}=a∈Amax{s∈S∑R(s, a)p(s∣i)+γo∈Ω∑s′∈S∑p(o∣s′, i, a)p(s′∣i, a)v⋆(τ(i, o, a))}=a∈Amax{s∈S∑R(s, a)p(s∣i)+γo∈Ω∑s′∈S∑p(o∣s′, i, a)s∈S∑p(s′, s∣i, a)v⋆(τ(i, o, a))}=a∈Amax{s∈S∑R(s, a)p(s∣i)+γo∈Ω∑s′∈S∑p(o∣s′, i, a)s∈S∑p(s′∣s, i, a)p(s∣i, a)v⋆(τ(i, o, a))}=a∈Amax{s∈S∑R(s, a)p(s∣i)+γo∈Ω∑[s′∈S∑s∈S∑p(o∣s′)p(s′∣s, a)p(s∣i)]v⋆(τ(i, o, a))}
最优状态价值函数表示
对于任一 PWLC 函数,经过算子 L 的变换后依然是一个 PWLC 函数:
L{v}=a∈Amax{s∈S∑R(s, a)b(s)+γo∈Ω∑p(o∣b, a)v(boa)}=a∈Amax{s∈S∑R(s, a)b(s)+γo∈Ω∑p(o∣b, a)θ∈Θmaxs′∈S∑θ(s′)boa(s′)}
其中
boa(s′)=p(o∣b, a)p(s′, o∣b, a)=p(o∣b, a)1p(o∣s′)s∈S∑p(s′∣s, a)b(s)
进而得到
L{v}=a∈Amax{s∈S∑R(s, a)b(s)+γo∈Ω∑p(o∣b, a)θ∈Θmaxs′∈S∑θ(s′)boa(s′)}=a∈Amax{s∈S∑R(s, a)b(s)+γo∈Ω∑p(o∣b, a)θ∈Θmaxs∈S∑θ(s)boa(s)}=a∈Amax{s∈S∑R(s, a)b(s)+γo∈Ω∑θ∈Θmaxs∈S∑b(s)s′∈S∑θ(s′)p(o∣s′)p(s′∣s, a)}
令
θoa(s)=s′∈S∑θ(s′)p(o∣s′)p(s′∣s, a)θ^=θ∈Θargmaxs∈S∑b(s)θoa(s)
原式可以重写为:
L{v}=a∈Amax{s∈S∑R(s, a)b(s)+γo∈Ω∑s∈S∑b(s)θ^oa(s)}=a∈Amax{s∈S∑b(s)[R(s, a)+γo∈Ω∑θ^oa(s)]}
如果令:
θ⟨a, b⟩(s)=R(s, a)+γo∈Ω∑θ^oa(s)
变换式又可以写作 PWLC 函数的形式
L{v}=a∈Amax{s∈S∑θ⟨a, b⟩(s)b(s)}
同时对于所有的 a∈A 和 b∈B,由 θ⟨a, b⟩ 构成的新的向量集合 Θ′ 的大小的上界为 ∣A∣∣Θ∣∣Ω∣(给定 o 可以得到 ∣Θ∣ 种不同的 θoa,而对于变换后的参数 θ⟨a, b⟩ 包含求和项 ∑o∈Ωθ^oa(s),至多有 ∣Θ∣Ω 种求和序列)。对于有限期规划问题,其后序初始最优状态价值函数即为一个 PWLC 函数:
v⋆⟨0⟩(b)=a∈Amaxs∈S∑R(s, a)b(s)
在有限期规划时需要通过后序遍历来不断地对价值函数 v 进行备份操作,表示为向量集合就有了可计算性。