强化学习——策略学习
强化学习——策略学习
给定策略\(\pi\),状态估值函数的贝尔曼方程: \[v_{\pi}(s) = \sum_a \pi(a|s) \sum_{s',r} p(s',r|s,a) \Big[ r+\gamma v_{\pi}(s') \Big], \quad \text{
...
沿路旅程如歌褪变