GRPO之前的强化学习算法

Text

智能体与环境交互（序列决策）
    ↓
状态 → 策略 → 动作 → 环境 → 奖励 + 新状态
    ↓
价值函数：评估状态好坏，指导策略改进
    ↓
模型：预测状态转移（有模型时）

text

1. 策略评估：给定策略π，计算V_π
2. 策略改进：基于V_π，通过贪心策略改进π
3. 重复步骤1-2直到收敛

text

π_{i+1}(s) = argmax_a Q_{π_i}(s, a)

text

1. 初始化V(s) = 0
2. 迭代更新：V(s) ← max_a[R(s, a) + γ∑p(s'|s, a)V(s')]
3. 收敛后提取最优策略

text

马尔可夫过程（MP）
    ↓ 加奖励函数
马尔可夫奖励过程（MRP）
    ↓ 加动作和策略
马尔可夫决策过程（MDP）
    ↓
预测问题 → 策略评估 → 贝尔曼期望方程
控制问题 → 策略迭代/价值迭代 → 贝尔曼最优方程

概念定义