GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization - Explained Simply

GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization - Explained Simply | ArXiv Explained