P-GenRM: Personalized Generative Reward Model with Test-time User-based Scaling - Explained Simply

P-GenRM: Personalized Generative Reward Model with Test-time User-based Scaling - Explained Simply | ArXiv Explained