LunjunZhang

Lunjun Zhang LunjunZhang

Achievements

ema-pg ema-pg Public

Code for "EMA Policy Gradient: Taming Reinforcement Learning for LLMs with EMA Anchor and Top-k KL" (arxiv.org/abs/2602.04417)

Python 9 2
E-SPL E-SPL Public

Code for "Evolutionary System Prompt Learning for Reinforcement Learning in LLMs" (arxiv.org/abs/2602.14697)

Python 9
world-model-as-a-graph world-model-as-a-graph Public

Code for "World Model as a Graph: Learning Latent Landmarks for Planning" (ICML 2021 Long Presentation)

Python 70 4
d2ac-actor-critic/d2ac-public d2ac-actor-critic/d2ac-public Public

Official code for D2AC: Diffusion Actor Meets Distributional Critic (TMLR 2025)

Python 2
genrm-star/genrm-critiques genrm-star/genrm-critiques Public

GenRM-CoT: Data release for verification rationales

68 6