论文信息
Title:Flow-GRPO: Training Flow Matching Models via Online RL Flow-GRPO训练流匹配模型通过在线强化学习
1. Introduction
介绍Flow matching的强大性能,并提出问题:
然而,它们在涉及多个对象、属性和关系的复杂场景组合以及文本渲染方面往往存在困难。
作者提出将在线强化学习(RL)引入到生成模型中,并列举出一些挑战:
- 流模型依赖于基于常微分方程 (ODEs)的确定性生成过程,这意味着它们在推理期间无法进行随机采样。
- 在线 RL 需要高效的采样以收集训练 数据,但流模型通常需要许多迭代步骤来生成每个样本,显著降低了采样效率。
研究提出了Flow-GRPO,将GRPO整合到Flow matching模型中,提出了两种关键策略:
- 采用ODE-to-SDE策略,克服了原始flow matching模型的确定性,将ODE转换为等效的随机微分方程,在保留原始边缘分布的前提下引入随机性
- 应用降噪减少策略,提到在线RL中的采样效率,即在训练期间减少模型的降噪步骤,在推理阶段保持完整的调度。
2. Background
LLM的强化学习: 在线强化学习已被证明在提升大型语言模型(LLMs)的推理能力方 面非常有效,如近端策略优化(PPO) 和无价值组相对策略优化(GRPO),这篇工作采用GRPO以节省内存。
diffusion & flow matching 模型
T2l对齐
3.Flow-GRPO

受到GRPO算法的启发,通过在线强化学习来改进模型
4. Experiment
论文信息
Title:Dual-Process Image Generation 双过程图像生成
1. Introduction
当前的大型语言模型在多个领域展现出卓越能力,并具备上下文学习新任务的能力。然而,当它们被训练为多模态模型以联合生成图像和文本时,要么无法达到仅生成图像的保真度,要么难以供学术研究实验使用。相比之下,当代图像生成模型在视觉质量上已接近照片级效果,但与之交互仍常令人沮丧。
受认知科学中双过程理论的启发,该研究提出一种双过程架构,将一个知识丰富的多模态语言模型(VLM,作为“系统2”或“审慎过程”)与一个视觉精确的图像生成器(作为“系统1”或“反射过程”)相结合。该架构通过VLM对生成图像进行评分,并将梯度反向传播以更新图像生成器的权重,从而实现对图像生成过程的精细化控制。
2. Background
分类器引导
推理时搜索
模型微调
VQA 评分:与 CLIP 相比, VLM 提供了更准确且可解释的评分框架。
3.双过程蒸馏

4. Experiment
Thanks for reading!
