
近年来,对链条和增强的研究已被广泛用于大语言模型,这大大提高了通过大型语言模型推理的能力。但是,在图像生成模型中,这种成功的体验尚未得到充分探索。图像生成模型通常基于给定的文本直接形成图像,缺乏类似于人类创造的识别,从而导致语义遵守生成的图像。最近,上海科学技术大学,微软研究所和Fudan大学提出了Reasongen-R1框架,这是一个两阶段的培训框架,结合了链条,该链条与增强的研究相结合,以增强自动回归图像自动性图像的推理和创造性能力。 AdvisherReasongen-R1是自回归图像的自回归图像的模型基本模型的语义合规能力以及具有许多语义指标的突破。目前,Reasongen-R1是完全开放的资源(包括培训,审查代码,培训数据和模型)。纸张标题:Reasongen-R1:SFT和RLARXIV地址:https://arxiv.org/abs/2505.24875代码地址:https://github.com/github.com/frankin-zhang0/reasong0/reasongen-r1 project home page:realaben-reasons-reasons-reasister andife case andife fiens the native the native the native the nation the native the nation the nation andife the native:舞台舞台(RL)。在管理的微调阶段,首先建立了大规模的世代,其中包含200,000个图像文本对。该数据集基于Laion的美学子集,并使用GPT-4.1根据图片自动制作两种类型的描述:一个是对图片的多样化和简洁的描述(包括基于标签和以对象的叙述为基础的传统叙述),而另一种则是丰富的推理(敦文链)。多式简洁的图片描述设计将有效防止在SFT阶段过度拟合单个提示模式的模型。随后,Reasongen-R1在“提示→COT→图像”令牌中执行SFT微调,以便基本模型能够“思考”图像生成之前的文本。 1。通过监督的微调(SFT)和增强学习(RL)PITHIS允许模型首先进行推理链,然后产生最终图片。在增强阶段,通过优化Kamag -Child(GRPO)策略,进一步优化了模型的输出。为了有效评估生成的输出图像的质量和一致的输入文本输出图像,Reasongen-R1使用预先训练的视觉语言模型QWEN-2.5-VL-7B作为奖励模型,以便根据输入的图像和文本提供每个输出图像0和1奖励。 2。保证概述EN-R1增强学习框架。此外,为了确保训练的稳定性,Reasongen-R1提出了增强的适应性熵损失功能,可以挥发以调整接近目标熵的输出令牌令牌熵,从而有效地阻止了混合图像的文本中实践中不稳定性引起的不稳定性的问题。 3。用于更新熵自适应损失中的熵损失参数的实验结果。小组基于Janus-Pro-7b模型进行了全面的Reasongen-R1测试,并选择了三代语义遵守指标:Geneval,DPG-Bench和T2i-Benchmark。如图4所示,在所有指标中,与基本模型相比,Reasongen-R1得到显着改善。这些结果表明,通过SFT-RL框架将文本识别应用于图像的生成可以显着提高自动加压的生成模型的性能VE图像。 4。左图:基本模型Janus-Pro-7b和Reasongen-R1的生成图像的视觉比较;录音带:三个指示性能的比较遵循指标。 Reasongen-R1超过了所有指标的基本模型,反映了顺序合规能力的重大改进。为了探索Reasongen-R1模块的贡献,还进行了以下消融实验:SFT阶段的作用:测试SFT阶段对模型最终性能的影响,与直接刺激研究的结果相比。如表1所示,当仅使用微调(SFT)的加固研究(RL)研究时,该模型的性能大大降低,显示了SFT相在加固研究的随后阶段的重要性。奖励模型大小的影响:实验还比较了各种尺寸的奖励模型。表1中的Leakeshown,较小的奖励量表(QWEN-2.5--VL-3B)无法提供足够准确的反馈信号,这严重影响了加固刺激阶段的性能。因此,选择高精度,大规模奖励模型很重要。 1。稳定Reasongen-R1对遗传指数对建筑设计的消融实验的影响:如图6所示,在训练后100个步骤后,该模型在熵的出现时就会出现,因为奖励开始逐渐减少。另一方面,固定熵惩罚(–0.002)的施加将导致熵继续下降并太低,直到第80步,这将导致图像生成模式下降和奖励,从而脱离了笨拙的模式。这些现象具有对连贯文本和图像的RL训练中熵损失的正则化设置的敏感性。相比之下,Reasongen-R1提出的熵的自适应损失可以维持OP内的熵时间范围,确保训练过程的稳定性和奖励的稳定增长。 6。比较每种熵正规化方法对realengen-r1 cot分析增强研究的影响7。仅显示频率超过20%的单词。删除了“ a,an”的三个频繁事件,以关注保护其他信息7的单词7,首先,它以高词语单词频率(例如“ sisse”,“ siense”,“场景”和“自然”(出现在COT的140%以上)的一般轮廓,强调了身体和现实场景和现实场景。接下来,它完善了视觉风格:诸如柔软,亮点,情绪和睡眠之类的单词(所有人都以100%的婴儿床出现)来描述轻质,情感色调和质地的质量。更重要的是,两个单词“突出显示”和“强调”至少出现在婴儿床中,表明该模型有意识地集中在主要主题上。它宣布Reasongen-R1不仅描述了事物,而且积极计划了构图的重点。除了基本词汇外,Reasongen -R1还使用大量修饰符 - 背景 - 创建环境环境;为了塔勒,独特的视觉元素;平静环境;为了和平的环境;传达花时间的感觉;为了获得这一点,它强调了摄影现实;并按照认可来注射微妙的上下文细节。通常,Reasongen-R1的原因链有效地通过场景框架,样式细节,主题变化和细节变化来有效地引导图像生成过程。