滚球波胆由于 RF 的考验管制速率显耀慢于 AR-滚球波胆

滚球波胆由于 RF 的考验管制速率显耀慢于 AR-滚球波胆

在多模态 AI 界限滚球波胆,基于预考验视觉编码器与 MLLM 的表率(如 LLaVA 系列)在视觉理衔命务上展现出超卓性能。

而基于 Rectified Flow 的模子(如 Stable Diffusion 3 超越繁衍版块)则在视觉生成方面赢得要紧冲破。

能否将这两种简便的本领范式调和到单一模子中?

来自 DeepSeek、北大、香港大学以及清华大学的团队商讨标明:

在 LLM 框架内平直会通这两种结构,就不错结束视觉伙同与生成智商的有用调和。

模子架构

简便来说,JanusFlow 将基于视觉编码器和 LLM 的伙同框架与基于 Rectified Flow 的生成框架平直会通,结束了两者在单一 LLM 中的端到端考验。

其中枢蓄意包括: ( 1 ) 领受解耦的视觉编码器分辨优化伙同与生成智商; ( 2 ) 诈欺伙同端编码器对生成端特征进行表征对皆,显耀晋升 RF 的考验效用。基于 1.3B 界限的 LLM,JanusFlow 在视觉伙同和生成任务上均向上此前同界限的调和多模态模子。

在 LLM 基础上,JanusFlow 加入了如下组件:

1、视觉伙同编码器(图中的 Und. Encoder):咱们使用 SigLIP 将输入的图片调换成 Visual embeddings;专注于视觉理衔命务的特征索取。

2、视觉生成编解码器(图中的 Gen. Encoder/Decoder):轻量级模块,总参数目约 70M;基于 SDXL-VAE 的 latent space 进行生成;编码器:诈欺双层 ConvNeXt Block 将输入 latent z_t 调换为 visual embeddings;解码器:通过双层 ConvNeXt Block 将措置后的 embeddings 解码为 latent space 中的速率 v 。

3、扫视力机制:在咱们的初步推行中,咱们发现生成任务中 causal attention 和 bidirectional attention 效用非常;基于效用和浮松性计划,调和领受 causal attention 措置两类任务。

JanusFlow 有两种生成模式:

1、视觉伙同(文 + 图 ->文 ) :此时,JanusFlow 的推理模式是平日的自讲究模式,通过展望下一个 token 来生成酬报

2、图片生成(文 ->图):此时,JanusFlow 的推理模式是领受欧拉法求解 Rectified Flow 学出的 ODE,从 t=0 的纯噪声逐渐鼓励到 t=1 的干净图像。咱们在生成过程中使用 Classifier-Free Guidance 并把迭代步数树立为 30 步。

表率与蓄意

1、三阶段考验战略

咱们的考验分为 Adaptation,Pre-Training 和 Supervised Fine-Tuning 三阶段。咱们的考验数据包括视觉伙同(图生文)和视觉生成(文生图)两类。迥殊地,由于发现 RF 管制速率显耀慢于 AR,咱们在预考验阶段领受了非对称的数据配比战略(伙同:生成 =2:8),实考清楚该配比八成有用均衡模子的两方面智商。详备考验经由和数据确立请见论文。

2、解耦伙同与生成的视觉编码器

在之前结合 LLM 与 Diffusion Model 考验调和多模态模子的尝试中,伙同与生成任务往往领受归拢个视觉编码器(如 Show-O [ 1 ] 中伙同和生成均领受 MAGVIT-v2 将图片调换成破裂 token,Transfusion [ 2 ] 中伙同和生成均领受 latent space 里的 U-Net Encoder),往往导致伙同和生成任务在视觉编码层面的冲突。在咱们的上一个责任 Janus [ 3 ] 中确认了对多模态伙同和生成任务的编码器进行解耦能有用缓解冲突,晋升模子的合座性能。在 JanusFlow 中,咱们沿用了这一蓄意。咱们进行了一系列的消融推行探究了不同视觉编码器战略的影响,确以为伙同和生成任务分辨确立专用编码器八成显耀晋升合座性能。

3、表征对皆(Representation Alignment)

正如之前提到的,由于 RF 的考验管制速率显耀慢于 AR,JanusFlow 的考验支拨较大。收货于咱们解耦了伙同与生成的编码器,咱们不错使用 REPA [ 4 ] 的表率来加快 RF 考验的管制速率。具体而言,咱们在生成数据的考验中条目视觉编码器索取的考验图片 x 的特征与其加噪样本 z_t 在 LLM 中的中间层特征对皆。推行标明,该表率在仅增多极少计划支拨的情况下,显耀晋升了生成任务的管制效用。

(绿线:使用 REPA;蓝线:不使用 REPA。使用 REPA 不错显耀加快 FID 的裁减 ( 与图像质料有关 ) 和 CLIP score 的升高 ( 与文生图模子的语义准确度有关 ) 。)

4、消融推行

咱们蓄意了六组对照推行以考证模子各组件的有用性:

A、不使用 REPA,伙同模块是 SigLIP,生成模块是 SDXL-VAE+ConvNeXt Block,结伙考验伙同与生成任务;

B、使用 REPA,伙同和生成模块使用分享参数的 SDXL-VAE+ConvNeXt Block,结伙考验伙同与生成任务;这个树立访佛 Transfusion;

C、使用 REPA,伙同和生成模块使用独处参数的 SDXL-VAE+ConvNeXt Block,其中,伙同部分的 SDXL-VAE 参数参与考验,结伙考验伙同与生成任务;

D、伙同模块是 SigLIP,只考验伙同数据,保合手与结伙考验中伙同数据等量;这是归拢框架和数据量下,伙同模子的基准;

E、使用 REPA,伙同模块是 SigLIP,生成模块是 SDXL-VAE+ConvNeXt Block,只考验生成数据,保合手与结伙考验中生成数据等量;这是归拢框架和数据量下,生成模子的基准;

F、使用 REPA,伙同模块是 SigLIP,生成模块是 SDXL-VAE+ConvNeXt Block,结伙考验伙同与生成任务。

推行戒指如下图。

分析:

1、相比 A 和 F:REPA 的引入显耀晋升了生成有关的标的

2、相比 B,C 和 F:解耦编码器并使用 SigLIP 手脚伙同模块能得到伙同和生成智商最佳的调和模子

3、相比 D,E 和 F:咱们的最终战略 F 在考验数据量和考验树立均疏导的情况下,伙同智商与纯伙同基准非常,生成智商与纯生成基准基本合手平;考证了 F 在保合手各自性能的同期结束了两个任务的有机调和

基于以上推行戒指,咱们领受决策 F 手脚 JanusFlow 的最终架构确立。

推行戒指

JanusFlow 在 DPGBench,GenEval 和多模态伙同的测评表率上都赢得了纷乱的效用。详见表格。

△视觉伙同分数:JanusFlow 向上了一些同尺寸的纯伙同模子

△视觉生因素数:JanusFlow 有较强的语义扈从智商

△视觉伙同主不雅效用

△视觉生成主不雅效用

临了总结,JanusFlow 通过会通自讲究 LLM 与 Rectified Flow,生效构建了一个调和的视觉伙同与生成框架。该模子具有浮松的架构蓄意,在视觉伙同和生成两大任务上均展现出强劲的竞争力。

有关文件:

[ 1 ] Show-o: One Single Transformer to Unify Multimodal Understanding and Generation

[ 2 ] Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model

[ 3 ] Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation

[ 4 ] Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think

—  完  —

投稿请发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉咱们:

你是谁,从哪来,投稿骨子‍

附上论文 / 名堂主页贯串,以及干系花样哦

咱们会(尽量)实时酬报你

点这里� � 暖热我,铭记标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿发达日日再会 ~  






Powered by 滚球波胆 @2013-2022 RSS地图 HTML地图