DeepSeek 的 Janus-Pro 模型将图像理解和生成统一在一个模型中,具有以下特点和处理方式:
模型地址:
下载地址:https://github.com/deepseek-ai/Janus
LLM看这里:[详解:DeepSeek深度推理+联网搜索目前断档第一](https://waytoagi.feishu.cn/wiki/D9McwUWtQiFh9sksz4ccmn4Dneg)关键点:1.统一Transformer架构,使用同一个模型就能完成图片理解,图片生成2.提供1B和7B两种规模,适配多元应用场景3.全面开源,支持商用,MIT协议,部署使用便捷4.Benchmark表现优异,能力更全面(上一个是智源开源的Emu3模型(7B):https://huggingface.co/deepseek-ai/Janus-Pro-7B模型(1B):https://huggingface.co/deepseek-ai/Janus-Pro-1B官方解释:Janus-Pro是一种新型的自回归框架,它统一了多模态理解和生成。它通过将视觉编码解耦为独立的路径来解决先前方法的局限性,同时仍然利用单一的统一Transformer架构进行处理。解耦不仅缓解了视觉编码器在理解和生成中的角色冲突,还增强了框架的灵活性。Janus-Pro超越了之前的统一模型,并匹配或超过了特定任务模型的性能。Janus-Pro的简单性、高灵活性和有效性使其成为下一代统一多模态模型的有力候选者。下载地址:https://github.com/deepseek-ai/Janus
通俗解释:JanusFlow就像一个会"看图画+编故事+自己画画"的聪明机器人🤖1.两个超能力:它有两种本领🧠理解模式:用"超级眼镜"(SigLIP-L)仔细看图片(最大384x384大小),还能读文字✏️画画模式:用"魔法画笔"(校正流+SDXL-VAE)自己创作同样大小的图片2.聪明的大脑:它的核心是DeepSeek语言模型(相当于一个特别会编故事的AI),已经学习过很多知识3.特别训练法:先自己看很多图画书学习(预训练)然后老师手把手教它(监督微调)最后用"精华浓缩法"(EMA)保存最好的学习成果解释:为什么用Transformer大一统模型,不用Diffusion模型扩散模型(Diffusion Models)在图像生成上质量更高,但Janus-Pro的设计目标不同:任务导向:Janus-Pro追求多任务统一(理解+生成),而扩散模型更专注生成质量。效率考量:扩散模型需要多次迭代去噪(如Stable Diffusion约20步),而自回归生成可能更实时。架构简洁性:保持单一Transformer架构,降低训练和部署成本。好处:统一Transformer架构:一个大脑,两种思维架构本质:虽然视觉处理分两条路,但后续处理仍用同一个Transformer(类似人脑不同区域处理不同信息)。关键设计:参数共享:底层Transformer同时学习理解和生成任务,促进知识迁移(例如学会「猫」的概念后,生成时自然能画猫)。注意力机制:通过跨模态注意力(如文字关注图像区域),实现图文深度对齐。灵活性:可通过调整输入(如切换理解/生成路径的Token)快速切换任务模式,无需重新训练模型
一个模型生成,左侧(a)理解部分,右侧(b)生成部分[heading4]理解部分(a):自回归(Autoregressive)[content]1.输入:左侧有一张“Clean Image”(干净图像),通过“Und.Encoder”(理解编码器)进行编码处理。同时,还有“Und.Prompt”(理解提示)通过“Text Tokenizer”(文本标记器)进行标记化处理。2.处理:经过上述处理的图像和文本信息进入“Large Language Model”(大语言模型)。3.输出:大语言模型的输出通过“Text De-Tokenizer”(文本去标记器)处理,得到“Response(Next Token Prediction)”(响应,即下一个标记预测)。[heading4]生成部分(b):修正流(Rectified Flow)[content]1.输入:“Gen.Prompt”(生成提示)通过“Text Tokenizer”(文本标记器)进行标记化处理,然后进入“Large Language Model”(大语言模型)。同时,有一张“Noisy Image”(含噪图像)通过“Gen.Encoder”(生成编码器)处理。2.处理:大语言模型的输出与含噪图像经编码器处理后的信息,在“Gen.Decoder”(生成解码器)中处理,得到“Velocity(All Image Tokens)”(速度,即所有图像标记)。根据公式对进行更新,用覆盖。3.输出:通过不断重复上述更新过程,直到,最终完成图像生成相关操作。[Github Repository GitHub仓库](https://github.com/deepseek-ai/Janus)新模型Janus-Pro,其中7B版本在GenEval和DPG-Bench()中击败OpenAI的DALL-E 3和Stable Diffusion