Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

janus

Answer

以下是关于 Janus 的相关信息:

  • 彭青云的相关故事中未直接涉及 Janus 的具体内容。
  • DeepSeek 深夜发布的大一统模型 Janus-Pro 将图像理解和生成统一在一个模型中:
    • 就像一个会“看图画+编故事+自己画画”的聪明机器人。
    • 有理解和画画两种本领,理解模式用“超级眼镜”仔细看图片并能读文字,画画模式用“魔法画笔”创作图片。
    • 核心是 DeepSeek 语言模型,已学习很多知识,经过预训练、监督微调、用“精华浓缩法”保存成果。
    • 采用 Transformer 大一统模型而非 Diffusion 模型,是因为追求多任务统一、考虑效率、架构简洁性等。
    • 具有统一 Transformer 架构、参数共享、注意力机制、灵活性等特点。
    • Janus-Pro-7B 生图效果远好于 Janus,更稳定,提示词更短。
    • 行业影响力大 V 评价其为新型自回归框架,统一了多模态理解和生成,解耦视觉编码解决局限性,超越之前的统一模型,是下一代统一多模态模型的有力候选者。
Content generated by AI large model, please carefully verify (powered by aily)

References

彭青云: 2050那些人和事

我踢了几脚神像,在小庙上踩了几脚又怂恿小伙伴偷吃贡品,各自干了些不敬的“大坏事”这事当然没瞒住,老人们大惊失色,操起竹竿做的劳斯把子就打,我不晓得用普通话怎么说,那是湘中农村用竹竿从底端劈开,束好上面用来赶鸡鸭和野狗的工具,就这样我们几个小孩撒丫子乱跑,像鸡鸭和野狗一样狼狈地夺路逃窜。最后被暴揍一顿,流着鼻涕哭哭啼啼,跪在庙前跟在老人身后貌似虔诚,惶恐畏惧的说些道歉祈求原谅的话。隔了一段时间,我说这个根本就不灵你看我不屁事没有?紧接着脑瓜就受到爆栗暴击:那是因为我们虔心道歉拯救得及!得,没处说理了。“看了看大家,发现他们正专注听讲。我接着说:”那时一下子感觉佛陀变得亲切起来,再也不是高高在上金光闪闪的佛。原来他跟我们一样也是活生生的人。但这也给后面抑郁挖了个大坑。不管他们怎么说,大体上人类宗教都有两面。一是天堂,许诺人们最美好的愿望最渴望实现的理想;二是地狱,营造人类最深处的恐惧。佛教有极乐世界,十八层地狱,无尽轮回永世不得超生之语;基督教有天堂,炼狱地狱末日审判。就连不算宗教的儒家也有大同理想,而对应的反面则是钉在耻辱柱上遗臭万年。左手和右手,渴望和恐惧,本质上都是胡萝卜加大棒,读书人不想出家可以作为居士在家修行,

DeepSeek深夜发布大一统模型 Janus-Pro将图像理解和生成统一在一个模型中

通俗解释:JanusFlow就像一个会"看图画+编故事+自己画画"的聪明机器人🤖1.两个超能力:它有两种本领🧠理解模式:用"超级眼镜"(SigLIP-L)仔细看图片(最大384x384大小),还能读文字✏️画画模式:用"魔法画笔"(校正流+SDXL-VAE)自己创作同样大小的图片2.聪明的大脑:它的核心是DeepSeek语言模型(相当于一个特别会编故事的AI),已经学习过很多知识3.特别训练法:先自己看很多图画书学习(预训练)然后老师手把手教它(监督微调)最后用"精华浓缩法"(EMA)保存最好的学习成果解释:为什么用Transformer大一统模型,不用Diffusion模型扩散模型(Diffusion Models)在图像生成上质量更高,但Janus-Pro的设计目标不同:任务导向:Janus-Pro追求多任务统一(理解+生成),而扩散模型更专注生成质量。效率考量:扩散模型需要多次迭代去噪(如Stable Diffusion约20步),而自回归生成可能更实时。架构简洁性:保持单一Transformer架构,降低训练和部署成本。好处:统一Transformer架构:一个大脑,两种思维架构本质:虽然视觉处理分两条路,但后续处理仍用同一个Transformer(类似人脑不同区域处理不同信息)。关键设计:参数共享:底层Transformer同时学习理解和生成任务,促进知识迁移(例如学会「猫」的概念后,生成时自然能画猫)。注意力机制:通过跨模态注意力(如文字关注图像区域),实现图文深度对齐。灵活性:可通过调整输入(如切换理解/生成路径的Token)快速切换任务模式,无需重新训练模型

DeepSeek深夜发布大一统模型 Janus-Pro将图像理解和生成统一在一个模型中

Janus-Pro-7B远好于Janus,更稳定,提示词更短模型摘要1.Janus-Pro是一个统一理解和生成多模态语言模型(MLLM),它将多模态理解和生成的视觉编码解耦。Janus-Pro基于DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base构建。2.多模态理解中,它使用SigLIP-L作为视觉编码器,支持384 x 384图像输入。对于图像生成,Janus-Pro使用此处的标记器,下采样率为16。此代码仓库采用MIT许可证。使用Janus-Pro模型需遵守DeepSeek模型许可证。MIT许可证:允许自由使用、修改和分发代码,只需保留版权声明和许可文件,且作者不承担任何责任。DeepSeek真开源真牛逼![heading2]行业影响力大V转发并评论:[content]AK:Janus-Pro是一种新型的自回归框架,它统一了多模态理解和生成。它通过将视觉编码解耦为独立的路径来解决先前方法的局限性,同时仍然利用单一的统一Transformer架构进行处理。解耦不仅缓解了视觉编码器在理解和生成中的角色冲突,还增强了框架的灵活性。Janus-Pro超越了之前的统一模型,并匹配或超过了特定任务模型的性能。Janus-Pro的简单性、高灵活性和有效性使其成为下一代统一多模态模型的有力候选者。[heading3]AI副总裁[@Vercel](https://x.com/Vercel)•[@v0](ht

Others are asking
Janus-Pro
JanusPro 是 DeepSeek 深夜发布的大一统模型,将图像理解和生成统一在一个模型中。 它具有以下特点和优势: 1. 两种超能力: 理解模式:用“超级眼镜”(SigLIPL)仔细看图片(最大 384x384 大小),还能读文字。 画画模式:用“魔法画笔”(校正流+SDXLVAE)自己创作同样大小的图片。 2. 聪明的大脑:其核心是 DeepSeek 语言模型,已学习过很多知识。 3. 特别训练法: 先自己看很多图画书学习(预训练)。 然后老师手把手教它(监督微调)。 最后用“精华浓缩法”(EMA)保存最好的学习成果。 4. 采用 Transformer 大一统模型的原因: 任务导向:追求多任务统一(理解+生成),而扩散模型更专注生成质量。 效率考量:扩散模型需要多次迭代去噪,自回归生成可能更实时。 架构简洁性:保持单一 Transformer 架构,降低训练和部署成本。 5. 好处: 统一 Transformer 架构:一个大脑,两种思维。 架构本质:虽然视觉处理分两条路,但后续处理仍用同一个 Transformer。 关键设计:参数共享,促进知识迁移;注意力机制,实现图文深度对齐;灵活性,可通过调整输入快速切换任务模式,无需重新训练模型。 6. 关键点: 统一 Transformer 架构,使用同一个模型就能完成图片理解,图片生成。 提供 1B 和 7B 两种规模,适配多元应用场景。 全面开源,支持商用,MIT 协议,部署使用便捷。 7. 生图效果:JanusPro7B 远好于 Janus,更稳定,提示词更短。 8. 行业影响力大 V 转发并评论,认为它是一种新型的自回归框架,通过将视觉编码解耦为独立的路径解决先前方法的局限性,同时利用单一的统一 Transformer 架构进行处理,超越了之前的统一模型,并匹配或超过了特定任务模型的性能,其简单性、高灵活性和有效性使其成为下一代统一多模态模型的有力候选者。 模型下载地址: 模型(7B):https://huggingface.co/deepseekai/JanusPro7B 模型(1B):https://huggingface.co/deepseekai/JanusPro1B 此代码仓库采用 MIT 许可证。使用 JanusPro 模型需遵守 DeepSeek 模型许可证。MIT 许可证允许自由使用、修改和分发代码,只需保留版权声明和许可文件,且作者不承担任何责任。
2025-02-12
Janus-Pro
JanusPro 是 DeepSeek 深夜发布的大一统模型,它将图像理解和生成统一在一个模型中。 其具有以下特点和优势: 1. 拥有两种超能力: 理解模式:使用“超级眼镜”(SigLIPL)仔细查看最大 384x384 大小的图片,并能读取文字。 画画模式:使用“魔法画笔”(校正流+SDXLVAE)创作同样大小的图片。 2. 聪明的大脑:核心是 DeepSeek 语言模型,已学习过很多知识。 3. 特别训练法: 先自己看很多图画书学习(预训练)。 然后老师手把手教(监督微调)。 最后用“精华浓缩法”(EMA)保存最好的学习成果。 采用 Transformer 大一统模型而非 Diffusion 模型的原因包括: 1. 任务导向:JanusPro 追求多任务统一(理解+生成),而扩散模型更专注生成质量。 2. 效率考量:扩散模型需要多次迭代去噪,自回归生成可能更实时。 3. 架构简洁性:保持单一 Transformer 架构,降低训练和部署成本。 其好处有: 1. 统一 Transformer 架构:一个大脑,两种思维。 2. 架构本质:虽然视觉处理分两条路,但后续处理仍用同一个 Transformer。 3. 关键设计: 参数共享:底层 Transformer 同时学习理解和生成任务,促进知识迁移。 注意力机制:通过跨模态注意力,实现图文深度对齐。 灵活性:可通过调整输入快速切换任务模式,无需重新训练模型。 该模型的关键点包括: 1. 统一 Transformer 架构,使用同一个模型就能完成图片理解和图片生成。 2. 提供 1B 和 7B 两种规模,适配多元应用场景。 3. 全面开源,支持商用,采用 MIT 协议,部署使用便捷。 生图效果方面,JanusPro7B 远好于 Janus,更稳定,提示词更短。 行业影响力大 V 如 AK 评论称:JanusPro 是一种新型的自回归框架,它统一了多模态理解和生成。它通过将视觉编码解耦为独立的路径来解决先前方法的局限性,同时仍然利用单一的统一 Transformer 架构进行处理。解耦不仅缓解了视觉编码器在理解和生成中的角色冲突,还增强了框架的灵活性。JanusPro 超越了之前的统一模型,并匹配或超过了特定任务模型的性能。JanusPro 的简单性、高灵活性和有效性使其成为下一代统一多模态模型的有力候选者。 模型下载地址:https://github.com/deepseekai/Janus 。模型(7B):https://huggingface.co/deepseekai/JanusPro7B 。模型(1B):https://huggingface.co/deepseekai/JanusPro1B 。
2025-02-05