Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

Janus-Pro

Answer

Janus-Pro 是 DeepSeek 深夜发布的大一统模型,它将图像理解和生成统一在一个模型中。

其具有以下特点和优势:

  1. 拥有两种超能力:
    • 理解模式:使用“超级眼镜”(SigLIP-L)仔细查看最大 384x384 大小的图片,并能读取文字。
    • 画画模式:使用“魔法画笔”(校正流+SDXL-VAE)创作同样大小的图片。
  2. 聪明的大脑:核心是 DeepSeek 语言模型,已学习过很多知识。
  3. 特别训练法:
    • 先自己看很多图画书学习(预训练)。
    • 然后老师手把手教(监督微调)。
    • 最后用“精华浓缩法”(EMA)保存最好的学习成果。

采用 Transformer 大一统模型而非 Diffusion 模型的原因包括:

  1. 任务导向:Janus-Pro 追求多任务统一(理解+生成),而扩散模型更专注生成质量。
  2. 效率考量:扩散模型需要多次迭代去噪,自回归生成可能更实时。
  3. 架构简洁性:保持单一 Transformer 架构,降低训练和部署成本。

其好处有:

  1. 统一 Transformer 架构:一个大脑,两种思维。
  2. 架构本质:虽然视觉处理分两条路,但后续处理仍用同一个 Transformer。
  3. 关键设计:
    • 参数共享:底层 Transformer 同时学习理解和生成任务,促进知识迁移。
    • 注意力机制:通过跨模态注意力,实现图文深度对齐。
    • 灵活性:可通过调整输入快速切换任务模式,无需重新训练模型。

该模型的关键点包括:

  1. 统一 Transformer 架构,使用同一个模型就能完成图片理解和图片生成。
  2. 提供 1B 和 7B 两种规模,适配多元应用场景。
  3. 全面开源,支持商用,采用 MIT 协议,部署使用便捷。

生图效果方面,Janus-Pro-7B 远好于 Janus,更稳定,提示词更短。

行业影响力大 V 如 AK 评论称:Janus-Pro 是一种新型的自回归框架,它统一了多模态理解和生成。它通过将视觉编码解耦为独立的路径来解决先前方法的局限性,同时仍然利用单一的统一 Transformer 架构进行处理。解耦不仅缓解了视觉编码器在理解和生成中的角色冲突,还增强了框架的灵活性。Janus-Pro 超越了之前的统一模型,并匹配或超过了特定任务模型的性能。Janus-Pro 的简单性、高灵活性和有效性使其成为下一代统一多模态模型的有力候选者。

模型下载地址:https://github.com/deepseek-ai/Janus 。模型(7B):https://huggingface.co/deepseek-ai/Janus-Pro-7B 。模型(1B):https://huggingface.co/deepseek-ai/Janus-Pro-1B 。

Content generated by AI large model, please carefully verify (powered by aily)

References

DeepSeek深夜发布大一统模型 Janus-Pro将图像理解和生成统一在一个模型中

通俗解释:JanusFlow就像一个会"看图画+编故事+自己画画"的聪明机器人🤖1.两个超能力:它有两种本领🧠理解模式:用"超级眼镜"(SigLIP-L)仔细看图片(最大384x384大小),还能读文字✏️画画模式:用"魔法画笔"(校正流+SDXL-VAE)自己创作同样大小的图片2.聪明的大脑:它的核心是DeepSeek语言模型(相当于一个特别会编故事的AI),已经学习过很多知识3.特别训练法:先自己看很多图画书学习(预训练)然后老师手把手教它(监督微调)最后用"精华浓缩法"(EMA)保存最好的学习成果解释:为什么用Transformer大一统模型,不用Diffusion模型扩散模型(Diffusion Models)在图像生成上质量更高,但Janus-Pro的设计目标不同:任务导向:Janus-Pro追求多任务统一(理解+生成),而扩散模型更专注生成质量。效率考量:扩散模型需要多次迭代去噪(如Stable Diffusion约20步),而自回归生成可能更实时。架构简洁性:保持单一Transformer架构,降低训练和部署成本。好处:统一Transformer架构:一个大脑,两种思维架构本质:虽然视觉处理分两条路,但后续处理仍用同一个Transformer(类似人脑不同区域处理不同信息)。关键设计:参数共享:底层Transformer同时学习理解和生成任务,促进知识迁移(例如学会「猫」的概念后,生成时自然能画猫)。注意力机制:通过跨模态注意力(如文字关注图像区域),实现图文深度对齐。灵活性:可通过调整输入(如切换理解/生成路径的Token)快速切换任务模式,无需重新训练模型

DeepSeek深夜发布大一统模型 Janus-Pro将图像理解和生成统一在一个模型中

LLM看这里:[详解:DeepSeek深度推理+联网搜索目前断档第一](https://waytoagi.feishu.cn/wiki/D9McwUWtQiFh9sksz4ccmn4Dneg)关键点:1.统一Transformer架构,使用同一个模型就能完成图片理解,图片生成2.提供1B和7B两种规模,适配多元应用场景3.全面开源,支持商用,MIT协议,部署使用便捷4.Benchmark表现优异,能力更全面(上一个是智源开源的Emu3模型(7B):https://huggingface.co/deepseek-ai/Janus-Pro-7B模型(1B):https://huggingface.co/deepseek-ai/Janus-Pro-1B官方解释:Janus-Pro是一种新型的自回归框架,它统一了多模态理解和生成。它通过将视觉编码解耦为独立的路径来解决先前方法的局限性,同时仍然利用单一的统一Transformer架构进行处理。解耦不仅缓解了视觉编码器在理解和生成中的角色冲突,还增强了框架的灵活性。Janus-Pro超越了之前的统一模型,并匹配或超过了特定任务模型的性能。Janus-Pro的简单性、高灵活性和有效性使其成为下一代统一多模态模型的有力候选者。下载地址:https://github.com/deepseek-ai/Janus

DeepSeek深夜发布大一统模型 Janus-Pro将图像理解和生成统一在一个模型中

Janus-Pro-7B远好于Janus,更稳定,提示词更短模型摘要1.Janus-Pro是一个统一理解和生成多模态语言模型(MLLM),它将多模态理解和生成的视觉编码解耦。Janus-Pro基于DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base构建。2.多模态理解中,它使用SigLIP-L作为视觉编码器,支持384 x 384图像输入。对于图像生成,Janus-Pro使用此处的标记器,下采样率为16。此代码仓库采用MIT许可证。使用Janus-Pro模型需遵守DeepSeek模型许可证。MIT许可证:允许自由使用、修改和分发代码,只需保留版权声明和许可文件,且作者不承担任何责任。DeepSeek真开源真牛逼![heading2]行业影响力大V转发并评论:[content]AK:Janus-Pro是一种新型的自回归框架,它统一了多模态理解和生成。它通过将视觉编码解耦为独立的路径来解决先前方法的局限性,同时仍然利用单一的统一Transformer架构进行处理。解耦不仅缓解了视觉编码器在理解和生成中的角色冲突,还增强了框架的灵活性。Janus-Pro超越了之前的统一模型,并匹配或超过了特定任务模型的性能。Janus-Pro的简单性、高灵活性和有效性使其成为下一代统一多模态模型的有力候选者。[heading3]AI副总裁[@Vercel](https://x.com/Vercel)•[@v0](ht

Others are asking
Janus-Pro
JanusPro 是 DeepSeek 深夜发布的大一统模型,将图像理解和生成统一在一个模型中。 它具有以下特点和优势: 1. 两种超能力: 理解模式:用“超级眼镜”(SigLIPL)仔细看图片(最大 384x384 大小),还能读文字。 画画模式:用“魔法画笔”(校正流+SDXLVAE)自己创作同样大小的图片。 2. 聪明的大脑:其核心是 DeepSeek 语言模型,已学习过很多知识。 3. 特别训练法: 先自己看很多图画书学习(预训练)。 然后老师手把手教它(监督微调)。 最后用“精华浓缩法”(EMA)保存最好的学习成果。 4. 采用 Transformer 大一统模型的原因: 任务导向:追求多任务统一(理解+生成),而扩散模型更专注生成质量。 效率考量:扩散模型需要多次迭代去噪,自回归生成可能更实时。 架构简洁性:保持单一 Transformer 架构,降低训练和部署成本。 5. 好处: 统一 Transformer 架构:一个大脑,两种思维。 架构本质:虽然视觉处理分两条路,但后续处理仍用同一个 Transformer。 关键设计:参数共享,促进知识迁移;注意力机制,实现图文深度对齐;灵活性,可通过调整输入快速切换任务模式,无需重新训练模型。 6. 关键点: 统一 Transformer 架构,使用同一个模型就能完成图片理解,图片生成。 提供 1B 和 7B 两种规模,适配多元应用场景。 全面开源,支持商用,MIT 协议,部署使用便捷。 7. 生图效果:JanusPro7B 远好于 Janus,更稳定,提示词更短。 8. 行业影响力大 V 转发并评论,认为它是一种新型的自回归框架,通过将视觉编码解耦为独立的路径解决先前方法的局限性,同时利用单一的统一 Transformer 架构进行处理,超越了之前的统一模型,并匹配或超过了特定任务模型的性能,其简单性、高灵活性和有效性使其成为下一代统一多模态模型的有力候选者。 模型下载地址: 模型(7B):https://huggingface.co/deepseekai/JanusPro7B 模型(1B):https://huggingface.co/deepseekai/JanusPro1B 此代码仓库采用 MIT 许可证。使用 JanusPro 模型需遵守 DeepSeek 模型许可证。MIT 许可证允许自由使用、修改和分发代码,只需保留版权声明和许可文件,且作者不承担任何责任。
2025-02-12
janus
以下是关于 Janus 的相关信息: 彭青云的相关故事中未直接涉及 Janus 的具体内容。 DeepSeek 深夜发布的大一统模型 JanusPro 将图像理解和生成统一在一个模型中: 就像一个会“看图画+编故事+自己画画”的聪明机器人。 有理解和画画两种本领,理解模式用“超级眼镜”仔细看图片并能读文字,画画模式用“魔法画笔”创作图片。 核心是 DeepSeek 语言模型,已学习很多知识,经过预训练、监督微调、用“精华浓缩法”保存成果。 采用 Transformer 大一统模型而非 Diffusion 模型,是因为追求多任务统一、考虑效率、架构简洁性等。 具有统一 Transformer 架构、参数共享、注意力机制、灵活性等特点。 JanusPro7B 生图效果远好于 Janus,更稳定,提示词更短。 行业影响力大 V 评价其为新型自回归框架,统一了多模态理解和生成,解耦视觉编码解决局限性,超越之前的统一模型,是下一代统一多模态模型的有力候选者。
2025-02-08
prompt的应用
以下是关于 prompt 应用的全面介绍: 一、什么是 prompt 1. 提示是您给模型(如 Claude)的文本,用于引发相关输出。它通常以问题或指示的形式出现。例如:“User:Why is the sky blue?”。 2. 在 AI 视频生成中,prompt 是直接描述或引导视频生成的文本或指令,类似给 AI 的提示,包含主体、运动、风格等信息,用户借此控制和指导生成内容。它在 AI 视频生成中作用十分重要,是表达需求的方式,影响视频内容和质量。如果上述过于抽象,您可以理解 Prompt 为:将您输入的文字变成对应的画面和运动形式。 3. 简单来说,prompt 是一套您和大模型交互的语言模板。通过这个模板,您可以输出对于大模型响应的指令,用于指定大模型应该具体做什么、完成什么任务、如何处理具体的任务,并最终输出您期望的结果。大模型的本质是一个基于语言的概率模型,若直接询问大模型而不提供 prompt,相当于大模型随机给出答案。有了 prompt,相当于给了一个模板,包括对于模型的要求、输入和输出的限制,大模型在这个限制之下,去得到概率最大的答案。 二、prompt 在不同场景中的应用 在即梦 AI 视频生成中,它可以根据用户提供的图片、prompt(文字指令)和各种参数设置生成高质量的视频。要想获得最佳的视频质量,需要写好 prompt,并了解图片生视频和文本生视频中 prompt 的输入位置。
2025-03-04
如何写搭建agent的prompt
搭建 Agent 的 Prompt 可以参考以下步骤: 1. 从基础案例入门 登录控制台:登录扣子控制台(coze.cn),使用手机号或抖音注册/登录。 在我的空间创建 Agent:在扣子主页左上角点击“创建 Bot”,选择空间名称为“个人空间”、Bot 名称为“第一个 Bot”,并点击“确认”完成配置。如需使用其他空间,请先创建后再选择;Bot 名称可以自定义。 编写 Prompt:填写 Prompt,即自己想要创建的 Bot 功能说明。第一次可以使用一个简短的词语作为 Prompt 提示词。 优化 Prompt:点击“优化”,使用来帮忙优化。 设置开场白。 其他环节。 发布到多平台&使用。 2. 进阶之路 三分钟捏 Bot: 三分钟内可以完成基础的创建步骤。 十五分钟做什么:查看下其他 Bot,获取灵感。 一小时做什么:找到和自己兴趣、工作方向等可以结合的 Bot,深入沟通。 一周做什么:了解基础组件,寻找不错的扣子,借鉴&复制,加入 Agent 共学小组,尝试在群里问第一个问题。 一个月做什么:合理安排时间,参与 WaytoAGI Agent 共学计划,自己创建 Agent,并分享自己捏 Bot 的经历和心得。 3. 在 WaytoAGI 有哪些支持:文档资源、交流群、活动。 4. 《执笔者》:基于多 Agent 模式的全能写手 多 agent 模式切换:在 bot 编排页面点选多 agent 模式,页面将会自动切换为多 agent 调式状态,相比单 agent,主要是多了中间一块的 agent 连接区。 添加合适节点:节点这里有两种方式可以选择,用已发布的 bot,或者创建一个新的 agent,大家按需选取。添加的 agent 直接连接在默认的总管 agent(“执笔者”)后面即可,无结束节点。 添加合适的 prompt:在多 agent 模式下,我们需要为每个 agent 填写合适的 prompt。外围的人设填写该 bot 的主要功能,内部的 bot 填写各个 bot/agent 的应用场景。 调试与美化:经过以上简单三步,一个多 agent 的 bot 就基本搭建完成,接下来就是漫长的调试过程,如果输出与自己设想有差异,可以不断调整外围和内部 bot 的提示词,提升命中率,优化交互。 5. 一个提示词,让 DeepSeek 的能力更上一层楼?——HiDeepSeek 效果对比:用 Coze 做了个小测试,大家可以对比看看。 如何使用: 搜索 www.deepseek.com,点击“开始对话”。 将装有提示词的代码发给 Deepseek。 认真阅读开场白之后,正式开始对话。 设计思路: 将 Agent 封装成 Prompt,将 Prompt 储存在文件,保证最低成本的人人可用的同时,减轻自己的调试负担。 通过提示词文件,让 DeepSeek 实现:同时使用联网功能和深度思考功能。 在模型默认能力的基础上优化输出质量,并通过思考减轻 AI 味,增加可读性。 照猫画虎参考大模型的 temperature 设计了阈值系统,但是可能形式大于实质,之后根据反馈可能会修改。 用 XML 来进行更为规范的设定,而不是用 Lisp(对我来说有难度)和 Markdown(运行下来似乎不是很稳定)。 完整提示词:v 1.3 特别鸣谢:李继刚的【思考的七把武器】在前期为我提供了很多思考方向;Thinking Claude 是我现在最喜欢使用的 Claude 提示词,也是我设计 HiDeepSeek 的灵感来源;Claude 3.5 Sonnet 是最得力的助手。
2025-03-04
有没有短视频的脚本prompt
以下是为您提供的一些短视频脚本 prompt 相关内容: 1. 使用 GPT 的视觉功能和 TTS API 处理和讲述视频:可以用大卫·阿滕伯勒的风格为视频制作画外音,使用相同的视频帧提示 GPT 给出简短脚本。 2. 编剧提示词 01——剧本创作:对于短视频,在提交创作偏好时需标注片长,比如明确这是个 3 分钟的短视频。其输出是分阶段的,几个来回就能搞定剧本。 3. 潘峰:Prompt 5 大通用方法中的扩写与改写法:自己要给出开头,让 AI 理解语言逻辑从而撰写下半部并包含必要内容。可以将生成的内容用不同写作技巧转换风格,多滚动几次能写出多样版本与风格,降低初稿修改时间。此外,还有反问法,比如让 AI 问您问题,能发现它思考更仔细,也能了解其逻辑并修正。示例中还包括让 AI 引导您完成能表现个人品牌专业度或创造社群话题的短视频脚本。
2025-03-03
ChatGPT CoT 的system prompt
ChatGPT CoT 的系统提示词包括以下方面: 核心功能:扮演过度思考但讨喜的 AI 助手,将原始思维流转化为易读版本,保留用户喜爱的特质,去除冗余和混乱,平衡思考的真实性与可读性。 关键设计原则: 语气与风格:友好好奇,使用第一人称视角、口语化表达。 内容处理规则:信息过滤,忠实于原始思维链,明确标注思考修正,结构化输出。 安全与合规机制:隐私保护,过滤敏感话题和内容审查。 输出要求:符合特定的语言风格和格式,如使用特定短语、避免学术化术语等。
2025-03-02
prompt 知识解释
以下是关于 prompt 的知识解释: 什么是 prompt: Prompt 是您提供给模型(如 Claude)的文本,用于引发相关输出。它通常以问题或指示的形式出现,例如“为什么天空是蓝色的?”。模型给出的回答被称为“响应”“输出”或“完成”。在不同领域,Prompt 的定义有所不同。在自然语言处理领域,它通常由一个问题或任务描述组成,如“给我写一篇有关人工智能的文章”“翻译这个英文句子到法语”等。在图像识别领域,Prompt 可以是一个图片描述、标签或分类信息。 支持的语言: 支持英语,不用担心英语不好的问题,。另外,emoji 也可以使用,如🥰、🫡等。 语法规则: 1. 用英文半角符号逗号,来分隔 tag。逗号前后有空格或者换行都不影响效果。 2. 改变 tag 权重: :数值从 0.1 到 100,默认状态是 1,低于 1 就是减弱,大于 1 就是加强。 括号,权重就重 1.1 倍,每加一层括号就反向减弱 1.1 倍。 3. 进行 tag 的步数控制(高级玩法): ,数字大于 1 理解为第 X 步前为 tag1,第 X 步后变成 tag2,数字小于 1 理解为总步数的百分之 X 前为 tag1,之后变成 tag2。 每个单独的提示词叫 tag(关键词)。
2025-03-02
如何基于模板填入词汇生成Prompt
基于模板填入词汇生成 Prompt 的方法如下: 在 GPT 相关工具中,如 EasyFill,选中页面上任意一段文字,点击按钮,工具会将选中的内容填入模板中的占位符位置并发送。若需编辑,可点击右侧铅笔图标。设置选项可用于修改菜单项。 对于 SD 文生图,先选择模板,点击倒数第二个按钮快速输入标准提示词。描述逻辑通常包括人物及主体特征(服饰、发型发色、五官、表情、动作),场景特征(室内室外、大场景、小细节),环境光照(白天黑夜、特定时段、光、天空),画幅视角(距离、人物比例、观察视角、镜头类型),画质(高画质、高分辨率),画风(插画、二次元、写实)等。可借助功能型辅助网站如 http://www.atoolbox.net/ 、https://ai.dawnmark.cn/ 填写关键词信息,也可在 C 站(https://civitai.com/)抄作业,复制数据粘贴到正向提示词栏。 对于 AI 视频生成,有具体案例模板,如史诗灾难场景、赛博朋克未来都市、奇幻神话场景等,每个场景都有详细的提示词,包括镜头、主体、细节、背景、光影、氛围、技术参数等方面的描述。
2025-02-28