Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

怎么在AI文生图中精准的输出想要的文字

Answer

要在 AI 文生图中精准输出想要的文字,可以参考以下方法:

  • Recraft 模型:
    • 提供提示词加上文本位置,因为模型获得的输入数据越多,越容易产生精确输出。遵循指令比仅理解提示词更容易。
  • Tusiart 模型:
    • 定主题:明确生成图片的主题、风格和表达的信息。
    • 选择基础模型 Checkpoint:根据主题选择内容贴近的模型,如麦橘、墨幽的系列模型。
    • 选择 lora:寻找内容重叠的 lora 以控制图片效果及质量。
    • ControlNet:可控制图片中特定的图像,如人物姿态、生成特定文字等,属于高阶技能。
    • 局部重绘:下篇再学。
    • 设置 VAE:选择 840000 即可。
    • Prompt 提示词:用英文写需求,使用单词和短语组合,用英文半角逗号隔开,不用管语法和长句。
    • 负向提示词 Negative Prompt:用英文写避免产生的内容,同样用单词和短语组合,用英文半角逗号隔开,不用管语法。
    • 采样算法:一般选 DPM++2M Karras,也可参考模型作者推荐的采样器。
    • 采样次数:选 DPM++2M Karras 时,采样次数在 30 - 40 之间。
    • 尺寸:根据个人喜好和需求选择。
  • Liblibai 模型:
    • 定主题:明确生成图片的主题、风格和表达的信息。
    • 选择 Checkpoint:根据主题选择内容贴近的模型,如麦橘、墨幽的系列模型。
    • 选择 lora:寻找内容重叠的 lora 以控制图片效果及质量。
    • 设置 VAE:选择 840000 即可。
    • CLIP 跳过层:设成 2 。
    • Prompt 提示词:用英文写需求,使用单词和短语组合,用英文半角逗号隔开,不用管语法和长句。
    • 负向提示词 Negative Prompt:用英文写避免产生的内容,同样用单词和短语组合,用英文半角逗号隔开,不用管语法。
    • 采样方法:一般选 DPM++2M Karras,也可参考模型作者推荐的采样器。
    • 迭代步数:选 DPM++2M Karras 时,迭代步数在 30 - 40 之间。
    • 尺寸:根据个人喜好和需求选择。
    • 生成批次:默认 1 批。
Content generated by AI large model, please carefully verify (powered by aily)

References

Recraft爆红,我们和创始人聊了聊 |The Prompt

这个结果也改变了我们这次发布时的宣传策略。这次发布本来包含几个部分,一是从文字到图像的基础模型;二是Recraft作为世界第一也是唯一一个长文本生成模型,它能在图片中精准定位内容,可以按照你告诉模型的方式,将文本或其他图像放在图片的特定位置。(作者注:2024年12月的火山引擎大会上,即梦AI也实现了图片中的文字生成。)我们本来打算发布一个展示文本定位功能的视频,但当模型在基准测试中获胜后,整个世界开始关注Recraft,我们想,好吧不发布这个视频了,让我们把重点放在新模型和它测试中的优势上。镜相工作室:那获得第一之后,你和团队能好好休息了吗?Dorogush:我们不只有一个模型,而是一整套模型,有很多预设风格和功能,除了文生图,还有图生图功能(我们把它叫做微调)、改变图像长宽比、局部修复、外部扩展,所以即使在主要模型发布之后,仍然有很多工作要做。但在主要模型发布两周之后,团队的大部分成员都休息了几天。镜相工作室:公开信息显示你们是一个很小的团队。Dorogush:我们并没有那么小,最开始只有5个人,但现在有超过20人,核心是工程和机器学习团队,我们也有设计团队。现在我们还组建了营销团队,负责社交媒体运营和博客文章。随着产品发展和用户规模的扩大,我们在功能开发和技术创新上的人才需求也在不断增长。镜相工作室:Recraft如何做到让AI能够生成带有长文本的图像?Dorogush:当你生成带有文本的图像时,只提供提示词,和提供提示词加上文本位置,模型看到的数据量是不同的。模型获得的输入数据越多,就越容易产生精确的输出。因此,我们试图给模型提供尽可能多的信息,即文本位置。对模型来说,遵循指令比仅仅理解提示词要容易得多。

Tusiart简易上手教程

定主题:你需要生成一张什么主题、什么风格、表达什么信息的图。选择基础模型Checkpoint:按照你需要的主题,找内容贴近的checkpoint。一般我喜欢用模型大佬麦橘、墨幽的系列模型,比如说麦橘写实、麦橘男团、墨幽人造人等等,效果拔群。选择lora:在你想要生成的内容基础上,寻找内容重叠的lora,帮助你控制图片效果及质量。可以多看看广场上做得好看的帖子里面,他们都在用什么lora。ControlNet:控制图片中一些特定的图像,可以用于控制人物姿态,或者是生成特定文字、艺术化二维码等等。也是高阶技能,后面再学不迟。局部重绘:下篇再教,这里不急。设置VAE:无脑选择前面提到的840000这个即可。Prompt提示词:用英文写你想要AI生成的内容,不用管语法也不要写长句,仅使用单词和短语的组合去表达你的需求。单词、短语之间用英文半角逗号隔开即可。负向提示词Negative Prompt:用英文写你想要AI避免产生的内容,也是一样不用管语法,只需单词和短语组合,中间用英文半角逗号隔开。采样算法:这玩意儿还挺复杂的,现在我一般选DPM++2M Karras比较多。当然,最稳妥的是留意checkpoint的详情页上,模型作者是否有推荐采样器,使用他们推荐的采样器会更有保障。采样次数:要根据你采样器的特征来,一般我选了DPM++2M Karras之后,采样次数在30~40之间,多了意义不大还慢,少了出图效果差。尺寸:看你喜欢,看你需求。

Liblibai简易上手教程

定主题:你需要生成一张什么主题、什么风格、表达什么信息的图。(没错我是喜欢看plmm多点)选择Checkpoint:按照你需要的主题,找内容贴近的checkpoint。一般我喜欢用模型大佬麦橘、墨幽的系列模型,比如说麦橘写实、麦橘男团、墨幽人造人等等,效果拔群。选择lora:在你想要生成的内容基础上,寻找内容重叠的lora,帮助你控制图片效果及质量。可以多看看广场上做得好看的帖子里面,他们都在用什么lora。设置VAE:无脑选840000那一串就行。CLIP跳过层:设成2就行。Prompt提示词:用英文写你想要AI生成的内容,不用管语法也不要写长句,仅使用单词和短语的组合去表达你的需求。单词、短语之间用英文半角逗号隔开即可。负向提示词Negative Prompt:用英文写你想要AI避免产生的内容,也是一样不用管语法,只需单词和短语组合,中间用英文半角逗号隔开。采样方法:这玩意儿还挺复杂的,现在一般选DPM++2M Karras比较多。当然,最稳妥的是留意checkpoint的详情页上,模型作者是否有推荐采样器,使用他们推荐的采样器会更有保障迭代步数:要根据你采样器的特征来,一般我选了DPM++2M Karras之后,迭代步数在30~40之间,多了意义不大还慢,少了出图效果差。尺寸:看你喜欢,看你需求。生成批次:默认1批。

Others are asking
AI文生视频
以下是关于文字生成视频(文生视频)的相关信息: 一些提供文生视频功能的产品: Pika:擅长动画制作,支持视频编辑。 SVD:Stable Diffusion 的插件,可在图片基础上生成视频。 Runway:老牌工具,提供实时涂抹修改视频功能,但收费。 Kaiber:视频转视频 AI,能将原视频转换成各种风格。 Sora:由 OpenAI 开发,可生成长达 1 分钟以上的视频。 更多相关网站可查看:https://www.waytoagi.com/category/38 。 制作 5 秒单镜头文生视频的实操步骤(以梦 AI 为例): 进入平台:打开梦 AI 网站并登录,新用户有积分可免费体验。 输入提示词:涵盖景别、主体、环境、光线、动作、运镜等描述。 选择参数并点击生成:确认提示词无误后,选择模型、画面比例,点击「生成」按钮。 预览与下载:生成完毕后预览视频,满意则下载保存,不理想可调整提示词再试。 视频模型 Sora:OpenAI 发布的首款文生视频模型,能根据文字指令创造逼真且充满想象力的场景,可生成长达 1 分钟的一镜到底超长视频,视频中的人物和镜头具有惊人的一致性和稳定性。
2025-04-20
论文生成
以下是关于论文生成的相关信息: Deepseek V3 案例:有人用 Claude 做了一系列各种风格卡片的提示词,并在 V3 上进行尝试,效果不错。还有人把论文变成可视化。 ChatGPT 文本生成:以“词”为单位进行文本生成,存在随机性,有特定的“温度”参数控制较低排名单词的使用频率,对于文章生成“温度”为 0.8 效果较好。 论文写作的 AI 产品: 文献管理和搜索:Zotero 可自动提取文献信息,Semantic Scholar 是 AI 驱动的学术搜索引擎。 内容生成和辅助写作:Grammarly 提供文本校对等帮助,Quillbot 可重写和摘要。 研究和数据分析:Google Colab 支持 AI 和机器学习研究,Knitro 用于数学建模和优化。 论文结构和格式:LaTeX 结合自动化和模板处理格式,Overleaf 是在线 LaTeX 编辑器。 研究伦理和抄袭检测:Turnitin 和 Crossref Similarity Check 检测抄袭。 使用这些工具时要结合自身需求和写作风格,并仔细甄别内容。
2025-04-13
文生图
以下是关于文生图的简易上手教程: 1. 定主题:确定您需要生成的图片的主题、风格和要表达的信息。 2. 选择基础模型 Checkpoint:根据主题选择内容贴近的模型,如麦橘、墨幽的系列模型,如麦橘写实、麦橘男团、墨幽人造人等。 3. 选择 lora:在生成内容基础上,寻找重叠的 lora 以控制图片效果和质量,可参考广场上好看的帖子。 4. ControlNet:可控制图片中特定图像,如人物姿态、生成特定文字等,属于高阶技能。 5. 局部重绘:下篇再教。 6. 设置 VAE:无脑选择 840000 即可。 7. Prompt 提示词:用英文写想要 AI 生成的内容,使用单词和短语组合,用英文半角逗号隔开,不用管语法和长句。 8. 负向提示词 Negative Prompt:用英文写想要 AI 避免产生的内容,同样是单词和短语组合,用英文半角逗号隔开,不用管语法。 9. 采样算法:一般选 DPM++2M Karras 较多,也可参考 checkpoint 详情页上模型作者推荐的采样器。 10. 采样次数:选 DPM++2M Karras 时,采样次数一般在 30 40 之间。 11. 尺寸:根据个人喜好和需求选择。 以下是一些常见的文生图工具和模型: 1. 腾讯混元 2. luma 3. Recraft 4. 文生图大模型 V2.1L(美感版) 5. 美图奇想 5.0 6. midjourney 7. 快手可图 8. Flux.1.1 9. Stable Diffusion 3.5 Large 10. Imagen 3 网页版
2025-04-12
文生图工具
以下是关于文生图工具的相关信息: 常见的文生图工具包括: DALL·E:由 OpenAI 推出,能根据输入的文本描述生成逼真图片。 StableDiffusion:开源工具,可生成高质量图片,支持多种模型和算法。 MidJourney:因高质量图像生成效果和友好界面在创意设计人群中受欢迎。 更多文生图工具可在 WaytoAGI 网站(https://www.waytoagi.com/category/104)查看。 Stability AI 推出的基于 Discord 的媒体生成和编辑工具的文生图使用方法: 点击链接进入官方 DISCORD 服务器:https://discord.com/invite/stablediffusion 。 进入 ARTISAN 频道,任意选择一个频道。 输入/dream 会提示没有权限,点击链接,注册登录,填写信用卡信息以及地址,提交后可免费试用三天,三天后开始收费。 输入/dream 提示词,和 MJ 类似,可选参数有五类,包括 prompt(提示词,正常文字输入,必填项)、negative_prompt(负面提示词,填写负面提示词,选填项)、seed(种子值,可以自己填,选填项)、aspect(长宽比,选填项)、model(模型选择,SD3,Core 两种可选,选填项)、Images(张数,14 张,选填项)。完成后选择其中一张。 Tusiart 文生图的简易上手教程: 定主题:确定生成图片的主题、风格和表达的信息。 选择基础模型 Checkpoint:根据主题找内容贴近的 checkpoint,如麦橘、墨幽的系列模型。 选择 lora:寻找内容重叠的 lora 控制图片效果及质量。 ControlNet:控制图片中特定图像,如人物姿态、生成特定文字、艺术化二维码等。 局部重绘:下篇再教。 设置 VAE:无脑选择 840000 。 Prompt 提示词:用英文写需求,单词和短语组合,用英文半角逗号隔开。 负向提示词 Negative Prompt:用英文写避免产生的内容,单词和短语组合,用英文半角逗号隔开。 采样算法:一般选 DPM++2M Karras,也可参考模型作者推荐的采样器。 采样次数:选 DPM++2M Karras 时,采样次数在 30 40 之间。 尺寸:根据个人喜好和需求选择。
2025-04-12
文生图大模型排名
以下是文生图大模型的排名(从高到低): 1. Imagen 3:真实感满分,指令遵从强。 2. Recraft:真实感强,风格泛化很好,指令遵从较好(会受风格影响)。 3. Midjourney:风格化强,艺术感在线,但会失真,指令遵从较差。 4. 快手可图:影视场景能用,风格化较差。 5. Flux.1.1:真实感强,需要搭配 Lora 使用。 6. 文生图大模型 V2.1L(美感版):影视感强,但会有点油腻,细节不够,容易糊脸。 7. Luma:影视感强,但风格单一,糊。 8. 美图奇想 5.0:AI 油腻感重。 9. 腾讯混元:AI 油腻感重,影视感弱,空间结构不准。 10. SD 3.5 Large:崩。
2025-04-12
论文生成提示词
以下是为您整理的关于论文生成提示词的相关内容: 1. 在关于 DALL·E 3 论文的研究中,提示词包括: 给评分员提供完整的图像描述内容,要求评分员选择更符合文本描述的图像。 让评分员想象自己正在借助工具根据文本生成图像,并选择希望看到的图像。 让评分员从人的身体部位、面部和姿势、对象的位置等方面判断图像的连贯性。 但 DALL·E 3 仍存在空间感知不佳、构建文本描述生成器时的功能不可靠、生成的图片在重要细节上产生幻觉等问题。 2. 云舒为读懂 Claude 论文使用的提示词: “论文深度剖析导师”提示词,可用于深度理解文本,如解读公众号文章、专业论文、书籍、在线课程等。 还可用于求职分析,拆解岗位描述并定制求职攻略,甚至作为自我介绍的“测谎仪”。 希望以上内容对您有所帮助。
2025-04-10
Ai在设备风控场景的落地
AI 在设备风控场景的落地可以从以下几个方面考虑: 法律法规方面:《促进创新的人工智能监管方法》指出,AI 的发展带来了一系列新的安全风险,如对个人、组织和关键基础设施的风险。在设备风控中,需要关注法律框架是否能充分应对 AI 带来的风险,如数据隐私、公平性等问题。 趋势研究方面:在制造业中,AI Agent 可用于生产决策、设备维护、供应链协调等。例如,在工业设备监控与预防性维护中,Agent 能通过监测传感器数据识别异常模式,提前通知检修,减少停机损失和维修成本。在生产计划、供应链管理、质量控制、协作机器人、仓储物流、产品设计、建筑工程和能源管理等方面,AI Agent 也能发挥重要作用,实现生产的无人化、决策的数据化和响应的实时化。
2025-04-20
ai视频
以下是 4 月 11 日、4 月 9 日和 4 月 14 日的 AI 视频相关资讯汇总: 4 月 11 日: Pika 上线 Pika Twists 能力,可控制修改原视频中的任何角色或物体。 Higgsfield Mix 在图生视频中,结合多种镜头运动预设与视觉特效生成视频。 FantasyTalking 是阿里技术,可制作角色口型同步视频并具有逼真的面部和全身动作。 LAM 开源技术,实现从单张图片快速生成超逼真的 3D 头像,在任何设备上快速渲染实现实时互动聊天。 Krea 演示新工具 Krea Stage,通过图片生成可自由拼装 3D 场景,再实现风格化渲染。 Veo 2 现已通过 Gemini API 向开发者开放。 Freepik 发布视频编辑器。 Pusa 视频生成模型,无缝支持各种视频生成任务(文本/图像/视频到视频)。 4 月 9 日: ACTalker 是多模态驱动的人物说话视频生成。 Viggle 升级 Mic 2.0 能力。 TestTime Training在英伟达协助研究下,可生成完整的 1 分钟视频。 4 月 14 日: 字节发布一款经济高效的视频生成基础模型 Seaweed7B。 可灵的 AI 视频模型可灵 2.0 大师版及 AI 绘图模型可图 2.0 即将上线。
2025-04-20
ai视频教学
以下是为您提供的 AI 视频教学相关内容: 1. 第一节回放 AI 编程从入门到精通: 课程安排:19、20、22 和 28 号四天进行 AI 编程教学,周五晚上穿插 AI 视频教学。 视频预告:周五晚上邀请小龙问露露拆解爆火的 AI 视频制作,视频在视频号上有大量转发和播放。 编程工具 tree:整合多种模型,可免费无限量试用,下载需科学上网,Mac 可拖到文件夹安装,推荐注册 GitHub 账号用于代码存储和发布,主界面分为工具区、AI 干活区、右侧功能区等。 网络不稳定处理:网络不稳定时尝试更换节点。 项目克隆与文件夹:每个项目通过在本地新建文件夹来区分,项目运行一轮一轮进行,可新建会话,终端可重开。 GitHub 仓库创建:仓库相当于本地项目,可新建,新建后有地址,可通过多种方式上传。 Python 环境安装:为方便安装提供了安装包,安装时要选特定选项,安装后通过命令确认。 代码生成与修改:在 tree 中输入需求生成代码,可对生成的代码提出修改要求,如添加滑动条、雪花形状、颜色等,修改后审查并接受。 2. AI 视频提示词库: 神秘风 Arcane:Prompt:a robot is walking through a destroyed city,,League of Legends style,game modelling 乐高 Lego:Prompt:a robot is walking through a destroyed city,,lego movie style,bright colours,block building style 模糊背景 Blur Background:Prompt:a robot is walking through a destroyed city,,emphasis on foreground elements,sharp focus,soft background 宫崎骏 Ghibli:Prompt:a robot is walking through a destroyed city,,Spirited Away,Howl's Moving Castle,dreamy colour palette 蒸汽朋克 Steampunk:Prompt:a robot is walking through a destroyed city,,fantasy,gear decoration,brass metal robotics,3d game 印象派 Impressionism:Prompt:a robot is walking through a destroyed city,,big movements
2025-04-20
ai写程序
以下是关于使用 AI 写程序的相关内容: 1. 对于技术纯小白: 从最基础的小任务开始,让 AI 按照最佳实践写一个 say hello 的示例程序,并解释每个文件的作用及程序运行的逻辑,以学会必备的调试技能。 若学习写 chrome 插件,可让 AI 按照最佳实践生成简单的示范项目,包含全面的典型文件和功能,并讲解每个文件的作用和程序运行的逻辑。若使用 o1mini,可在提示词最后添加生成创建脚本的要求,并请教如何运行脚本(Windows 机器则是 create.cmd)。 2. 明确项目需求: 通过与 AI 的对话逐步明确项目需求。 让 AI 帮助梳理出产品需求文档,在后续开发时每次新起聊天将文档发给 AI 并告知在做的功能点。 3. 在独立游戏开发中的经验: 单独让 AI 写小功能没问题,但对于复杂的程序框架,可把不方便配表而又需要撰写的简单、模板化、多调用 API 且牵涉小部分特殊逻辑的代码交给 AI。 以 Buff 系统为例,可让 AI 仿照代码写一些 Buff。但目前 Cursor 生成复杂代码需要复杂的前期调教,ChatGPT 相对更方便。 教 AI 时要像哄小孩,及时肯定正确的,指出错误时要克制,不断完善其经验。 4. 相关资源和平台: AI 写小游戏平台:https://poe.com/ 图片网站:https://imgur.com/ 改 bug 的网站:https://v0.dev/chat 国内小游戏发布平台:https://open.4399.cn/console/ 需要注意的是,使用 AI 写程序时,对于技术小白来说,入门容易但深入较难,若没有技术背景可能提不出问题,从而影响 AI 发挥作用。
2025-04-19
学AI上钉钉
以下是在钉钉上学 AI 的相关内容: 从 AI 助教到智慧学伴的应用探索: 登录钉钉客户端,在右上角依次选择钉钉魔法棒、AI 助理、创建 AI 助理。进入创建 AI 助理页面后,填写 AI 助理信息,设置完成即可创建成功。 AI 领导力向阳乔木:未提及具体的在钉钉上学 AI 的操作方法。 基于 COW 框架的 ChatBot 实现步骤: 创建应用: 进入,登录后点击创建应用,填写应用相关信息。 点击添加应用能力,选择“机器人”能力并添加。 配置机器人信息后点击发布,发布后点击“点击调试”,会自动创建测试群聊,可在客户端查看。点击版本管理与发布,创建新版本发布。 项目配置: 点击凭证与基础信息,获取 Client ID 和 Client Secret 两个参数。 参考项目,将相关配置加入项目根目录的 config.json 文件,并设置 channel_type:"dingtalk",注意运行前需安装依赖。 点击事件订阅,点击已完成接入,验证连接通道,会显示连接接入成功。 使用:与机器人私聊或将机器人拉入企业群中均可开启对话。
2025-04-19
如何搭建精准回答的本地知识库
搭建精准回答的本地知识库可以参考以下步骤: 1. 登录。 2. 在左侧导航栏的工作区区域,选择进入指定团队。 3. 在页面顶部进入知识库页面,并单击创建知识库。 4. 在弹出的页面配置知识库名称、描述,并单击确认。需注意一个团队内的知识库名称不可重复,必须是唯一的。 5. 在单元页面,单击新增单元。 6. 在弹出的页面选择要上传的数据格式(默认是文本格式),然后选择一种文本内容上传方式完成内容上传。 如果想要对知识库进行更加灵活的掌控,可以使用额外的软件AnythingLLM,其安装地址为:https://useanything.com/download 。安装完成后进入配置页面,主要分为三步: 1. 第一步:选择大模型。 2. 第二步:选择文本嵌入模型。 3. 第三步:选择向量数据库。 在AnythingLLM中有一个Workspace的概念,可以创建自己独有的Workspace跟其他的项目数据进行隔离。具体操作如下: 1. 首先创建一个工作空间。 2. 上传文档并且在工作空间中进行文本嵌入。 3. 选择对话模式,AnythingLLM提供了两种对话模式: Chat模式:大模型会根据自己的训练数据和我们上传的文档数据综合给出答案。 Query模式:大模型仅仅会依靠文档中的数据给出答案。 4. 测试对话。
2025-03-11
如何去训练ai,让ai可以更精准的回答问题分析趋势
要训练 AI 使其更精准地回答问题和分析趋势,可以从以下几个方面入手: 检索原理: 1. 信息筛选与确认:系统会对检索器提供的信息进行评估,筛选出最相关和最可信的内容,同时验证信息的来源、时效性和相关性。 2. 消除冗余:识别并去除多个文档或数据源中的重复信息,避免在生成回答时出现重复或矛盾的内容。 3. 关系映射:分析不同信息片段之间的逻辑和事实关系,如因果、对比、顺序等,构建结构化的知识框架,使信息在语义上更连贯。 4. 上下文构建:将筛选和结构化的信息组织成连贯的上下文环境,包括对信息进行排序、归类和整合,形成统一的叙述或解答框架。 5. 语义融合:在必要时合并意义相近但表达不同的信息片段,减少语义重复并增强信息表达力。 6. 预备生成阶段:将整合好的上下文信息编码成适合生成器处理的格式,如转化为适合输入到生成模型的向量形式。 大模型生成回答: 最终全新的上下文被传递给大语言模型,大语言模型根据提供的信息回答问题。因为这个上下文包括了检索到的信息,所以相当于同时拿到了问题和参考答案,通过大语言模型的全文理解,生成准确和连贯的答案。 批判性思维与复杂问题解决: 批判性思维指分析、评估、推理并做出明智判断的能力,在 AI 时代尤为关键。培养批判性思维需要养成质疑习惯,通过辩论、逻辑训练、阅读反面意见等方式锻炼,注重逻辑推理和定量分析能力的培养。复杂问题解决与批判性思维密切相关,指在不确定情境下分析问题、设计解决方案的能力,往往需要综合运用多种思维技能,通过参与实际复杂项目、案例研究来提高经验,可利用 AI 作为资料提供者或头脑风暴助手,但关键在于人类自己的分析和决策过程。 纯强化学习: DeepSeek R1 引入纯强化学习,不依赖大量人类标注数据,而是让 AI 通过自我探索和试错来学习。在“冷启动”阶段,通过少量人工精选的思维链数据进行初步引导,建立符合人类阅读习惯的推理表达范式,随后主要依靠强化学习,在奖励系统的反馈下(包括准确率奖励和格式奖励),自主探索推理策略,不断提升回答的准确性,实现自我进化。纯强化学习有可能解锁新的人工智能水平,DeepSeek R1 更注重学习推理的底层策略,培养通用推理能力,实现跨领域的知识迁移运用和推理解答。
2025-03-07
如果用AI精准且快速总结视频网站的视频。
要使用 AI 精准且快速总结视频网站的视频,可参考以下步骤: 1. 对于有字幕的视频,如 B 站视频,先确认视频栏下方是否有字幕按钮,若有则说明视频作者已上传字幕或后台适配了 AI 字幕。 2. 安装油猴脚本“Bilibili CC 字幕工具”,安装后刷新浏览器,点击字幕会出现“下载”按钮。 3. 点击下载按钮,选择多种字幕格式,如带时间或不带时间的。 4. 将下载的字文字内容全选复制发送给 GPTs 进行总结。 5. 总结完视频内容后,还可继续向 AI 提问更多细节内容或与其探讨视频内容。 此外,通义千问的 Qwen2.5VL 模型在视频理解方面也有出色表现,如支持最长 1 小时视频理解,具备秒级的事件定位能力,能够对视频的不同时间段进行要点总结等。
2025-03-06
图片的提示词的精准度
以下是关于图片提示词精准度的相关内容: 画面精度提示词: high detail(高细节) hyper quality(高品质) high resolution(高分辨率) FHD, 1080P, 2K, 4K, 8K 8k smooth(8K 流畅) 渲染效果提示词: Unreal Engine(虚幻引擎) octane render(渲染器) Maxon Cinema 4D 渲染器 architectural visualisation(建筑渲染) Corona Render(室内渲染) Quixel Megascans Render(真实感) VRay(V 射线) Behance C4D 3D blender surreal photography(超现实摄影) realistic 3D(真实 3D) zbrush 在描述图片提示词时,通常的逻辑包括:人物及主体特征(服饰、发型发色、五官、表情、动作),场景特征(室内室外、大场景、小细节),环境光照(白天黑夜、特定时段、光、天空),画幅视角(距离、人物比例、观察视角、镜头类型),画质(高画质、高分辨率),画风(插画、二次元、写实)。通过这些详细的提示词,能更精确地控制绘图。 对于新手而言,有以下辅助书写提示词的方法和网站: 下次作图时,先选择模板,点击倒数第二个按钮快速输入标准提示词。 功能型辅助网站,如:http://www.atoolbox.net/,通过选项卡方式快速填写关键词信息。 https://ai.dawnmark.cn/,每种参数有缩略图参考,方便直观选择提示词。 去 C 站(https://civitai.com/)抄作业,每一张图都有详细参数,可点击复制数据按钮,粘贴到正向提示词栏,Stable Diffusion 会自动匹配参数,但要注意图像作者使用的大模型和 LORA,不然即使参数一样,生成的图也会不同。也可以只取其中较好的描述词,如人物描写、背景描述、小元素或画面质感等。 提示词所做的工作是缩小模型出图的解空间,即缩小生成内容时在模型数据里的检索范围,而非直接指定作画结果。提示词的效果受模型影响,不同模型对自然语言、单词标签等语言风格的反应不同。 提示词中可以填写以下内容: 自然语言:可以使用描述物体的句子作为提示词,大多数情况下英文有效,也可用中文,避免复杂语法。 单词标签:使用逗号隔开的单词作为提示词,一般使用普通常见单词,单词风格要和图像整体风格搭配,避免拼写错误,可参考 Emoji、颜文字:Emoji 表情符号准确且在语义准确度上表现良好,对构图有影响。关于 emoji 确切含义,可参考。对于使用 Danbooru 数据的模型,西式颜文字可在一定程度上控制出图的表情。
2025-02-26
我想了解现在有什么文生图的模型或者工具,可以精准的按照prompt给的位置大小把文字写在最终出来的图像上的,这个字不会是幻觉,是实打实的字,或者有没有通过训练lora来达到这个效果的
以下是一些关于文生图的模型和工具的信息: Tusiart: 定主题:确定生成图片的主题、风格和表达的信息。 选择基础模型 Checkpoint:可选用麦橘、墨幽等系列模型。 选择 lora:寻找与生成内容重叠的 lora 以控制图片效果和质量。 ControlNet:可控制图片中特定的图像。 设置 VAE:选择 840000 。 Prompt 提示词:用英文写需求,单词和短语用英文半角逗号隔开。 负向提示词 Negative Prompt:用英文写避免产生的内容,单词和短语用英文半角逗号隔开。 采样算法:一般选 DPM++2M Karras ,也可参考模型作者推荐的采样器。 采样次数:选 DPM++2M Karras 时,采样次数在 30 40 之间。 尺寸:根据需求和喜好选择。 吐司网站: 文生图的操作方式:在首页的对话生图对话框输入文字描述即可生成图片,不满意可通过对话修改。 模型及生成效果:Flex 模型对语义理解强,不同模型生成图片的积分消耗不同,生成效果受多种因素影响。 图生图及参数设置:可基于图片做延展,能调整尺寸、生成数量等参数,高清修复消耗算力多,建议先出小图。 特定风格的生成:国外模型对中式水墨风等特定风格的适配可能不足,可通过训练 Lora 模型改善。 Liblibai: 定主题:确定生成图片的主题、风格和表达的信息。 选择 Checkpoint:可选用麦橘、墨幽等系列模型。 选择 lora:寻找与生成内容重叠的 lora 以控制图片效果和质量。 设置 VAE:选择 840000 。 CLIP 跳过层:设成 2 。 Prompt 提示词:用英文写需求,单词和短语用英文半角逗号隔开。 负向提示词 Negative Prompt:用英文写避免产生的内容,单词和短语用英文半角逗号隔开。 采样方法:一般选 DPM++2M Karras ,也可参考模型作者推荐的采样器。 迭代步数:选 DPM++2M Karras 时,迭代步数在 30 40 之间。 尺寸:根据需求和喜好选择。 生成批次:默认 1 批。
2025-02-25
如何精准提问解决问题
要精准提问解决问题,可以参考以下几点: 1. 在使用类似 Cursor 等工具时,如果在提示栏中按 Option/Alt Enter,它将回答您关于选择和附加上下文的任何问题。此对话内容可在后续生成中进一步使用,在其提出响应后键入“do it”即可在快速提问后生成代码。 2. 相信类似 GPT 等工具的能力,大胆提要求让其帮忙完成。 3. 明确自己的需求,向 GPT 提的要求尽量准确,如同给员工安排工作。 4. 不断追问,只要不明白,就目标明确、表达精确地追问。 5. 对于 GPT 不了解您工作环境和个性需求的情况,提供准确信息,如直接贴出文件目录地址,请其直接处理。 6. 锻炼语言表述能力,更精准地用语言描述问题。因为在语言模型时代,一个好的问题某些时候比答案更重要,语言本身也代表着人类思维的外放,与文明诞生有关联。 7. 具备业务理解和 AI 嵌入能力,找到业务中应用大模型的场景,将业务和大模型算法结合,理解模型在业务中的边界。 8. 培养维度转换能力,将各种问题转化为语言问题,将业务中的数据转化为语言描述,将通用模块问题转化为通用问题模块,把所有信息都转化为语言信息后再交流。 9. 在业务助手中,可采用助手方式,主要进行工作辅助,不在主业务流程内,大模型负责优化、检索、启发、提供思路等,帮助人提高效率、多维度思考;也可采用业务环方式,大模型经过调整和 prompt 工程后,作为接口服务,进入到主业务流程中,自动处理内容并生成结果。
2025-01-30
有哪些免费的文生图中文软件
以下是一些免费的文生图中文软件: 1. 豆包 App 支持文生图中文文字生成。 2. Stability AI 推出的基于 Discord 的媒体生成和编辑工具可用于文生图,您可以通过以下步骤使用: 点击链接进入官方 DISCORD 服务器:https://discord.com/invite/stablediffusion 。 进入 ARTISAN 频道,任意选择一个频道。 输入/dream 会提示您没有权限,点击链接,注册登录,填写信用卡信息以及地址,点击提交,会免费试用三天,三天后开始收费。输入/dream 提示词,这部分和 MJ 类似,可选参数有五类,包括提示词(必填项)、负面提示词(选填项)、种子值(选填项)、长宽比(选填项)、模型选择(选填项)、张数(选填项)。完成后选择其中一张。 3. 您还可以参考以下教程: SD 做中文文字生成的教程: 找到一款喜欢的字体,写上主题例如“端午”。 打开 SD,选择文生图,输入关键词咒语。 打开 Controlnet,启用 lineart 和 canny 固定字体,如果希望有景深效果,也可以打开 depth(增加阴影和质感)。 打开高清修复,分辨率联系 1024 以上,步数:29 60 。 直接生成。这里可以举一反三,选择一些水果模型,珠宝模型,毛毡等等快来试一试吧,附免费参数。
2025-02-16
文生图如何提高字在图中的准确率
要提高文生图中字在图中的准确率,可以从以下几个方面入手: 1. 数据准备: 对于中文文字的生成,Kolors从两个方面准备数据。一是选择 50000 个最常用的汉字,机造生成了一个千万级的中文文字图文对数据集,但机造数据真实性不足。二是使用 OCR 和 MLLM 生成海报、场景文字等真实中文文字数据集,大概有百万量级。 Hugging 和英特尔发布了提高文生图模型空间一致性的方案,包括一个详细标注了空间关系的 600 万张图片的数据集,模型和数据集都会开源。 2. 模型能力: DALLE 3 和 SD3 已经有了很强的英文文字生成能力,但目前还未有模型具有中文文字的生成能力。中文文字的生成存在困难,一是中文汉字的集合大且纹理结构复杂,二是缺少中文文字的图文对数据。 作者观察到,使用机造数据结合高质量真实数据后,中文文字生成能力的真实性大大提升,而且即使是真实数据中不存在的汉字的真实性也得到了提升。 3. 训练方法: 在包含大量物体的图像上进行训练,可以显著提高图像的空间一致性。 此外,在写文生图的提示词时,通常的描述逻辑是这样的:人物及主体特征(服饰、发型发色、五官、表情、动作),场景特征(室内室外、大场景、小细节),环境光照(白天黑夜、特定时段、光、天空),画幅视角(距离、人物比例、观察视角、镜头类型),画质(高画质、高分辨率),画风(插画、二次元、写实)。通过这些详细的提示词,能更精确地控制绘图。对于新手而言,还有一些功能型辅助网站来帮我们书写提示词,比如:http://www.atoolbox.net/ 、https://ai.dawnmark.cn/ 。还可以去 C 站(https://civitai.com/)里面抄作业。但要注意图像作者使用的大模型和 LORA,不然即使参数一样,生成的图也会截然不同。
2025-01-29
流程图有哪些工具可以制作,流程图主要用于展示一个过程或系统的步骤和决策点。图中通过不同形状的框(如椭圆形、矩形)和箭头来表示各种步骤、条件判断和流程走向, 有哪些AI工具可以直接制作吗
以下是一些可以制作流程图的 AI 工具: 1. Lucidchart: 注册并登录:。 选择模板:在模板库中搜索“项目管理流程图”。 编辑图表:根据项目需求添加和编辑图形和流程步骤。 优化布局:利用 AI 自动布局功能,优化图表的外观。 保存和分享:保存图表并与团队成员分享,或导出为 PDF、PNG 等格式。 2. ChatGPT: 确定制作目标。 通过自然语法描述逻辑,生成 Mermaid 图形语法。 在线校验测试是否成功。
2024-12-19
上面的流程图有哪些工具可以制作,流程图主要用于展示一个过程或系统的步骤和决策点。图中通过不同形状的框(如椭圆形、矩形)和箭头来表示各种步骤、条件判断和流程走向, 有哪些AI工具可以直接制作吗
以下是一些可以制作您所描述的流程图的 AI 工具: Lucidchart: 1. 注册并登录: 2. 选择模板:在模板库中搜索“项目管理流程图”。 3. 编辑图表:根据您的项目需求添加和编辑图形和流程步骤。 4. 优化布局:利用 AI 自动布局功能,优化图表的外观。 5. 保存和分享:保存图表并与团队成员分享,或导出为 PDF、PNG 等格式。 此外,文中还提到了关于智能体和人工智能在解决科学问题方面的一些相关内容,但未直接涉及流程图制作工具的更多信息。
2024-12-19
在一个有向图中,所有顶点的入度与出度之和等于所有边之和的2倍
在有向图中,这一结论是正确的。对于每个顶点,其入度表示指向该顶点的边的数量,出度表示从该顶点出发的边的数量。而每条边都有一个起点和一个终点,所以每条边会在其起点的出度中计数一次,在其终点的入度中计数一次,因此所有顶点的入度与出度之和就等于所有边的数量的 2 倍。
2024-11-21
用邻接矩阵法存储图,占用的存储空间数只与图中结点个数有关,而与边数无关。
这种说法是不准确的。用邻接矩阵法存储图时,占用的存储空间数不仅与图中结点个数有关,也与边数有关。在邻接矩阵中,如果图有 n 个结点,那么矩阵的大小就是 n×n。如果边数较多,矩阵中表示边存在的元素就会较多,从而占用更多的存储空间;反之,如果边数较少,占用的存储空间相对较少。
2024-11-21