Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

我想学习关于 comfy ui的内容

Answer

以下是一些关于 ComfyUI 的学习资源和相关信息:

  1. 学习资料:
    • ComfyUI 官方文档:提供使用手册和安装指南,适合初学者和有经验的用户。网站:https://www.comfyuidoc.com/zh/
    • 优设网:有详细的 ComfyUI 入门教程,适合初学者。教程地址:https://www.uisdc.com/comfyui-3
    • 知乎:有用户分享 ComfyUI 的部署教程和使用说明,适合有一定基础的用户。教程地址:https://zhuanlan.zhihu.com/p/662041596
    • Bilibili:提供一系列从新手入门到精通的视频教程。教程地址:https://www.bilibili.com/video/BV14r4y1d7r8/
  2. 8 月 13 日 ComfyUI 共学内容:
    • 包括学习交流与活动安排,讨论了学习需求、教程分享、部署问题、应用场景及活动规划。
    • 工作流的分享与探讨,涉及不同场景应用、优势、弊端及学习方法,还有分享会和开源社区情况。
    • 学习交流与报错问题解决,包括使用、工作流分享、报错问题及解决方案,以及课程设计安排。
    • 讨论了 AI 绘图技术在工作中的应用与分享,包括项目实践、技术调研、培训及未来教学计划等。
    • 介绍了课程规划,包括从零基础开始,逐步深入到环境部署、底层技术概念、提示词等内容,还介绍了 config 牛角尖大王系列。
    • 提到具备搭建复杂工作流能力,会拆解分析网上热门工作流,报错问题可分为网络、模型、工作流搭建、环境等方面,安装新插件时可参考项目地址的 requirement 文档,规划了实战案例思路。
  3. ComfyUI 自动生成抠图素材:
    • 学习使用 ComfyUI 的原因:更接近 SD 的底层工作原理,自动化工作流,作为强大的可视化后端工具可实现 SD 之外的功能,可根据定制需求开发节点或模块。
    • 作者制作工作流的动机是工作室经常需要抠图素材,传统途径要么花钱要么花时间且不能定制,近期在 github 上看到相关项目,基于此创建了工作流,可自动生成定制需求的抠图素材,几秒即可完成。随后将分享创建工作流的思路及详细步骤讲解。
Content generated by AI large model, please carefully verify (powered by aily)

References

问: 有没有comfy ui相关的学习资料?

是的,根据搜索结果,有几个网站提供了关于ComfyUI的学习教程:1.ComfyUI官方文档:提供了ComfyUI的使用手册和安装指南,适合初学者和有经验的用户。你可以在[ComfyUI官方文档网站](https://www.comfyuidoc.com/zh/)找到相关信息。2.优设网:提供了一篇详细的ComfyUI入门教程,这篇教程适合初学者,详细介绍了ComfyUI的特点、安装方法以及如何使用ComfyUI生成图像等内容。教程地址是[优设网的ComfyUI入门教程](https://www.uisdc.com/comfyui-3)。3.知乎:有用户分享了ComfyUI的部署教程和使用说明,这篇介绍适合那些已经有一定基础并希望进一步了解ComfyUI的用户。可以在[知乎的ComfyUI介绍](https://zhuanlan.zhihu.com/p/662041596)找到相关教程。4.Bilibili:提供了一系列的ComfyUI视频教程,涵盖了从新手入门到精通的各个阶段。这些视频教程可以帮助用户更直观地学习ComfyUI的使用。可以在[Bilibili的ComfyUI系列教程](https://www.bilibili.com/video/BV14r4y1d7r8/)找到视频教程。这些资源为用户提供了丰富的学习材料,从基础操作到高级技巧,可以帮助用户更好地掌握ComfyUI的使用。内容由AI大模型生成,请仔细甄别。

8月13日ComfyUI共学

[heading2]总结关于Config UI的学习交流与活动安排:讨论了Config UI的学习需求、教程分享、部署问题、应用场景,以及相关活动的规划。关于Config UI工作流的分享与探讨:讨论了Config UI工作流在不同场景的应用、优势、弊端以及学习方法,还提及了相关的分享会和开源社区的情况。关于CONFIUI的学习交流与报错问题解决:讨论了CONFIUI的使用、工作流分享、报错问题及解决方案,还有相关课程的设计安排。AI绘图技术在工作中的应用与分享:讨论了郭佑萌在AI绘图领域的工作经历,包括项目实践、技术调研、培训以及未来的教学计划等内容。关于AI绘图课程的介绍与规划邀请947座分享3D技术:考虑邀请947座来分享3D相关技术。课程目标是培养学员工作中独当一面的能力:希望通过一系列教学活动,让学员在工作上能够独立应对。插画提效成果显著:原本需要200人美术团队一年多完成的1万多张动画插画,最终不到10人用半年完成。课程从零基础开始:从认识config、UI及行业概念讲起,逐步深入到环境部署、底层技术概念、提示词等内容。介绍config牛角尖大王系列:包括control net、IP Adapter、图像放大、mask等部分,阐述了它们的作用和玩法。具备搭建复杂工作流能力:学习相关知识后初步具备搭建复杂工作流能力,会拆解分析网上热门工作流。解决config UI报错问题:报错问题可分为网络、模型、工作流搭建、环境等方面,安装新插件时可参考项目地址的requirement文档。规划实战案例思路:目前想到了三个实战案例的思路。

ComfyUI自动生成抠图素材

我为什么学习使用ComfyUI:更接近SD的底层工作原理,在更靠近一朵鲜花的地方,才能闻到它的芳香自动化工作流(我也用webui,虽然很好,但我觉得ComfyUI更符合AI的精神,即消灭重复性工作)作为一个强大的可视化后端工具,可以实现SD之外的功能,如调用api及本文所讲的内容等可根据定制需求开发节点或模块Hi,大家好,我是金属文。我制作这个工作流的动机是:我的工作室经常需要一些抠图素材,用做海报、推文、短视频等用途传统的搜集抠图素材途径无非是网站下载、付费购买、自己PS。要么花钱,要么花时间,还不能根据自己的需求定制素材近期在github上看到一个名为[ComfyI2I](https://github.com/ManglerFTW/ComfyI2I)的项目,其中包含了丰富的蒙版处理节点于是我基于[ComfyI2I](https://github.com/ManglerFTW/ComfyI2I)创建了这个ComfyUI工作流,不仅可以用作绿幕素材的抠图,还可以自动生成定制需求的抠图素材,全程只需要几秒,太香了!先来看下效果:下面我将分享创建整个工作流的思路以及详细步骤讲解话不多说,开始干货教程

Others are asking
ComfyUI_LayerStyle
ComfyUI_LayerStyle 相关内容如下: 加载模型部分: 下好工作流中的所需三张图片“SeasonYou_Reference、BG、MASK”以及上传自己所需的照片到 Input 部分。右上角放自己的人像图片(非人像会报错提示“no face detected”)。 对于 vae 加载器部分,选择 xl 版本(因为大模型用的 xl)的 vae 即可。 对于 ipadater 部分,倘若加载器部分报错说 model 不存在,将文中画圈部分修改调整到不报错。 Pulid 部分,除了下载好对应的节点以及参考官方网站最下面的安装对应要求外,还要注意对应安装一些内容,具体要求可查看云盘中命名为“pulid 插件模型位置.png”及对应的云盘链接:PulID 全套模型 链接:https://pan.baidu.com/s/1ami4FA4w9mjuAsPK49kMAw?pwd=y6hb 提取码:y6hb ,否则将会报错。 爆肝博主 ZHO 的更新记录: 3 月 7 日:ComfyUI 支持 Stable Cascade 的 Inpainting ControlNet,ComfyUI 作者在示例页面给出了说明和工作流:https://comfyanonymous.github.io/ComfyUI_examples/stable_cascade/ ,博主自己也整理了一版,分享在:https://github.com/ZHOZHOZHO/ComfyUIWorkflowsZHO ,说明第二个 inpainting+composite 是将原图帖回到重绘之后的效果,是非必要项,按需使用。 3 月 6 日:国内作者把 ps 很多功能都迁移到了 ComfyUI 里,项目是:https://github.com/chflame163/ComfyUI_LayerStyle 。最新版 ComfyUI 支持了一系列图像形态学处理,包括 erode 腐蚀(去除小噪点/分离相邻对象)、dilate 膨胀(填补小洞/连接临近对象)、open 开(先腐蚀后膨胀)、close 闭(先膨胀后腐蚀)、gradient 梯度(膨胀与腐蚀之差)、top_hat 顶帽(原图与开之差)、bottom_hat 底帽(原图与闭之差)。使用方法为:1)更新 ComfyUI;2)右键 image/postprocessing/ImageMorphology;3)接上图像输入和输出即可。
2025-01-15
在comfyUI中可以接入哪些api,又和3D相关的吗
在 ComfyUI 中可以接入以下与 3D 相关的 API: 1. @CSM_ai:可以将文本、图像或草图转换为 3D 素材,并直接应用于游戏中,无需后期处理。体验地址:https://cube.csm.ai ,https://x.com/xiaohuggg/status/1763758877999587757?s=20 2. Move AI 推出的 Move API:可以从 2D 视频生成 3D 运动数据,支持多种 3D 文件格式导出,为 AR 应用、游戏开发等提供高质量 3D 运动数据。链接:https://move.ai/api ,https://x.com/xiaohuggg/status/1761590288576061573?s=20 3. ComfyUI 3D Pack 引入 3D 图像处理:可以快速将图片转换为 3D 模型,支持多角度查看,使用 3D 高斯扩散技术提升模型质量,支持多种格式导出,集成先进 3D 处理算法。链接:https://github.com/MrForExample/ComfyUI3DPack/tree/main ,https://x.com/xiaohuggg/status/1755824687811346514?s=20 此外,ZHO 博主有关于 ComfyUI 的更新记录: 1. 4 月 18 日,ComfyUI Stable Diffusion 3 API 已更新为 V1.5 版,图生图和 SD3 Turbo 都可以正常使用,但 SD3 图生图模式不支持选择比例,SD3 Turbo 模型不支持负面提示词。使用方法是先申请 API,然后填入 config.json 文件即可(每账户 25 免费积分),SD3 每张图 6.5 积分(比较贵)。项目地址:https://github.com/ZHOZHOZHO/ComfyUIStableDiffusion3API ,SD3 API ComfyUI 节点测试成功。 2. 4 月 17 日,Stability AI 刚刚发布了 Stable Diffusion 3 和 Stable Diffusion 3 Turbo,现在已经可通过 Stability AI 开发者平台 API 使用,SAI 计划在不久的将来通过会员资格提供模型权重。详情:https://bit.ly/3W43FjY
2025-01-14
在comfyUI中可以接入哪些节点
在 ComfyUI 中可以接入以下类型的节点: 1. 输入节点: 文本提示节点:用于输入生成图像的文本描述。 图像输入节点:用于输入基础图像进行二次生成。 噪声节点:用于输入初始噪声图像。 2. 处理节点: 采样器节点:选择图像生成所使用的采样器。 调度器节点:选择图像生成所使用的调度器。 CFG Scale 节点:调整引导式采样的强度。 步数节点:设置图像生成的迭代步数。 3. 输出节点: 图像输出节点:显示生成的最终图像。 4. 辅助节点: 批处理节点:支持批量生成多个图像。 图像变换节点:提供图像旋转、翻转等功能。 图像融合节点:可以将多个图像合并成一个。 此外,还有一些特定的节点插件,如: 1. PuLID 节点插件: model:使用预训练的基础文本到图像扩散模型,如 Stable Diffusion。 pulid:加载的 PuLID 模型权重,定义 ID 信息如何插入基础模型。 eva_clip:用于从 ID 参考图像中编码面部特征的 EvaCLIP 模型。 face_analysis:使用 InsightFace 模型识别和裁剪 ID 参考图像中的面部。 image:提供的参考图像用于插入特定 ID。 method:选择 ID 插入方法,如“fidelity”(优先保真度)、“style”(保留生成风格)和“neutral”(平衡两者)。 weight:控制 ID 插入强度,范围为 0 到 5。 start_at 和 end_at:控制在去噪步骤的哪个阶段开始和停止应用 PuLID ID 插入。 attn_mask:此选项用于提供灰度掩码图像,以控制 ID 自定义的应用位置,但并不是必需输入,而是可选输入。 Advanced Node:提供了高级节点,可以通过调整 fidelity 滑块和 projection 选项进行更精细的生成调优。 2. 中文提示词输入相关节点: 安装完成后,在【新建节点】【Alek 节点】下,有【预览文本】、【绘画】、【姿态】、【clip 文本编码器】和【翻译文本】这五个节点。 【clip 文本编码器(翻译)】可代替自带的【clip 文本编码器】,直接输入中文。但引用负向 embedding 时,文件夹路径不能有中文。 【翻译文本】节点可代替【元节点】,在 sdxl 流程中,当需要将文本信息单独列出来时使用。 【预览文本】节点可连接到【翻译文本】检查翻译是否正确。 如果翻译失效,可双击“embedded_instail”进行安装,然后用记事本打开 BaiduTranslate.py,填入在百度翻译开发平台申请的 ID 和密码,即可正常翻译。
2025-01-14
可以把tripo的节点接入comfyui吗
要将 tripo 的节点接入 ComfyUI,您可以参考以下步骤: 1. 确保后面有一个空格。然后将 requirements_win.txt 文件拖到命令提示符中(如果您在 Windows 上;否则,选择另一个文件 requirements.txt)。拖动文件将在命令提示符中复制其路径。 2. 按 Enter 键,这将安装所有所需的依赖项,使其与 ComfyUI 兼容。请注意,如果为 Comfy 使用了虚拟环境,必须首先激活它。 3. 在使用自定义节点之前,有一些要注意的事项: 您的图像必须放在一个以命名的文件夹中。那个数字很重要:LoRA 脚本使用它来创建一些步骤(称为优化步骤…但别问我是什么^^’)。它应该很小,比如 5。然后,下划线是必须的。 对于 data_path,您必须写入包含数据库文件夹的文件夹路径。例如:C:\\database\\5_myimages ,您必须写 C:\\database 。 Python 在这里需要斜杠,但节点会自动将所有反斜杠转换为斜杠。文件夹名称中的空格也不是问题。 4. 参数方面: 在第一行,您可以从 checkpoint 文件夹中选择任何模型。然而,据说您必须选择一个基本模型进行 LoRA 训练。 您选择一个名字为您的 LoRA,如果默认值对您不好,就更改这些值(epochs 数应该接近 40),然后启动工作流程! 5. 一旦您点击 Queue Prompt,所有事情都会在命令提示符中发生。 6. 建议与字幕自定义节点和 WD14 标签一起使用。但请注意,在制作字幕时禁用 LoRA 训练节点。因为 Comfy 可能会在制作字幕之前启动训练。 7. 关于 Tensorboard:训练会在 log 文件夹中创建一个日志文件,该文件夹会在 Comfy 的根文件夹中创建。该日志可能是一个可以在 Tensorboard UI 中加载的文件。 ComfyUI 的核心是其节点式界面,节点类型包括输入节点(如文本提示节点、图像输入节点、噪声节点)、处理节点(如采样器节点、调度器节点、CFG Scale 节点、步数节点)、输出节点(如图像输出节点)、辅助节点(如批处理节点、图像变换节点、图像融合节点)。用户可以通过拖放和连接各种节点来创建自定义的图像生成工作流,还可以创建自定义节点来扩展功能,自定义节点安装目录为 D:\\ComfyUI\\custom_nodes 。ComfyUI 还提供了丰富的节点管理功能,包括保存/加载节点图、复制/粘贴节点、批量编辑等。
2025-01-14
ComfyUI 万物迁移工作流
ComfyUI BrushNet: 项目链接: 原项目:https://tencentarc.github.io/BrushNet/ 插件地址:https://github.com/kijai/ComfyUIBrushNetWrapper 模型下载:https://huggingface.co/Kijai/BrushNetfp16/tree/main 第一次运行会自动下载需要的模型,如果是用的 ComfyUIBrushNetWrapper 节点,模型将自动从此处下载:https://huggingface.co/Kijai/BrushNetfp16/tree/main 到 ComfyUI/models/brushnet,因环境问题,也可手动下载放在这个文件夹里。另外,BrushNet 提供了三个模型,个人测试下来,random 这个效果比较好。 工作流:配合 mj 出底图,在底图不变的基础上,添加文字或者图片内容。另外可以使用 GDinoSAm(GroundingDino+Sam),检测和分割底图上的内容,做针对性的修改。 4SeasonYou 工作流副本: 一、加载模型部分(总文件有) 官网下载两个文件。 先点击如图中的左上角部分将加载器展开且选择官网下载好的两个模型,否则将会有以下的问题。 GDino 加载器部分:在链接:处下载以下文件。 然后再次检查自己的文件有没有齐全:在 models 下创建 groundingdino 且配置以下文件命名齐全。同理,sams 也是。对于 groundingdino 和 sams 配置有没有齐全可以使用“抠头发.json”来检验。 然后,接下来很大概率在运行到此节点时会报科学上网的(httpsxxxxx)错误。倘若觉得在此工作流中排除 bug 很慢,不妨使用此网址的工作流(可以直接复制他的 json 内容自己创建一个 txt 文件后粘贴,再改后缀名为 json。)进行操作:。那么就要在尝试稳定的科学上网后重启 UI 跑工作流。
2025-01-14
comfyUI 工作流
ComfyUI 工作流主要包括以下内容: 低显存运行工作流:目的是让 FLUX 模型能在较低显存情况下运行。分阶段处理思路为,先在较低分辨率下使用 Flux 模型进行初始生成,然后采用两阶段处理,即先用 Flux 生成,后用 SDXL 放大,有效控制显存使用,最后使用 SD 放大提升图片质量。工作流流程包括初始图像生成(Flux),涉及 UNETLoader 加载 flux1dev.sft 模型、DualCLIPLoader 加载 t5xxl 和 clip_l 模型、VAELoader 加载 fluxae.sft 等步骤,以及图像放大和细化(SDXL),包括加载 SDXL 模型、放大模型等步骤。 工作流网站: “老牌”workflow 网站 Openart.ai,流量较高,支持上传、下载、在线生成,免费账户有 50 个积分,加入 Discord 可再加 100 积分,开通最低每月 6 美元套餐后每月有 5000 积分,网址为 https://openart.ai/workflows/ 。 ComfyWorkflows 网站,支持在线运行工作流,从实际下载量和访问量来看略少于 openart,网址为 https://comfyworkflows.com/cloud 。 Flowt.ai,网址为 https://flowt.ai/community 。 相关介绍: RPA 很早就出现在工作流编排领域,目标是使符合某些适用性标准的基于桌面的业务流程和工作流程实现自动化。 ComfyUI 将开源绘画模型 Stable Diffusion 进行工作流化操作,提高了流程的可复用性,降低了时间成本,其 DSL 配置文件支持导出导入。 Dify.AI 的工作流设计语言与 ComfyUI 有相似之处,都定义了一套标准化的 DSL 语言,方便导入导出进行工作流复用。 Large Action Model 采用“通过演示进行模仿”的技术,从用户提供的示例中学习。但 Agentic Workflow 存在使用用户较少、在复杂流程开发上不够稳定可靠等问题,同时提出通过自然语言创建工作流的想法。
2025-01-13
comfui 出现SUPIR_Upscale怎么办
当 ComfyUi 出现 SUPIR_Upscale 时,以下是相关信息: 通过使用神经网络对潜在空间进行放大,无需使用 VAE 进行解码和编码。此方法比传统的 VAE 解码和编码快很多,并且质量损失很小。插件项目地址:https://github.com/Ttl/ComfyUi_NNLatentUpscale?tab=readmeovfile 。潜在表示是神经网络处理图像时生成的压缩版本,包含图像主要特征信息,处理潜在表示更快且资源消耗更少。 具体流程包括:生成潜在表示(生成低分辨率图像)、放大潜在表示、生成高分辨率图像(将放大的潜在图像反馈到稳定扩散 UNet 中进行低噪声扩散处理从而修复成高分辨率图像)。此节点用于一种工作流程,初始图像以较低分辨率生成,潜在图像被放大,然后将放大的潜在图像反馈到稳定扩散 unet 中进行低噪声扩散处理(高分辨率修复)。 UNet 是一种特别的神经网络结构,常用于图像处理,尤其是图像分割。其工作方式包括编码部分(逐步缩小图像提取重要特征)、解码部分(逐步放大图像把提取的特征重新组合成高分辨率的图像)、跳跃连接(在缩小和放大过程中保留细节信息使最终生成的图像更清晰),这种结构能在放大图像时保持细节和准确性。 ComfyUI 老照片修复 Flux Controlnet Upscale 中,关于 flux unet 的 weight_dtype: Flux 模型主要用于图像处理,特别是上采样。这类任务通常需要较高精度来保留图像细节。 fp8 格式包括 fp8_e4m3fn(4 位指数,3 位尾数,通常提供更好的精度)和 fp8_e5m2(5 位指数,2 位尾数,提供更大的数值范围但精度较低)。 图像处理通常更依赖于精确的小数值表示,现代 GPU 通常对 fp8_e4m3fn 格式有更好的优化支持。在没有特殊需求的情况下,图像处理模型通常倾向于选择提供更高精度的格式,对于 Flux 模型,特别是在进行图像上采样任务时,fp8_e4m3fn 可能是更好的选择,因为更高的精度有利于保留图像细节和纹理,图像处理通常不需要特别大的数值范围,fp8_e4m3fn 的精度优势更为重要,这种格式在现代 GPU 上可能有更好的性能表现。
2025-01-21
comfui SUPIR_Upscale怎么办
ComfyUi 的 SUPIR_Upscale 是一种通过神经网络对潜在空间进行放大的技术。以下是相关详细信息: 原理:通过使用神经网络对潜在空间进行放大,无需使用 VAE 进行解码和编码。此方法比传统的 VAE 解码和编码快很多,并且质量损失很小。 流程: 生成潜在表示:图像被模型压缩成潜在表示,生成一个低分辨率的图像。 放大潜在表示:利用神经网络对潜在表示进行放大。 生成高分辨率图像:将放大的潜在图像反馈到稳定扩散 UNet 中,进行低噪声扩散处理,从而修复成高分辨率图像。 相关节点:此节点旨在用于一种工作流程中,其中初始图像以较低分辨率生成,潜在图像被放大,然后将放大的潜在图像反馈到稳定扩散 unet 中进行低噪声扩散处理(高分辨率修复)。 UNet 结构:UNet 是一种特别的神经网络结构,通常用于图像处理,尤其是图像分割。其工作方式包括编码部分逐步缩小图像提取重要特征,解码部分逐步放大图像并重新组合特征,以及通过跳跃连接在缩小和放大过程中保留细节信息,使最终生成的图像更清晰。 ComfyUI 老照片修复 Flux Controlnet Upscale 方面: 以前有高清放大的工作流,被用于淘宝老照片修复。现在新模型结合工作流,只需十几个基础节点就能实现更好效果。 参数调节:一般先确认放大倍数,再根据图片调整 controlNet 强度。 ControlnetUpscaler 放大模型:Flux.1dev ControlNet 是 Jasper 研究团队为低分辨率图像开发的模型,可直接与 diffusers 库一起使用,通过特定代码加载管道,加载控制图像并进行图像处理。其训练方式采用合成复杂数据退化方案,结合图像噪声、模糊和 JPEG 压缩等多种方式对真实图像进行人工退化。 Flux Ultimator 细节增强:能增加小细节,让图像尽可能逼真,放大色调的丰富性和深度,在 0.1 的强度设置下也能有显著增强效果,能顺利集成到工作流程中,与其他 LORA 结合使用效果好,结合时需将强度降低小于 0.5。 T5 Clip:若图片质量细节不够,选择 fp16 的版本。 图像的传递:controlNet 这里传递的应该是上传的原始图片,因为这个是 controlNet 而不是潜空间图像。 关于 flux unet 的 weight_dtype: Flux 模型主要用于图像处理,特别是上采样(upscaling),这类任务通常需要较高的精度来保留图像细节。 fp8 格式包括 fp8_e4m3fn(4 位指数,3 位尾数,通常提供更好的精度)和 fp8_e5m2(5 位指数,2 位尾数,提供更大的数值范围但精度较低)。 图像处理通常更依赖于精确的小数值表示,而不是极大或极小数值的表示能力,现代 GPU 通常对 fp8_e4m3fn 格式有更好的优化支持。 在没有特殊需求的情况下,对于 Flux 模型进行图像上采样任务时,fp8_e4m3fn 可能是更好的选择,因为其更高的精度有利于保留图像细节和纹理,且图像处理通常不需要特别大的数值范围,这种格式在现代 GPU 上可能有更好的性能表现。 插件项目地址:https://github.com/Ttl/ComfyUi_NNLatentUpscale?tab=readmeovfile 潜在表示(latent representation)是神经网络处理图像时生成的压缩版本,它包含了图像的主要特征信息。相比于直接处理高分辨率图像,处理潜在表示更快且资源消耗更少。
2025-01-21
能生成页面 UI 设计图的 AI 工具
以下是一些能生成页面 UI 设计图的 AI 工具: 1. Midjourney:如果想指定生成某个页面(如首页、登录页等),只需添加页面指令描述,如“landing page”“Profile Page”等。通过一系列操作,其产出的设计图视觉效果不错,适合在 APP 设计的初始阶段,如头脑风暴和风格探索中为设计师提供灵感和创意。但目前直接用于落地开发仍有距离。在 Midjourney 中生成 UI 设计图没有固定的 Prompt,可先使用指令模板“ui design forapplication,mobile app,iPhone,iOS,Apple Design Award,screenshot,single screen,high resolution,dribbble”,将“类型”替换为产品的关键词描述(英文)。 2. 即时设计:https://js.design/ 这是一款可在线使用的“专业 UI 设计工具”,为设计师提供更加本土化的功能和服务,更注重云端文件管理、团队协作,并将设计工具与更多平台整合,一站搞定全流程工作。 3. V0.dev:https://v0.dev/ Vercel Labs 推出的 AI 生成式用户界面系统,能通过文本或图像生成代码化的用户界面,基于 Shadcn UI 和 Tailwind CSS 生成复制粘贴友好的 React 代码。 4. Wix:https://wix.com/ 这是一款用户友好的 AI 工具,无需编码知识即可轻松创建和自定义网站,提供广泛的模板和设计选择,以及移动优化和集成电子商务等功能,能帮助不同领域用户创建各种网站。 5. Dora:https://www.dora.run/ 使用 Dora AI,可以通过一个 prompt,借助 AI 3D 动画生成强大网站,支持文字转网站、生成式 3D 互动、高级 AI 动画。 请注意,以上内容由 AI 大模型生成,请仔细甄别。
2025-01-21
我可以用哪些工具让AI生成好看的移动端UI界面设计?
以下是一些可以让 AI 生成好看的移动端 UI 界面设计的工具及相关方法: 1. Midjourney: 是目前较容易上手的工具,适合新手入门。 对于 UI/UX 设计师,能加快设计流程,在主体、配色、风格等方向探索 AI 在设计中的应用。 生成 UI 设计图的指令:如果没想好要输入哪些指令,可以先用指令模板「ui design forapplication,mobile app,iPhone,iOS,Apple Design Award,screenshot,single screen,high resolution,dribbble」,把里面的“类型”替换成您想设计的产品的关键词描述(英文),就能生成想要的 UI 设计图。例如,出行类关键词可以是“距离、车费、费用结算、优惠金额、地图”等;餐饮类关键词可以是“介绍咖啡的特色、口味、咖啡豆产地、价格”等;运动类关键词可以是“卡路里、步数、距离、某种运动”等描述。 如果想指定生成某个页面(首页、登录页等),只需要再加一段页面指令描述,例如「landing page、Profile Page」。 产出的设计图视觉效果不错,更适合在 APP 设计的初始阶段,如头脑风暴和风格探索等过程中,为设计师提供更多灵感和创意。 2. Coze: 可以直接使用 Coze 的 API 对接前端 UI 框架,将工作流逻辑集中在工程模板端,实现前后端分离的处理方式。 也可以直接调用大模型 API,并通过前端代码实现提示词处理和逻辑控制,将交互流程完全放入前端代码中。 实现文件上传可通过 Coze 的。 搭建 Demo 最简单的方式是首先绘制草图,然后借助多模态 AI 工具(如 GPT/Claude)生成初步的前端结构代码。前端开发语言包括用于构建网页基础框架、定义整体页面结构的 HTML;负责网页布局样式美化、使页面视觉效果更优美的 CSS;实现交互逻辑,如信息处理、网络请求及动态交互功能的 JavaScript。
2025-01-21
设计软件UI 用什么AI合适 ?
以下是一些适用于设计软件 UI 的 AI 工具: 1. Lucidchart:流行的在线绘图工具,支持多种图表创建,包括软件 UI 设计所需的视图,用户可通过拖放轻松创建架构图。 2. Visual Paradigm:全面的 UML 工具,提供创建各种架构视图的功能,适用于软件 UI 设计。 3. ArchiMate:开源建模语言,与 Archi 工具配合可创建逻辑视图等,用于软件 UI 设计。 4. Enterprise Architect:强大的建模、设计和生成代码工具,支持多种架构视图的创建,可应用于软件 UI 设计。 5. Microsoft Visio:广泛使用的图表和矢量图形应用程序,提供丰富模板用于创建软件 UI 相关视图。 6. draw.io(现在称为 diagrams.net):免费的在线图表软件,允许创建包括软件 UI 设计所需的各种类型图表。 7. PlantUML:文本到 UML 的转换工具,通过编写描述性文本自动生成相关视图,辅助软件 UI 设计。 8. Gliffy:基于云的绘图工具,提供创建软件 UI 相关架构图的功能。 9. Archi:免费开源工具,用于创建相关模型,支持软件 UI 设计中的逻辑视图创建。 10. Rational Rose:IBM 的 UML 工具,支持创建多种视图,包括软件 UI 设计所需的视图。 此外,Midjourney 也可在软件 UI 设计中作为风格参考,但目前生成的 UI 设计可能不够规范,仅能提供一定的创意启发。网上已有很多 AI 生成的 UI 设计软件开始内测,您可持续关注获取更多相关信息。
2025-01-19
现在页面UI生成有好用的AI辅助思路么
以下是关于页面 UI 生成的一些好用的 AI 辅助思路: 1. 使用 Midjourney 生成 UI 界面:如果想指定生成某个页面(如首页、登录页等),只需添加一段页面指令描述,例如“landing page”“Profile Page”等。通过一系列操作,会发现 Midjourney 产出的设计图视觉效果不错,适合在 APP 设计的初始阶段,如头脑风暴和风格探索中为设计师提供灵感和创意。但目前要直接用于开发仍有距离。 2. 推荐的网页原型图生成工具: 即时设计:https://js.design/ ,是可在线使用的“专业 UI 设计工具”,更注重云端文件管理、团队协作等。 V0.dev:https://v0.dev/ ,Vercel Labs 推出的 AI 生成式用户界面系统,能通过文本或图像生成代码化的用户界面。 Wix:https://wix.com/ ,用户友好的 AI 工具,无需编码知识即可创建和自定义网站,提供多种模板和设计选择。 Dora:https://www.dora.run/ ,使用 Dora AI 可通过一个 prompt 借助 AI 3D 动画生成强大网站。 3. 案例教程:在开发游戏时,让 AI 生成羊、狼、锤子、栅栏、胜利图片、失败图片等元素,其中部分元素生成较顺利,部分需多次尝试。生成的 HTML 代码简洁,CSS 结构不错但部分定位模式需调整。个人感觉 AI 生成的东西不能完全信任,仍需人工调整,学习和请教专家也是必要的。
2025-01-18
小白学习AI
对于小白学习 AI,以下是一些建议: 1. 了解 AI 基本概念: 阅读「」部分,熟悉 AI 的术语和基础概念,包括人工智能的主要分支(如机器学习、深度学习、自然语言处理等)以及它们之间的联系。 浏览入门文章,了解 AI 的历史、当前的应用和未来的发展趋势。 2. 开始 AI 学习之旅: 在「」中,找到为初学者设计的课程,特别推荐李宏毅老师的课程。 通过在线教育平台(如 Coursera、edX、Udacity)上的课程,按照自己的节奏学习,并有机会获得证书。 3. 选择感兴趣的模块深入学习: AI 领域广泛,比如图像、音乐、视频等,可根据自己的兴趣选择特定的模块进行深入学习。 掌握提示词的技巧,它上手容易且很有用。 4. 实践和尝试: 理论学习之后,实践是巩固知识的关键,尝试使用各种产品做出作品。 在知识库提供了很多大家实践后的作品、文章分享,欢迎实践后的分享。 5. 体验 AI 产品: 与现有的 AI 产品进行互动,如 ChatGPT、Kimi Chat、智谱、文心一言等 AI 聊天机器人,了解它们的工作原理和交互方式。 此外,还可以参考《雪梅 May 的 AI 学习日记》,其适合纯 AI 小白,学习模式是输入→模仿→自发创造。学习内容可在 waytoAGI 社区发现自己感兴趣的 AI 领域,学习最新的内容。该日记中的学习资源都是免费开源的。 在理解技术原理与建立框架方面,可通过以下通俗易懂的内容: 1. 视频一主要回答了什么是 AI 大模型,原理是什么。 生成式 AI 生成的内容,叫做 AIGC。 相关技术名词: AI 即人工智能。 机器学习包括监督学习、无监督学习、强化学习。监督学习是有标签的训练数据,无监督学习是学习的数据没有标签,强化学习是从反馈里学习,最大化奖励或最小化损失。 深度学习参照人脑有神经网络和神经元。 生成式 AI 可以生成文本、图片、音频、视频等内容形式。 LLM 即大语言模型。 技术里程碑:2017 年 6 月,谷歌团队发表论文《Attention is All You Need》,首次提出了 Transformer 模型。
2025-01-23
我想学习智能体搭建
以下是关于智能体搭建的相关知识: 智谱 BigModel 共学营第二期:把你的微信变成超级 AI 助理 1. 注册智谱 Tokens 智谱 AI 开放平台:https://bigmodel.cn/ 新注册用户,注册即送 2000 万 Tokens 充值/购买多种模型的低价福利资源包 直接充值现金,所有模型可适用:https://open.bigmodel.cn/finance/pay 语言资源包:免费 GLM4Flash 语言模型/ 多模态资源包: 多模态资源包: 所有资源包购买地址:https://bigmodel.cn/finance/resourcepack 共学营报名赠送资源包 2. 先去【财务台】左侧的【资源包管理】看看自己的资源包,本次项目会使用到的有 GLM4、GLM4VPlus、CogVideoX、CogView3Plus 模型。 3. 进入智能体中心我的智能体,开始创建智能体。此流程会手把手进行编辑,完成一个简单智能体的搭建,此智能体完成以下功能: 小众打卡地——优秀创作者奖 1. 智能体基本信息 名称:小众打卡地 链接:https://tbox.alipay.com/pro/share/202412APCyNn00194489?platform=WebService 2. 基本功能介绍:小众打卡地推荐,输入一个旅游目的地地点城市,给您推荐 3 个小众打卡地小红书类文案,适合分享或旅游参考,还有精美的旅行地配图。 3. 智能体核心价值 为用户发掘非大众化的特色景点,避开人流 提供个性化的旅行建议,并且有目的地的图片参考 帮助用户快速获取高质量的旅行参考信息 提供小红书文案,也适合发小红书 4. 智能体效果 输入一个目的地后,等待一小段时间,即可获得带图文案。从手机支付宝小程序更加方便,可以一键复制后获取。 5. 智能体搭建思路重点 录入了小红书的相关文案参考知识库 通过文本模型组成搜索词进行搜索,从搜索到的所有网页链接中,通过代码节点提取相关的 url 用代码节点滤除需要安全认证的网站,包括挑选一些非周边城市攻略推荐,并且尽量检查“小众”或“冷门” 通过 url 网页正文后,提取相关的小众地点输出,同时通过代码进行打卡点的字符串输出用于后续节点运用 根据需要搜索的小众旅行地进行图片搜索。此处代码节点随机提取一条图片的 url,注意此处在调试过程中发现有些图片搜索后的 url 打卡图片会失效,代码节点将部分失效的网站进行了过滤 最后的文案输出,非常适合小红书文案和旅行发布参考 智能体在品牌卖点提炼中的应用 1. 确定智能体的结构 按照市场营销的逻辑组织智能体的结构。 2. 搭建完整智能体 以品牌卖点提炼六步法为核心的流程,将其他的分析助手加入工作流中,包括: 品牌卖点定义与分类助手 品牌卖点提炼六步法 STP 市场分析助手 用户画像分析助手 触点收集助手 同时还包括一些结构中没有体现,但是在后续的品牌卖点应用过程中有效的分析工具: 用户需求分析的 KANO 助手 营销六层转化漏斗分析 超级转化率六要素
2025-01-22
如何系统地学习AI
以下是系统学习 AI 的方法: 1. 编程语言基础:从 Python、JavaScript 等编程语言开始学习,掌握编程语法、数据结构、算法等基础知识,为后续的 AI 学习奠定基础。 2. 尝试使用工具和平台:可以使用 ChatGPT、Midjourney 等 AI 生成工具,体验 AI 的应用场景。探索面向中学生的 AI 教育平台,如百度的“文心智能体平台”、Coze 智能体平台等。 3. 学习基础知识: 了解 AI 的基本概念、发展历程、主要技术(如机器学习、深度学习、自然语言处理等)以及它们之间的联系。 阅读入门文章,了解 AI 的历史、当前的应用和未来的发展趋势。 4. 参与实践项目:参加学校或社区组织的 AI 编程竞赛、创意设计大赛等活动,尝试利用 AI 技术解决生活中的实际问题,培养动手能力。 5. 关注前沿动态:关注 AI 领域的权威媒体和学者,了解 AI 技术的最新进展,思考 AI 技术对未来社会的影响,培养对 AI 的思考和判断能力。 6. 选择感兴趣的模块深入学习:AI 领域广泛,如图像、音乐、视频等,可根据兴趣选择特定模块深入学习,掌握提示词技巧。 7. 开始学习之旅: 阅读「」部分,熟悉 AI 的术语和基础概念。 在「」中找到为初学者设计的课程,特别推荐李宏毅老师的课程。通过在线教育平台(如 Coursera、edX、Udacity)上的课程按照自己的节奏学习,并有机会获得证书。 8. 实践和尝试:理论学习后进行实践,巩固知识,尝试使用各种产品做出作品。在知识库分享实践后的成果。 9. 体验 AI 产品:与 ChatGPT、Kimi Chat、智谱、文心一言等 AI 聊天机器人互动,了解其工作原理和交互方式,获得对 AI 实际应用的第一手体验。 10. 加入学习社区:如,按照新手指引入门,避免走弯路。
2025-01-22
系统学习并最终应用ai辅助工作
以下是关于系统学习并最终应用 AI 辅助工作的相关内容: 在医疗保健领域,鉴于人工智能依赖的神经网络基础,专家 AI 可能通过元学习更快地获得知识,并可能成为下一代专家的教师。我们可以通过构建系统深入探索其内部工作机制,创造学习的飞轮。 企业级 AI 应用开发知识点: 智能体应用(Assistant):基于上下文对话,自主决策并调用工具完成复杂任务的对话式 AI 应用。可用于客户服务、个人助理、技术支持等场景。 工作流应用(Workflow):将复杂任务拆解为若干子任务,以提高工作流程可控性的流程式 AI 应用。例如 AI 翻译。 智能体编排应用:支持多智能体协作的流程式 AI 应用,可编排多个智能体的执行逻辑。如综合调研报告、软件开发团队的组建。 教师使用 AI 的小技巧: 可控地引导学生,将部分课程、任务用 AI 辅助,同时限制部分课程的 AI 使用以培养独立思考和解决问题的能力。 人工智能用于集思广益和构建想法,但最终的工作必须由人类创作,对于想法发展和外语课程很有用。相关活动包括协作集思广益、创建结构化大纲、研究协助。 学生使用生成式人工智能来完善和编辑他们的作品,有利于语言改进和多模式内容。相关活动包括纠正语法/拼写、建议同义词、结构编辑、可视化编辑。 完全使用 AI,在整个任务中使用 AI,具体由学生或教师自行决定。适合那些生成式 AI 对学习结果非常关键的任务。相关活动包括共同创作、探索生成式 AI、实时反馈以及创建生成式 AI 产品。
2025-01-21
怎样学习AI制作短视频
以下是学习 AI 制作短视频的相关内容: 1. 制作步骤: 剧本创作:可以从原创(如自身或周围人的经历、做过的梦、想象的故事等)和改编(如经典 IP、名著、新闻、二创等)两个路径获取灵感。 分镜脚本创作 角色设计:需保持角色的一致性,并增加个性化特性。 分镜图片制作:生成一张合适的图片就直接开始进行对应动画镜头的生成。 动画制作:主要使用了 pixverse、pika、runway 三种视频生成工具。 配音和配乐 2. 注意事项: 编剧方面,虽然有剧作理论和模板,但不能死板套用,应多实践、总结经验,从简单的短片创作入手,可从自身或朋友经历改编,或对短篇故事进行改编,多与他人讨论故事。 不论使用镜头拍摄还是 AI 工具生成,都脱离不了影视制作的基础逻辑。 短片以短故事片为主,后续会讨论广告片等类型。 相关原文链接:
2025-01-21
学习辅导AI
以下是关于学习辅导 AI 的相关内容: 使用 AI 辅助学习: 可以要求人工智能解释概念,能获得很好的结果。例如,有很好的自动导师提示,可在特定链接找到直接激活 ChatGPT 中导师的方式。但因人工智能可能产生幻觉,关键数据要依据其他来源仔细检查。 新手学习 AI 的方法: 了解 AI 基本概念:阅读「」熟悉术语和基础概念,包括人工智能的定义、主要分支及联系,浏览入门文章了解其历史、应用和发展趋势。 开始学习之旅:在「」中找到为初学者设计的课程,如李宏毅老师的课程,也可通过在线教育平台按自己节奏学习并获取证书。 选择感兴趣模块深入学习:AI 领域广泛,可根据兴趣选择特定模块,如图像、音乐、视频等,掌握提示词技巧,上手容易且有用。 实践和尝试:理论学习后实践是关键,尝试使用各种产品做出作品,知识库有很多实践后的作品和文章分享,欢迎分享自己的实践成果。 体验 AI 产品:与 ChatGPT、Kimi Chat、智谱、文心一言等 AI 聊天机器人互动,了解工作原理和交互方式,获得实际应用中的第一手体验,激发对 AI 潜力的认识。 鉴于人工智能依赖的神经网络基础,专家 AI 可能通过元学习更快获取知识并带动人类进步。其性质让我们能拆解研究,构建系统深入探索内部工作机制,创造学习飞轮,未来可能成为下一代专家的教师。
2025-01-21
有AI工具可以帮我把视频里的文字内容提取吗
以下是一些可以帮助您提取视频里文字内容的 AI 工具和方法: 1. 对于 B 站视频,如果视频有字幕,您可以安装油猴脚本。安装之后,刷新浏览器,点击字幕,会出现“下载”按钮,您可以选择多种字幕格式,然后将下载的字文字内容全选复制发送给 GPTs 进行总结。 2. 如果您想用 AI 把小说做成视频,大致流程如下: 小说内容分析:使用 AI 工具(如 ChatGPT)分析小说内容,提取关键场景、角色和情节。 生成角色与场景描述:根据小说内容,使用工具(如 Stable Diffusion 或 Midjourney)生成角色和场景的视觉描述。 图像生成:使用 AI 图像生成工具根据描述创建角色和场景的图像。 视频脚本制作:将提取的关键点和生成的图像组合成视频脚本。 音频制作:利用 AI 配音工具(如 Adobe Firefly)将小说文本转换为语音,添加背景音乐和音效。 视频编辑与合成:使用视频编辑软件(如 Clipfly 或 VEED.IO)将图像、音频和文字合成为视频。 后期处理:对生成的视频进行剪辑、添加特效和转场,以提高视频质量。 审阅与调整:观看生成的视频,根据需要进行调整,比如重新编辑某些场景或调整音频。 输出与分享:完成所有编辑后,输出最终视频,并在所需平台上分享。 请注意,具体的操作步骤和所需工具可能会根据项目的具体需求和个人偏好有所不同。此外,AI 工具的可用性和功能也可能会随时间而变化,建议直接访问上述提供的工具网址获取最新信息和使用指南。
2025-01-22
概括论文主要内容
以下是对这三篇论文的主要内容概括: 《20240301:1bit LLMs》 作者:Shuming Ma 等 核心观点:提出新的 1bit LLM 变体 BitNet b1.58,在保持与全精度 Transformer LLM 相同性能的同时,显著降低延迟、内存、吞吐量和能源消耗。 亮点:定义新的训练高性能且成本效益的 LLM 的缩放法则和方法,开启为 1bit LLMs 设计特定硬件的新计算范式。 核心贡献:在 3B 模型大小时,与 FP16 LLM 基线在困惑度和端任务性能方面匹配,同时在内存、延迟和能源消耗方面有显著提升。 动机:解决随着 LLMs 规模和能力快速增长带来的部署挑战和环境经济影响。 《20240227:ScreenAI》 作者:Gilles Baechler 等 核心观点:介绍专门用于理解和处理用户界面和信息图表的视图语言模型 ScreenAI。 亮点:通过结合 PaLI 架构和 pix2struct 的灵活拼贴策略,以及在独特的数据集混合上进行训练,实现了在 UI 和信息图表理解任务上的新最佳性能。 核心贡献:在只有 50 亿参数的情况下,在多个基于 UI 和信息图表的任务上取得新的最佳性能,在其他任务上也表现出色。 动机:解决 UI 和信息图表的复杂性,应对其对单一模型理解、推理和交互提出的挑战。 《20240305:Claude 3》 作者:Anthropic 核心观点:介绍 Anthropic 开发的 Claude 3 模型家族,包括 Opus、Sonnet 和 Haiku,在多模态输入、推理、数学和编码方面表现出色,并分析了安全性和社会影响。 亮点:在多个基准测试中取得最先进的结果,非英语语言流畅度提高,适合全球受众;Claude 3 Opus 在推理、数学和编码方面设定新标准,Haiku 是最快速且成本最低的模型,具备视觉能力。 核心贡献:通过多模态输入能力和工具使用提供丰富上下文和扩展用例。 动机:致力于开发安全、负责任的 AI 系统,支持企业自动化任务、生成收入、进行复杂的财务预测和加速研发。
2025-01-19
如何准确调用知识库的内容?
要准确调用知识库的内容,可以从以下方面进行: 维护知识库内容: 为提升召回准确率,可删除、新增或修改知识库内容。 在知识库页面,能看到已创建的知识库及每个知识库内的单元数量和创建时间等信息。单击知识库或编辑图标,可进入知识库详情页面。在详情页可进行新增内容、删除内容、更新单元内的分段、开启引用等操作。若不开启引用,即便 Bot 中使用了所属的知识库,该单元内容也不会被召回。 使用知识库: 可以将知识库直接与 Bot 进行关联用于响应用户回复,也可以在工作流中添加知识库节点。 在 Bot 内使用知识库: 1. 登录。 2. 在左侧导航栏的工作区区域,选择进入指定团队。 3. 在 Bots 页面,选择指定 Bot 并进入 Bot 详情页。 4. 在 Bot 编排页面的知识库区域,单击加号图标,添加指定的知识库。 5. (可选)添加知识库后,可在自动调用下拉界面内,调整知识库的配置项,如最大召回数量、最小匹配度、调用方式等。在预览与调试区域调试 Bot 能力时,扩展运行完毕的内容可以查看知识库命中并召回的分片内容。 在工作流内使用 Knowledge 节点: 1. 登录。 2. 在左侧导航栏的工作区区域,选择进入指定团队。 3. 在页面顶部进入工作流页面,并打开指定的工作流。 4. 在左侧基础节点列表内,选择添加 Knowledge 节点。 关于让 AI+知识库回答更准确的示例: 以问答机器人为例,其配置包括 AI 模型、提示词、知识库。大语言模型如同拥有无穷智慧的人,提示词是设定其角色和专注技能,知识库则是工作手册。例如设定 AI 模型为阿里千问模型,提示词角色为“美嘉”,知识库为《爱情公寓》全季剧情,让“美嘉”拥有相关“记忆”。
2025-01-18
有哪些关于AI编程的cursor的内容,比较好的教程和使用经验之类的
以下是一些关于 AI 编程 Cursor 的内容、教程和使用经验: 1. 熊猫 Jay 的教程: 原文地址:https://mp.weixin.qq.com/s/KZt53OxCtlwuTKhplzGCg 涵盖了 Cursor 和其他编程工具的区别、Cursor 入门(安装和使用)、Cursor 初阶案例(开发谷歌插件)、Cursor 进阶案例(开发卡密系统)以及很多加餐项。 2. Cursor 官方介绍: 强调 Cursor 是使用 AI 进行编码的最佳方式,旨在让您极其高效。 包括读懂数据库、使用 tab 来编辑等功能。 3. 三个人和一场黑客松的经历: 作者认为 Cursor 改变了普通人与编程的关系,让不具备代码能力的人可以通过自然语言描述快速开发一些项目。 提到了一些用 AI 做的项目,如各类视频站的整合下载工具、根据 BGM 节奏合成高频卡点视频的 Python 脚本、提取图片颜色生成色板的 Chrome 插件等。 如果您想进一步了解具体内容,可以访问上述提到的链接。
2025-01-17
想用coze做一个可以提取上传pdf文档相关内容的智能体,请给我思路
以下是使用 Coze 做一个可以提取上传 PDF 文档相关内容的智能体的思路: 前期准备: 1. 简化“收集”: 实现跨平台收集功能,支持电脑(web 端)、安卓、iOS 多端操作。 考虑到待阅读内容通常都有网页链接,最理想的方式是只需输入一个 URL 就能完成收集。借鉴微信文件传输助手的直观操作方式,通过聊天窗口完成收集输入会更符合用户习惯。 2. 自动化“整理入库”: 为便于存储和回顾已收集的阅读清单,系统应在入库时自动整理每条内容的关键信息,包括标题、摘要、作者、发布平台、发布日期、收集时间和阅读状态。 同时,这份阅读清单最好也能支持跨平台查看,提高可访问性。 3. 智能“选择”推荐: 根据当前收藏记录,结合用户的阅读兴趣,进行相关性匹配,并生成最合适的阅读计划。 逐步搭建 AI 智能体: 1. 搭建整理入库工作流: 新建工作流「url2table」,根据弹窗要求自定义工作流信息。 工作流全局流程设置: 开始节点:输入 url,由于希望收到用户输入的待收藏 url 就开始流程,所以不需要额外配置(至于如何判断哪些用户输入是需要收藏的 url,则交由外层 bot 的大模型判断)。 变量节点:引入 bot 变量中保存的飞书多维表格地址,为了便于维护充当稍后读存储地址的飞书多维表格链接,我们需要将这个链接存储在 bot 的变量中,并在工作流运行时进行引用。 插件节点:获取页面内容,这一步直接把开始节点的{{BOT_USER_INPUT}},引入到参数{{url}}中;随便设置{{timeout}}为 60000。 通过飞书机器人与 Coze 搭建的智能体进行对话,在聊天窗口中完成链接输入和阅读计划输出,由 Coze 调用大模型、插件,完成内容的整理、推荐,利用飞书多维表格存储和管理稍后读数据。这样一来,理论上无需开发任何插件、APP,也能实现跨平台的稍后读收集与智能阅读计划的推荐。
2025-01-17
可以改变视频人物说话内容 的模型
以下是一些可以改变视频人物说话内容的模型及相关信息: 解梦新出的 p 模型支持人物多动作和变焦,易改变画风;s 模型生成速度快、积分消耗少,能保持原始画风但语义理解有限。 吉梦的对口型技术支持文本朗诵和本地配音,能根据输入生成人物开口讲话的视频,但有上传人物长相等限制。 Runway 的 GN3 模型支持上传视频并转换风格,可用于实现多元宇宙等风格穿梭的片子,也能将简单场景转换为难以拍摄的场景。 在角色生视频方面: 角色生视频突破关键帧限制,不再依赖关键帧输入,而是直接传入角色本身,可更灵活生成视频。 支持多角色参考生成创意视频,可上传多张图,最多三张,将人物、衣服、背景等元素融合生成视频。 不同工具的角色生视频效果有所不同,如 Runway 的 x one 在身体、头部、眼神动态上表现更好。 角色生视频的应用场景包括规避机器人念台词的尴尬瞬间,让机器人有更丰富的表情和神态。未来视频生成将摆脱纯关键帧方式,采用多模态信息输入,如定义角色和场景的三视图等。 此外,谷歌 Gemini 模型在处理视频相关问题时,可通过修改提示来改变模型的行为。
2025-01-16