Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

有哪些能够本地部署的AI视频生成模型

Answer

以下是一些能够本地部署的 AI 视频生成模型:

  1. Stable Video Diffusion 模型:
    • 准备工作:手动下载相关内容,分别放到指定路径。
    • 模型选择:点击下拉箭头选择不同模型版本,勾选 load Model。
    • 视频创作:支持图生视频,图片来源可选择 Midjourney、Stable Diffusion 等生成的图片,上传到 SVD 进行视频生成,可调节左侧参数控制效果。
    • 保存路径:生成的视频在 outputs 下。
  2. LTX-Video 模型:
    • 基于 2B 参数 DiT,能够以 768x512 分辨率生成 24 FPS 的视频,速度比观看还快。
    • 专为 RTX 4090 等 GPU 优化,使用 bfloat16 精度,实现高效内存使用且不影响质量。
    • ComfyUI 现已支持该模型,用户只需下载模型文件并获取工作流即可在本地运行。
  3. Sora 模型:
    • 功能:文生视频、图生视频、视频生视频,支持多种视频定制选项,如分辨率、视频长度和视频风格;具有故事板功能,允许用户通过时间线指导视频中的多个动作;提供混音和编辑功能,包括视频混音、延伸和剪辑、创建循环视频等;还有混合功能,可将两个视频场景合并成一个新的场景。
    • 费用和订阅套餐:对于拥有 OpenAI Plus 或 Pro 账户的用户,使用包含在现有订阅中。OpenAI Plus 订阅每月 50 次视频生成次数,OpenAI Pro 订阅无限次慢速队列生成,500 次正常速度的视频生成次数。用户可根据需要选择更高分辨率的视频生成,但可能会减少每月使用次数。发布初期,某些地区(如欧洲和英国)可能会有延迟。
Content generated by AI large model, please carefully verify (powered by aily)

References

Stable Video Diffusion模型核心内容与部署实战

手动下载下来后,分别放到路径如下:在以上准备工作做好后,再次运行!!复制url到浏览器中打开!!点击下拉箭头,可以选择不同模型版本,再勾选load Model!!这里可以看到,增加了svd-fp16模型的支持,可以在video_sampling.py代码中进行添加,其他模型依次类推!!视频创作在以上准备工作完成,并且模型正确加载后,我们就可以开始视频生成的创作了!!SVD本地部署目前仅支持图生视频,关于图片的来源,我们可以选择AI绘画工具如:Midjourney、Stable Diffusion等生成图片,然后再上传到SVD进行视频的生成!!同时,可以调左侧的一些参数,控制视频的生成效果!!视频生成的保存路径在outputs下,生成的效果如下:[20240420-231858.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/IsTvbU2hooylyhx8jOKcLjfznKb?allow_redirect=1)

2024 年历史更新(归档)

《[Yeadon:AI编程最佳实践:Cursor+Coze工作流打造网页内容提取插件](https://waytoagi.feishu.cn/wiki/XNcZwCXAcigRNLkO7DTcEVKlntb?renamingWikiNode=true)》《[Yeadon:写给小小白的-从游戏入手学习搓图像流bot](https://waytoagi.feishu.cn/wiki/Rv7RwFrYqiOhPUkQvSqcfbvknhd?renamingWikiNode=true)》Yeadon是人工智能专业的大三学生,正在努力成为AI时代的超级个体~最近制作agent非常有心得,记录并分享给大家。[heading3]11月23日[content]《[可本地运行的实时视频生成模型来了!开源生态这两天过年了?](https://mp.weixin.qq.com/s/dyXnXe7UMHJeothGk0Ok4g)》Lightricks近日开源了实时视频生成模型LTX-Video,该模型基于2B参数DiT,能够以768x512分辨率生成24 FPS的视频,速度比观看还快。它专为RTX 4090等GPU优化,使用bfloat16精度,实现高效内存使用且不影响质量。LTX-Video支持生成一致质量的长视频,ComfyUI现已支持该模型,用户只需下载模型文件并获取工作流即可在本地运行。

视频模型:Sora

最新消息sora.com域名已经部署好[Sora实测案例](https://waytoagi.feishu.cn/wiki/MKgKw9hg8iZZp1kKYQ4c0B6unWg)2点直播链接:https://www.youtube.com/watch?v=2jKVx2vyZOY有博主已经做了提前测试This Video is AI Generated!SORA Reviewhttps://www.youtube.com/watch?v=OY2x0TyKzIQ12月10日已上线[heading2]Sora功能:[content]文生视频,图生视频,视频生视频1.视频生成:文生视频,图生视频,视频生视频支持多种视频定制选项,如分辨率(从480p到1080p)、视频长度(从5秒到更长时间)和视频风格。用户可以浏览社区共享的视频,获取灵感和学习技巧(直接抄别人prompt)2.故事板:允许用户通过时间线指导视频中的多个动作,创建更加复杂的视频序列。3.混音和编辑:提供视频混音功能,允许用户将视频转换成新的风格。支持视频的延伸和剪辑,以及创建循环视频。4.高级功能:包括混合功能,可以将两个视频场景合并成一个新的场景。[heading2]费用和订阅套餐:[content]对于已经拥有OpenAI Plus或Pro账户的用户,Sora的使用是包含在现有订阅中的,无需额外支付费用。OpenAI Plus订阅:每月50次视频生成次数。OpenAI Pro订阅:无限次慢速队列生成。500次正常速度的视频生成次数。额外信息:用户可以根据需要选择更高分辨率的视频生成,但这可能会减少每月的使用次数。Sora的发布初期,对于某些地区(如欧洲和英国)可能会有延迟。

Others are asking
我该如何使用AI提示词
以下是关于如何使用 AI 提示词的详细介绍: 1. 什么是提示词: 提示词用于描绘您想要的画面。 输入语言方面,星流通用大模型与基础模型 F.1、基础模型 XL 使用自然语言(如一个长头发的金发女孩),基础模型 1.5 使用单个词组(如女孩、金发、长头发),且支持中英文输入。 启用提示词优化后,能帮您扩展提示词,更生动地描述画面内容。 2. 如何写好提示词: 预设词组:小白用户可以点击提示词上方官方预设词组进行生图,提示词内容应准确,包含人物主体、风格、场景特点、环境光照、画面构图、画质等,比如:一个女孩抱着小猫,背景是一面红墙,插画风格、孤独感,高质量。 调整负面提示词:点击提示框下方的齿轮按钮,弹出负面提示词框,负面提示词可以帮助 AI 理解我们不想生成的内容,比如:不好的质量、低像素、模糊、水印。 利用“加权重”功能:可在功能框增加提示词,并进行加权重调节,权重数值越大,越优先,也可对已有的提示词权重进行编辑。 辅助功能:包括翻译功能(一键将提示词翻译成英文)、删除所有提示词(清空提示词框)、会员加速(加速图像生图速度,提升效率)。 3. 编写提示词的建议: 明确任务:清晰定义任务,如写故事时包含背景、角色和主要情节。 提供上下文:若任务需特定背景知识,在提示词中提供足够信息。 使用清晰语言:尽量简单、清晰,避免模糊或歧义词汇。 给出具体要求:明确格式或风格要求。 使用示例:如有特定期望结果,提供示例。 保持简洁:简洁明了,避免过多信息。 使用关键词和标签:帮助 AI 理解任务主题和类型。 测试和调整:生成文本后检查结果,根据需要调整。 4. 对 AI 的认识: 基于 AI“似人”的一面,要接受其存在的“不稳定性”,可能会学习人类思维磨洋工、乱搞、不执行,需要教育、监督、鞭策。 不能期待设计一个完美的提示词就得到完美答案,给到 AI 的提示词实际上是一个相对完善的“谈话方案”,真正的成果需要在对话中产生,并在对话中限缩自己思维中的模糊地带。
2025-01-22
分析英文期刊论文的ai有哪些?哪个好用?
以下是一些可用于分析英文期刊论文的 AI 工具: 1. 文献管理和搜索: Zotero:结合 AI 技术,能自动提取文献信息,便于管理和整理参考文献。 Semantic Scholar:由 AI 驱动的学术搜索引擎,可提供文献推荐和引用分析。 2. 内容生成和辅助写作: Grammarly:通过 AI 技术进行文本校对、语法修正和写作风格建议,提升语言质量。 Quillbot:基于 AI 的重写和摘要工具,可精简和优化论文内容。 3. 研究和数据分析: Google Colab:提供基于云的 Jupyter 笔记本环境,支持 AI 和机器学习研究,方便进行数据分析和可视化。 Knitro:用于数学建模和优化的软件,有助于复杂的数据分析和模型构建。 4. 论文结构和格式: LaTeX:结合自动化和模板,高效处理论文格式和数学公式。 Overleaf:在线 LaTeX 编辑器,有丰富模板库和协作功能,简化论文编写。 5. 研究伦理和抄袭检测: Turnitin:广泛使用的抄袭检测工具,确保论文原创性。 Crossref Similarity Check:通过与已发表作品比较,检测潜在抄袭问题。 此外,以下是一些常见的文章润色 AI 工具: 1. Wordvice AI:集校对、改写转述和翻译等功能于一体,基于大型语言模型提供全面的英文论文润色服务。 2. ChatGPT:由 OpenAI 开发的大型语言模型,可用于多方面写作辅助。 3. Quillbot:人工智能文本摘要和改写工具,可用于快速筛选和改写文献资料。 4. HyperWrite:基于 AI 的写作助手和大纲生成器,可帮助写作前进行头脑风暴和大纲规划。 5. Wordtune:AI 驱动的文本改写和润色工具,优化文章语言表达。 6. Smodin:提供 AI 驱动的论文撰写功能,可生成符合要求的学术论文。 在 AI 文章排版工具方面: 1. Grammarly:不仅是语法和拼写检查工具,还提供排版功能,改进文档风格和流畅性。 2. QuillBot:AI 驱动的写作和排版工具,改进文本清晰度和流畅性。 3. Latex:广泛用于学术论文排版的软件,使用标记语言描述格式,有许多 AI 辅助的编辑器和插件简化排版过程。 4. PandaDoc:文档自动化平台,使用 AI 帮助创建、格式化和自动化文档生成,适合商业和技术文档。 5. Wordtune:重新表述和改进文本,使其更清晰专业。 6. Overleaf:在线 Latex 编辑器,提供丰富模板和协作工具,适合学术写作和排版。 选择合适的工具取决于您的具体需求,如文档类型、出版标准和个人偏好。对于学术论文,Latex 和 Overleaf 通常是受欢迎的选择;对于一般文章和商业文档,Grammarly 和 PandaDoc 等可能更适用。请注意,以上内容由 AI 大模型生成,请仔细甄别。
2025-01-22
你这里有AI报告的合集吗
以下是为您提供的部分 AI 报告合集: 2024 年 5 月 9 日: 《》 《》 《》 《》 《》 2023 年 11 月 15 日: 《》 《》 《》 2024 年 12 月 23 日: 《 Fastdata 极数:《》 《》 清华大学五道口金融学院:《》 国盛证券:《》 托尼·布莱尔全球变化研究所:《》 腾讯云:《》 您可以在以下链接查看更多详细内容:
2025-01-22
有什么ai 可以用来核实信息
以下是一些可以用来核实信息的 AI 相关内容: 马斯克认为真正的 AI 应能理解物理世界,比如能帮助人们在世界各地找到不同的事物。如果 AI 做不到像在机场找到咖啡这样的简单任务,那就不是一个好的 AI。 Twitter 上的很多数据可用于构建验证器。 存在能联网检索的 AI,例如 ChatGPT Plus 用户可开启 web browsing 功能实现联网,Perplexity 结合了问答和搜索引擎功能,Bing Copilot 可简化在线查询和浏览,还有 You.com 和 Neeva AI 等提供基于人工智能的定制搜索体验并保护用户数据私密性的搜索引擎。 但使用 AI 时需注意,它可能会“产生幻觉”生成错误内容,需要检查所有结果。AI 不会真正解释自己,给出的解释可能是编造的,且可能被不道德地用于操纵或作弊,用户要对其输出负责。
2025-01-22
输出一个“BIM工程师如何用AI辅助工作”的PPT
很抱歉,目前没有关于“BIM 工程师如何用 AI 辅助工作”的 PPT 相关内容。但 BIM 工程师可以考虑以下几个方面利用 AI 辅助工作: 1. 利用 AI 进行建筑信息模型的自动生成和优化,提高建模效率和准确性。 2. 借助 AI 对建筑性能进行模拟和预测,例如能耗分析、结构稳定性评估等。 3. 通过 AI 实现施工进度的智能规划和监控,及时发现潜在的延误风险。 4. 运用 AI 辅助进行建筑材料和设备的选型,以达到成本控制和质量提升的目的。 您可以根据以上思路来制作 PPT。
2025-01-22
如何系统地学习AI
以下是系统学习 AI 的方法: 1. 编程语言基础:从 Python、JavaScript 等编程语言开始学习,掌握编程语法、数据结构、算法等基础知识,为后续的 AI 学习奠定基础。 2. 尝试使用工具和平台:可以使用 ChatGPT、Midjourney 等 AI 生成工具,体验 AI 的应用场景。探索面向中学生的 AI 教育平台,如百度的“文心智能体平台”、Coze 智能体平台等。 3. 学习基础知识: 了解 AI 的基本概念、发展历程、主要技术(如机器学习、深度学习、自然语言处理等)以及它们之间的联系。 阅读入门文章,了解 AI 的历史、当前的应用和未来的发展趋势。 4. 参与实践项目:参加学校或社区组织的 AI 编程竞赛、创意设计大赛等活动,尝试利用 AI 技术解决生活中的实际问题,培养动手能力。 5. 关注前沿动态:关注 AI 领域的权威媒体和学者,了解 AI 技术的最新进展,思考 AI 技术对未来社会的影响,培养对 AI 的思考和判断能力。 6. 选择感兴趣的模块深入学习:AI 领域广泛,如图像、音乐、视频等,可根据兴趣选择特定模块深入学习,掌握提示词技巧。 7. 开始学习之旅: 阅读「」部分,熟悉 AI 的术语和基础概念。 在「」中找到为初学者设计的课程,特别推荐李宏毅老师的课程。通过在线教育平台(如 Coursera、edX、Udacity)上的课程按照自己的节奏学习,并有机会获得证书。 8. 实践和尝试:理论学习后进行实践,巩固知识,尝试使用各种产品做出作品。在知识库分享实践后的成果。 9. 体验 AI 产品:与 ChatGPT、Kimi Chat、智谱、文心一言等 AI 聊天机器人互动,了解其工作原理和交互方式,获得对 AI 实际应用的第一手体验。 10. 加入学习社区:如,按照新手指引入门,避免走弯路。
2025-01-22
用AI制作视频
将小说用 AI 制作成视频的流程如下: 1. 小说内容分析:使用 AI 工具(如 ChatGPT)分析小说内容,提取关键场景、角色和情节。 2. 生成角色与场景描述:根据小说内容,使用工具(如 Stable Diffusion 或 Midjourney)生成角色和场景的视觉描述。 3. 图像生成:使用 AI 图像生成工具根据描述创建角色和场景的图像。 4. 视频脚本制作:将提取的关键点和生成的图像组合成视频脚本。 5. 音频制作:利用 AI 配音工具(如 Adobe Firefly)将小说文本转换为语音,添加背景音乐和音效。 6. 视频编辑与合成:使用视频编辑软件(如 Clipfly 或 VEED.IO)将图像、音频和文字合成为视频。 7. 后期处理:对生成的视频进行剪辑、添加特效和转场,以提高视频质量。 8. 审阅与调整:观看生成的视频,根据需要进行调整,比如重新编辑某些场景或调整音频。 9. 输出与分享:完成所有编辑后,输出最终视频,并在所需平台上分享。 需要注意的是,具体的操作步骤和所需工具可能会根据项目的具体需求和个人偏好有所不同。此外,AI 工具的可用性和功能也可能会随时间而变化,建议直接访问以下工具网址获取最新信息和使用指南: 1. Stable Diffusion(SD):一种 AI 图像生成模型,可以基于文本描述生成图像。网址:https://github.com/StabilityAI 2. Midjourney(MJ):另一个 AI 图像生成工具,适用于创建小说中的场景和角色图像。网址:https://www.midjourney.com 3. Adobe Firefly:Adobe 的 AI 创意工具,可以生成图像和设计模板。网址:https://www.adobe.com/products/firefly.html 4. Pika AI:文本生成视频的 AI 工具,适合动画制作。网址:https://pika.art/waitlist 5. Clipfly:一站式 AI 视频生成和剪辑平台。网址:https://www.aihub.cn/tools/video/clipfly/ 6. VEED.IO:在线视频编辑工具,具有 AI 视频生成器功能。网址:https://www.veed.io/zhCN/tools/aivideo 7. 极虎漫剪:结合 Stable Diffusion 技术的小说推文视频创作提效工具。网址:https://tiger.easyartx.com/landing 8. 故事 AI 绘图:小说转视频的 AI 工具。网址:https://www.aihub.cn/tools/video/gushiai/ 在 Adobe Firefly 的 Advanced 部分,您可以使用 Seed 选项添加种子编号(https://helpx.adobe.com/firefly/generatevideo/generatevideoclips/generatevideofaq.htmlwhatisaseed),以帮助启动流程并控制 AI 创建的内容的随机性。如果使用相同的种子、提示和控制设置,则可以重新生成类似的视频剪辑。然后选择 Generate(生成)。
2025-01-22
有AI工具可以帮我把视频里的文字内容提取吗
以下是一些可以帮助您提取视频里文字内容的 AI 工具和方法: 1. 对于 B 站视频,如果视频有字幕,您可以安装油猴脚本。安装之后,刷新浏览器,点击字幕,会出现“下载”按钮,您可以选择多种字幕格式,然后将下载的字文字内容全选复制发送给 GPTs 进行总结。 2. 如果您想用 AI 把小说做成视频,大致流程如下: 小说内容分析:使用 AI 工具(如 ChatGPT)分析小说内容,提取关键场景、角色和情节。 生成角色与场景描述:根据小说内容,使用工具(如 Stable Diffusion 或 Midjourney)生成角色和场景的视觉描述。 图像生成:使用 AI 图像生成工具根据描述创建角色和场景的图像。 视频脚本制作:将提取的关键点和生成的图像组合成视频脚本。 音频制作:利用 AI 配音工具(如 Adobe Firefly)将小说文本转换为语音,添加背景音乐和音效。 视频编辑与合成:使用视频编辑软件(如 Clipfly 或 VEED.IO)将图像、音频和文字合成为视频。 后期处理:对生成的视频进行剪辑、添加特效和转场,以提高视频质量。 审阅与调整:观看生成的视频,根据需要进行调整,比如重新编辑某些场景或调整音频。 输出与分享:完成所有编辑后,输出最终视频,并在所需平台上分享。 请注意,具体的操作步骤和所需工具可能会根据项目的具体需求和个人偏好有所不同。此外,AI 工具的可用性和功能也可能会随时间而变化,建议直接访问上述提供的工具网址获取最新信息和使用指南。
2025-01-22
如何用现有人的照片生成拜年短视频
以下是用现有人的照片生成拜年短视频的流程: 1. 拍摄训练的图片:先拍好所需图片。 2. 使用 EasyPhoto 开始训练:放入图片开始炼丹,等待显示“The training has been completed.”表示完成。 3. 训练好的 lora 用来推理:开始推理,注意推理使用的底图尽量选择和自己外形、头发相似的图片,因为除了面部,发型等也是关键。 4. 先用 Stable different 脸一个自己脸部的 Lora,然后生成各种不同风格的图片。 5. 配音。 6. 在 heygen 里面让图片口型和配音对上。 7. 后期剪辑。 8. 封面制作。 制作最后的拜年祝福语,希望以上工作流能对您有所帮助。
2025-01-22
图片生成视频的ai有哪些
以下是一些图片生成视频的 AI 工具: 1. Pika:是一款出色的文本生成视频 AI 工具,擅长动画制作,并支持视频编辑。 2. SVD:如果熟悉 Stable Diffusion,可以安装这款最新的插件,在图片基础上直接生成视频。它是由 Stability AI 开源的 video model。 3. Runway:老牌 AI 视频生成工具,提供实时涂抹修改视频的功能,但需要收费。 4. Kaiber:视频转视频 AI,能够将原视频转换成各种风格的视频。 5. Sora:由 OpenAI 开发,可以生成长达 1 分钟以上的视频。 更多的相关网站可以查看:https://www.waytoagi.com/category/38 。 另外,使用快影(可灵)处理图片生成视频的步骤如下: 1. 打开快影(需要先通过内测申请),选择 AI 创作。 2. 选择 AI 生成视频。 3. 选择图生视频。 4. 上传处理好的图片,填写想要的互动动作和效果,然后点击生成视频。 5. 排队等待生成结束,点击下载。 以上工具均适合于不同的使用场景和需求,您可以根据自己的具体情况进行选择。
2025-01-21
制作ai视频都需要用到哪些工具
制作 AI 视频通常需要用到以下工具: 1. Stable Diffusion(SD):一种 AI 图像生成模型,可基于文本描述生成图像。网址:https://github.com/StabilityAI 2. Midjourney(MJ):适用于创建小说中的场景和角色图像的 AI 图像生成工具。网址:https://www.midjourney.com 3. Adobe Firefly:Adobe 的 AI 创意工具,能生成图像和设计模板。网址:https://www.adobe.com/products/firefly.html 4. Pika AI:文本生成视频的 AI 工具,适合动画制作。网址:https://pika.art/waitlist 5. Clipfly:一站式 AI 视频生成和剪辑平台。网址:https://www.aihub.cn/tools/video/clipfly/ 6. VEED.IO:在线视频编辑工具,具有 AI 视频生成器功能。网址:https://www.veed.io/zhCN/tools/aivideo 7. 极虎漫剪:结合 Stable Diffusion 技术的小说推文视频创作提效工具。网址:https://tiger.easyartx.com/landing 8. 故事 AI 绘图:小说转视频的 AI 工具。网址:https://www.aihub.cn/tools/video/gushiai/ 此外,制作 AI 视频还需要考虑故事的来源和剧本写作。故事来源可以是原创(如个人或周围人的经历、梦境、想象的故事等),也可以是改编(如经典 IP、名著、新闻、二创等)。剧本写作方面,虽然有一定门槛,但可以从自身或朋友的经历改编入手,多与他人讨论并不断实践总结。在生成视频画面时,可能需要大量抽卡来获取合适的画面。比如在科幻片、战争片、奇幻片等不同类型的视频中,通过不同的工具生成相应的画面。
2025-01-21
有哪些能够生成视频封面的ai
以下是一些能够生成视频封面的 AI 工具: 1. Pika:出色的文本生成视频 AI 工具,擅长动画制作,并支持视频编辑。 2. SVD:如果熟悉 Stable Diffusion,可以安装这款最新的插件,在图片基础上直接生成视频,它是由 Stability AI 开源的 video model。 3. Runway:老牌 AI 视频生成工具,提供实时涂抹修改视频的功能,但需要注意是收费的。 4. Kaiber:视频转视频 AI,能够将原视频转换成各种风格的视频。 5. Sora:由 OpenAI 开发,可以生成长达 1 分钟以上的视频。 如果您想用 AI 把小说做成视频,可参考以下制作流程: 1. 小说内容分析:使用 AI 工具(如 ChatGPT)分析小说内容,提取关键场景、角色和情节。 2. 生成角色与场景描述:根据小说内容,使用工具(如 Stable Diffusion 或 Midjourney)生成角色和场景的视觉描述。 3. 图像生成:使用 AI 图像生成工具根据描述创建角色和场景的图像。 4. 视频脚本制作:将提取的关键点和生成的图像组合成视频脚本。 5. 音频制作:利用 AI 配音工具(如 Adobe Firefly)将小说文本转换为语音,添加背景音乐和音效。 6. 视频编辑与合成:使用视频编辑软件(如 Clipfly 或 VEED.IO)将图像、音频和文字合成为视频。 7. 后期处理:对生成的视频进行剪辑、添加特效和转场,以提高视频质量。 8. 审阅与调整:观看生成的视频,根据需要进行调整,比如重新编辑某些场景或调整音频。 9. 输出与分享:完成所有编辑后,输出最终视频,并在所需平台上分享。 请注意,具体的操作步骤和所需工具可能会根据项目的具体需求和个人偏好有所不同。此外,AI 工具的可用性和功能也可能会随时间而变化,建议直接访问上述提供的工具网址获取最新信息和使用指南。
2025-01-21
SD模型
Stable Diffusion(SD)模型是由 Stability AI 和 LAION 等公司共同开发的生成式模型,参数量约 1B,可用于文生图、图生图、图像 inpainting、ControlNet 控制生成、图像超分等任务。 文生图任务是将文本输入到 SD 模型,经过一定迭代次数生成符合描述的图片。例如输入“天堂,巨大的,海滩”,模型生成美丽沙滩图片。 图生图任务在输入文本基础上再输入一张图片,模型根据文本提示重绘输入图片使其更符合描述,如在沙滩图片上添加“海盗船”。 输入的文本信息需通过“桥梁”CLIP Text Encoder 模型转换为机器数学信息。该模型作为 SD 模型中的前置模块,将输入文本编码生成 Text Embeddings 特征矩阵,用于控制图像生成。 目前 SD 模型使用的是中的 Text Encoder 模型,其只包含 Transformer 结构,由 12 个 CLIPEncoderLayer 模块组成,模型参数大小为 123M,输出 Text Embeddings 的维度为 77x768。 以下是相关资源获取方式: SD 模型权重:关注 Rocky 的公众号 WeThinkIn,后台回复“SD 模型”,可获得包含多种模型权重的资源链接。 SD 保姆级训练资源:关注 Rocky 的公众号 WeThinkIn,后台回复“SDTrain”,可获得包含数据处理、模型微调训练及基于 SD 的 LoRA 模型训练代码等全套资源。 Stable Diffusion 中 VAE、UNet 和 CLIP 三大模型的可视化网络结构图:关注 Rocky 的公众号 WeThinkIn,后台回复“SD 网络结构”,即可获得网络结构图资源链接。
2025-01-22
到今天,大语言模型还会产生“幻觉”吗
截至今天,大语言模型仍会产生“幻觉”。 大语言模型偶尔会根据输入输出一些荒谬或不符合事实的内容,目前各家大语言模型在该问题上的表现都不尽如人意。产生“幻觉”的原因包括: 1. 样本存在错误(Imitative Falsehoods):如果大语言模型学习的“教材”中有错误,它也容易给出错误回答。缓解该问题的一个办法是上采样(Up Sampling)。 2. 信息过时(Outdated Factual Knowledge):以前正确的信息现在可能过时了。 此外,大语言模型通过训练数据猜测下一个输出结果,可能因错误数据导致给出错误答案,优质数据集对其很重要。如果在其训练过程中,模型被暴露于大量知识之中,它并没有完美地记忆所见到的信息,并不十分清楚自己的知识边界,可能会尝试回答有关深奥话题的问题,并虚构听起来有道理但实际不正确的内容。 在构建应用程序时,可以使用一些技术来避免这种情况,例如要求模型先从文本中找到相关引文,然后使用引文回答问题,并将答案追溯回源文件,这通常有助于减少“幻觉”的发生。
2025-01-22
本地部署大模型
以下是关于本地部署大模型的详细步骤: 1. 部署大语言模型: 下载并安装 Ollama: 根据电脑系统,从 https://ollama.com/download 下载 Ollama。 下载完成后,双击打开,点击“Install”。 安装完成后,将 http://127.0.0.1:11434/ 复制进浏览器,若出现相关字样则表示安装完成。 下载 qwen2:0.5b 模型(若设备充足可下载更大模型): Windows 电脑:点击 win+R,输入 cmd 点击回车。 Mac 电脑:按下 Command(⌘)+Space 键打开 Spotlight 搜索,输入“Terminal”或“终端”,选择“终端”应用程序。 复制相关命令行,粘贴进入并回车,等待自动下载完成。 2. ComfyUI ollama 本地大模型部署: 先下载 ollama 安装,安装完成后可在电脑桌面右下角或隐藏图标中找到。 下载对应的模型,选择模型并复制对应的命令。 打开命令行界面,输入对应的模型获取命令,等待下载完成。 模型下载后会保存到 D:\\ollama\\blobs 。 进行 docker 安装,安装会下载一些文件,安装后更改目录,不要放在 C 盘。 进行 Open webui 安装,输入相关命令,安装成功后回到 docker,点击会自动打开网页,第一次使用需注册账号,选择下载好的模型即可开始使用。 3. 错误解决: 端口占用问题,在 Windows 上可能出现,运行相关两条命令可解决。 4. 相关链接: comfyuiollama:https://github.com/stavsap/comfyuiollama?tab=readmeovfile Ollama:https://ollama.com/ docker:https://www.docker.com/ Open webui:https://openwebui.com/ 此外,还有一篇思路来源于视频号博主黄益贺的相关内容,作者按照其视频进行了实操并附加了一些关于 RAG 的额外知识。文中提到读完本文可以学习到如何使用 Ollama 一键部署本地大模型、通过搭建本地聊天工具了解 ChatGPT 信息流转、RAG 的概念及核心技术、通过 AnythingLLM 软件搭建完全本地化的数据库等内容。虽然大多数人不需要自己部署大模型,但期望通过本文的指导能够折腾一遍,从而做到知其然且知其所以然。
2025-01-22
大模型评分
大模型评分通常会根据不同的赛事或评估体系有所差异。 在金融行业的大模型挑战赛中,评测任务形式为给定一组参考文档和问题,要求模型按指定格式生成答案。赛事主办方会根据选手提供的回答与参考答案对比,并根据关键字段命中情况进行评分。评分公式涉及关键词命中总次数、关键词总数、小题数和得分等参数。例如在示例问题中,根据每个小题的回答正确情况计算得分,完全正确得满分 1 分,部分正确则根据命中比例计算得分。 在其他的大模型评估方面: FlagEval(天秤)大模型评测体系及开放平台,旨在建立科学、公正、开放的评测基准、方法、工具集,创新构建了“能力任务指标”三维评测框架,细粒度刻画基础模型的认知能力边界,可视化呈现评测结果。地址:https://github.com/FlagOpen/FlagEval 。 CEval 构造了一个覆盖多个学科的中文知识和推理型测试集,并给出了当前主流中文 LLM 的评测结果。地址:https://github.com/SJTULIT/ceval 。 SuperCLUElyb 是中文通用大模型匿名对战评价基准,以众包方式提供匿名、随机的对战,并发布了初步结果和基于 Elo 评级系统的排行榜。地址:https://github.com/CLUEbenchmark/SuperCLUElyb 。 斯坦福发布的大模型排行榜 AlpacaEval 支持两种模式的模型评估方式:alpaca_eval 和 alpaca_eval evaluate_from_model 。评测过程分为选择评估集并计算输出、计算 golden 输出、通过指定的自动标注器计算胜率等步骤。相对于人工标注,全自动化的 AlpacaEval 具有较低的经济成本和时间成本。
2025-01-22
国内文生图模型
以下是关于国内文生图模型的相关信息: Recraft 模型:用 8 个月自研模型,包含处理数据的模型、标注工作、训练 OCR 模型、新构建的数据集等。Recraft 生成带有长文本图像的流程图解,但存在生成默认是外国面孔而非亚洲面孔且生成的亚洲人不太自然的情况,可能与数据集有关。只有少数公司真正从头训练模型,创建自己的模型困难且成本高,需要超强团队和资金。 模型能力方面: 文本编码器的能力是文生图模型语义理解能力的关键。一开始大部分模型使用 CLIP 作为文本编码器,但存在一些问题。新的模型纷纷优化文本编码器能力,如引入更大更强的 T5XXL 或结合多个特征,但开源模型在中文生图方面能力一般。 腾讯开源的 HunyuanDiT 是较可用的中文生图模型,但仍存在优化空间。 Kolors 是最近开源的给力文生图模型,改进全面,技术实力强。
2025-01-21
吴恩达大模型教程
以下是一些与吴恩达大模型相关的教程和资源: 面向开发者的 LLM 入门课程: 地址: 简介:一个中文版的大模型入门教程,围绕吴恩达老师的大模型系列课程展开,包括吴恩达《ChatGPT Prompt Engineering for Developers》课程中文版等。 提示工程指南: 地址: 简介:基于对大语言模型的兴趣编写的全新提示工程指南,介绍了相关论文研究等。 LangChain🦜️🔗中文网,跟着 LangChain 一起学 LLM/GPT 开发: 地址: 简介:由两位 LLM 创业者维护的 Langchain 中文文档。 LLM 九层妖塔: 地址: 简介:包含 ChatGLM 等实战与经验。 目录:吴恩达讲 Prompt https://github.com/zard1152/deepLearningAI/wiki Coze 复刻:吴恩达开源的 AI 翻译项目 复刻步骤:包括配置反思优化的提示词、结合反思优化建议再次翻译、选择输出方式等。 大语言模型分为基础 LLM 和指令微调 LLM 两类。基础 LLM 经过训练可根据文本预测下一个词,指令微调 LLM 经过训练能遵循指令,为让系统更有帮助并遵循指令,通常会使用人类反馈强化学习(RLHF)技术优化。提示的关键原则包括尽可能保证下达的指令“清晰、没有歧义”,给大模型思考的时间以及足够的时间去完成任务。
2025-01-21
生成原型的AI工具
以下是一些用于生成原型的 AI 工具: 1. 即时设计(https://js.design/):可在线使用的「专业 UI 设计工具」,为设计师提供更加本土化的功能和服务,相较于其他传统设计工具,更注重云端文件管理、团队协作,并将设计工具与更多平台整合,一站搞定全流程工作。 2. V0.dev(https://v0.dev/):Vercel Labs 推出的 AI 生成式用户界面系统。每个人都能通过文本或图像生成代码化的用户界面。它基于 Shadcn UI 和 Tailwind CSS 生成复制粘贴友好的 React 代码。 3. Wix(https://wix.com/):用户友好的 AI 工具,可让您在没有任何编码知识的情况下轻松创建和自定义自己的网站,提供广泛的模板和设计供您选择,以及移动优化和集成电子商务功能等功能。Wix 建站工具通过拖放编辑、优秀模板和 250 多种 app,能帮助不同领域的用户创建所有种类的网站。 4. Dora(https://www.dora.run/):使用 Dora AI,可以通过一个 prompt,借助 AI 3D 动画,生成强大网站。支持文字转网站,生成式 3D 互动,高级 AI 动画。 目前用于产品原型设计的 AIGC 工具包括: 1. UIzard:利用 AI 技术生成用户界面的工具,可根据设计师提供的信息快速生成 UI 设计。 2. Figma:基于云的设计工具,提供自动布局和组件库,其社区开发的一些 AI 插件可用于增强设计流程。 3. Sketch:流行的矢量图形设计工具,其插件系统中的一些插件利用 AI 技术来辅助设计工作,例如自动生成设计元素等。 从 Artifacts 到 Cursor 的连续爆火,唤起了大模型的又一春。AI Native 的口号从未停止,虽然难以定义真正的 AI Native,但借助这些 AI 工具,任何人都能在短时间内将创意变为可交互的原型。当然,这些工具还不够完美,生成的代码可能需要调整,设计可能需要优化。但随着技术的不断进步,未来可能会有更多专门针对产品原型设计的 AIGC 工具出现,也许有一天,我们可以直接用自然语言描述一个完整的应用,AI 就能为我们构建出全功能的产品。
2025-01-22
文字生成图片的ai有哪些
以下是一些文字生成图片的 AI 工具: 1. DALL·E:由 OpenAI 推出,能根据输入的文本描述生成逼真的图片。 2. StableDiffusion:开源的文生图工具,可生成高质量图片,支持多种模型和算法。 3. MidJourney:因高质量的图像生成效果和用户友好的界面设计受到广泛欢迎,在创意设计人群中尤其流行。 您还可以在 WaytoAGI 网站(https://www.waytoagi.com/category/104)查看更多文生图工具。 此外,在小学课堂的课程设计中,关于文字生成图片的部分,可先准备一些关键词,如“夜晚的未来城市风景,霓虹灯和飞行汽车”“超现实主义风景,漂浮的岛屿和瀑布云”等,输入 Mid Journey 生成图片并保存,用于课堂展示。同时让学生共创,每人说几个关键词,放入 Mid Journey 查看生成效果,也可展示事先用 SD 制作的作品。通过这些案例和互动,让学生理解 AI 绘图在创意增强、效率提升、降低技能门槛和探索新艺术形式方面的好处。
2025-01-21
能生成页面 UI 设计图的 AI 工具
以下是一些能生成页面 UI 设计图的 AI 工具: 1. Midjourney:如果想指定生成某个页面(如首页、登录页等),只需添加页面指令描述,如“landing page”“Profile Page”等。通过一系列操作,其产出的设计图视觉效果不错,适合在 APP 设计的初始阶段,如头脑风暴和风格探索中为设计师提供灵感和创意。但目前直接用于落地开发仍有距离。在 Midjourney 中生成 UI 设计图没有固定的 Prompt,可先使用指令模板“ui design forapplication,mobile app,iPhone,iOS,Apple Design Award,screenshot,single screen,high resolution,dribbble”,将“类型”替换为产品的关键词描述(英文)。 2. 即时设计:https://js.design/ 这是一款可在线使用的“专业 UI 设计工具”,为设计师提供更加本土化的功能和服务,更注重云端文件管理、团队协作,并将设计工具与更多平台整合,一站搞定全流程工作。 3. V0.dev:https://v0.dev/ Vercel Labs 推出的 AI 生成式用户界面系统,能通过文本或图像生成代码化的用户界面,基于 Shadcn UI 和 Tailwind CSS 生成复制粘贴友好的 React 代码。 4. Wix:https://wix.com/ 这是一款用户友好的 AI 工具,无需编码知识即可轻松创建和自定义网站,提供广泛的模板和设计选择,以及移动优化和集成电子商务等功能,能帮助不同领域用户创建各种网站。 5. Dora:https://www.dora.run/ 使用 Dora AI,可以通过一个 prompt,借助 AI 3D 动画生成强大网站,支持文字转网站、生成式 3D 互动、高级 AI 动画。 请注意,以上内容由 AI 大模型生成,请仔细甄别。
2025-01-21