直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

目前有哪些开源绘画模型

回答

目前常见的开源绘画模型有:

  • Stable Diffusion:生态最完整,能够加载的框架有 ComfyUI 框架、SD.Next 框架、Stable Diffusion WebUI 框架、diffusers 框架。
  • MidJourney:模型风格包罗万象,操作简洁,极富美感和艺术感。
  • Dall·E3(ChatGPT):具有惊人的语义理解能力,可像甲方一样连续修改。
  • Fooocus:优化程度高,操作简便,类似本地化 mj。
  • ComfyUI:门槛高,定制化强。
  • HunYuanDiT:国内第一个开源绘图模型。
  • SDXL:开源时间为 2023.7。
  • SD3:开源时间为 2024.6。
  • KOLORS:开源时间为 2024.7,目前生图质量最高,有相关的教学视频,如“Kolors 中文生图绘画模型开源,快手接连放出高质量开源项目,是否会成为中国的 StabilityAI”等。
  • Flux:开源时间为 2024.8。
内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

教程:深入浅出完整解析Stable Diffusion(SD)核心基础知识 - 知乎

目前能够加载Stable Diffusion模型并进行图像生成的框架有四种:1.ComfyUI框架2.SD.Next框架3.Stable Diffusion WebUI框架4.diffusers框架接下来,为了让大家能够从0到1搭建使用Stable Diffusion这个当前开源生态最繁荣的AI绘画基础大模型,Rocky将详细的讲解如何用这四个框架构建Stable Diffusion推理流程。那么,跟随着Rocky的脚步,让我们开始吧。

课件10.14 WayToAGI零基础绘图共学课

模型风格包罗万象操作简洁极富美感和艺术感[heading2]Dall·E3(ChatGPT)[content]惊人的语义理解像甲方一样连续修改[heading2]Stable Diffusion[content]冰淇淋建筑文字海报水果建筑毛绒小动物城市字体WebUI界面复杂,参数多,上手门槛较高,可拓展性强Fooocus优化程度高,操作简便,类似本地化mjComfyUI门槛高,定制化强[heading1]二.吐司网站介绍与SD模型认识[content]吐司链接https://tusiart.comhttps://tusiart.work每日都有免费100算力体验AI生图!通过https://tusiart.work/?utm_source=bmsn&source_id=bmsn注册有额外送点数[heading2]SD1.5[content]开源时间:2022.10生态最完整[heading2]SDXL[content]开源时间:2023.7[heading2]HunYuanDiT[content]开源时间:2024.5国内第一个开源绘图模型[heading2]SD3[content]开源时间:2024.6[heading2]KOLORS[content]开源时间:2024.7[heading2]Flux[content]开源时间:2024.8目前生图质量最高的模型

工具教程:Kolors 开源模型

|内容标题|作者|类型|链接|备注|<br>|-|-|-|-|-|<br>|Kolors中文生图绘画模型开源,快手接连放出高质量开源项目,是否会成为中国的StabilityAI|赛博迪克朗|评测视频|[https://www.bilibili.com/video/BV1cH4y1A7yz/?spm_id_from=333.337.search-card.all.click](https://www.bilibili.com/video/BV1cH4y1A7yz/?spm_id_from=333.337.search-card.all.click)|[https://openart.ai/workflows/@cyberdicklang](https://openart.ai/workflows/@cyberdicklang)|<br>|质量超出预期,快手开源Kolors模型,支持中文提示词,ComfyUI-Refiner工作流分享|AI-KSK|评测视频|[质量超出预期,快手开源Kolors模型,支持中文提示词,ComfyUI-Refiner工作流分享_哔哩哔哩_bilibili](https://www.bilibili.com/video/BV1Br421T7UX/?spm_id_from=333.337.search-card.all.click&vd_source=d88abcf36fb03119aeaff6289e276995)||<br>|[[ComfyUI]快手kolors模型测评和安装完整教程,手把手教学_哔哩哔哩_bilibili](https://www.bilibili.com/video/BV12H4y1w7zy/?spm_id_from=333.337.search-card.all.click&vd_source=d88abcf36fb03119aeaff6289e276995)|啦啦啦的小黄瓜|评测视频|[[ComfyUI]快手kolors模型测评和安装完整教程,手把手教学_哔哩哔哩_bilibili](https://www.bilibili.com/video/BV12H4y1w7zy/?spm_id_from=333.337.search-card.all.click&vd_source=d88abcf36fb03119aeaff6289e276995)||<br>|[ComfyUI]Kolors安装+IPadapter,惊人发现!!!!可以在kolors中使用IPadapter!|啦啦啦的小黄瓜|教学视频|[https://www.bilibili.com/video/BV1Pi421Y7M3/?spm_id_from=333.337.search-card.all.click](https://www.bilibili.com/video/BV1Pi421Y7M3/?spm_id_from=333.337.search-card.all.click)|[https://pan.quark.cn/s/ef8c64027412](https://pan.quark.cn/s/ef8c64027412)|<br>|comfyui / kolors可图大模型本地开箱即用|BlueBomm|教学视频|[comfyui / kolors可图大模型本地开箱即用_哔哩哔哩_bilibili](https://www.bilibili.com/video/BV1kpaie1EDE/?spm_id_from=333.337.search-card.all.click&vd_source=d88abcf36fb03119aeaff6289e276995)|ComfyUI portable|

其他人在问
有哪些开源或者免费的数字人工具
以下是一些开源或者免费的数字人工具: 1. HeyGen:AI 驱动的平台,能创建逼真的数字人脸和角色,使用深度学习算法生成高质量肖像和角色模型,适用于游戏、电影和虚拟现实等。 2. Synthesia:AI 视频制作平台,允许创建虚拟角色并进行语音和口型同步,支持多种语言,可用于教育视频、营销内容和虚拟助手等场景。 3. DID:提供 AI 拟真人视频产品服务和开发,上传人像照片和输入内容,平台的 AI 语音机器人能自动转换成语音并合成逼真的说话视频。 更多数字人工具请访问网站查看:https://www.waytoagi.com/category/42 此外,还有一些相关的开源代码仓库: ASR 语音识别: openai 的 whisper: https://github.com/openai/whisper wenet: https://github.com/wenete2e/wenet speech_recognition:https://github.com/Uberi/speech_recognition AI Agent: 大模型:ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等。 Agent 部分:可使用 LangChain 的模块自定义,https://www.langchain.com/ TTS: 微软的 edgetts:https://github.com/rany2/edgetts,只能使用预设人物声音,目前接口免费。 VITS:https://github.com/jaywalnut310/vits,还有很多分支版本。 sovitssvc: https://github.com/svcdevelopteam/sovitssvc,专注于唱歌。 请注意,这些工具的具体功能和可用性可能会随时间和技术发展而变化。在使用时,请确保遵守相关使用条款和隐私政策,并注意保持对生成内容的版权和伦理责任。
2024-11-07
有哪些开源免费的数字人工具
以下是一些开源免费的数字人工具: 1. HeyGen:这是一个 AI 驱动的平台,能创建逼真的数字人脸和角色,使用深度学习算法生成高质量肖像和角色模型,适用于游戏、电影和虚拟现实等应用。 2. Synthesia:AI 视频制作平台,允许创建虚拟角色并进行语音和口型同步,支持多种语言,可用于教育视频、营销内容和虚拟助手等场景。 3. DID:提供 AI 拟真人视频产品服务和开发,上传人像照片和输入内容,平台的 AI 语音机器人将自动转换成语音并合成逼真的会开口说话的视频。 更多数字人工具请访问网站查看:https://www.waytoagi.com/category/42 。 请注意,这些工具的具体功能和可用性可能会变化。使用时请遵守相关使用条款和隐私政策,并注意生成内容的版权和伦理责任。 此外,以下是一些与数字人相关的开源代码仓库: ASR 语音识别: openai 的 whisper: https://github.com/openai/whisper wenet: https://github.com/wenete2e/wenet speech_recognition:https://github.com/Uberi/speech_recognition AI Agent: 大模型部分包括 ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等。 Agent 部分可使用 LangChain 的模块自定义,包含了 Agent 实现的几个组件:https://www.langchain.com/ TTS: 微软的 edgetts:https://github.com/rany2/edgetts,只能使用里面预设的人物声音,目前接口免费。 VITS:https://github.com/jaywalnut310/vits,还有很多分支版本。 sovitssvc: https://github.com/svcdevelopteam/sovitssvc,专注于唱歌。 人物建模模型可通过手动建模(音频驱动)或者 AIGC 的方式生成人物的动态效果(例如 wav2lip 模型)实现。 以下是部分摊位信息中与数字人相关的内容: |编号|摊位活动主题和内容|摊位区域|摊位编号| ||||| |54|AI 数字人的技术以及应用场景|D|D4| |59|百度数字人试拍|D|D3|
2024-11-07
阿里开源的数字人
阿里开源的数字人相关信息如下: 阿里的虚拟数字人:https://www.aliyun.com/product/ai/avatar?spm=5176.21213303.8115314850.1.72de53c9pdvu6T&scm=20140722.S_card@@%E4%BA%A7%E5%93%81@@1161322.S_card0.ID_card@@%E4%BA%A7%E5%93%81@@1161322RL_%E6%95%B0%E5%AD%97%E4%BA%BAOR_serV_2P0_0 关于阿里在 AIGC 实践方面的相关文章: 在构建高质量的 AI 数字人方面,建好的模型可以使用 web 前端页面(Live2D 就提供了 web 端的 SDK)或者 Native 的可执行程序进行部署,最后呈现在用户面前的是一个 GUI。笔者的开源数字人项目(项目地址:https://github.com/wanh/awesomedigitalhumanlive2d)选择了 live2d 作为数字人躯壳,因为这类 SDK 的驱动方式相比现在的 AI 生成式的方式更加可控和自然,相比虚幻引擎这些驱动方式又更加轻量和简单;另外超写实的数字人风格在目前的技术能力下,处理不好一致性问题,容易带来虚假的感觉或者产生恐怖谷效应,而卡通二次元的形象给人的接受度更高。关于 live2d 的 SDK 驱动方式可以参考官方示例:https://github.com/Live2D 。
2024-11-07
开源数字人
以下是关于开源数字人的相关信息: 组合方案: 1. 先剪出音频,使用 https://elevenlabs.io/speechsynthesis 或使用 GPTsovits()克隆声音,做出文案的音频。 2. 使用 wav2lip 整合包,导入视频和音频,对口型得到视频。基础 wav2lip+高清修复整合包下载地址:https://github.com/Rudrabha/Wav2Lip 。这就是目前的本地跑数字人的方案,效果都差不多,都是用的 wav2lip 。产品:https://synclabs.so/ 构建高质量的 AI 数字人: 1. 构建数字人躯壳:建好的模型可以使用 web 前端页面(Live2D 就提供了 web 端的 SDK)或者 Native 的可执行程序进行部署,最后呈现在用户面前的是一个 GUI 。笔者的开源数字人项目(项目地址:https://github.com/wanh/awesomedigitalhumanlive2d)选择了 live2d 作为数字人躯壳,因为这类 SDK 的驱动方式相比现在的 AI 生成式的方式更加可控和自然,相比虚幻引擎这些驱动方式又更加轻量和简单;另外超写实的数字人风格在目前的技术能力下,处理不好一致性问题,容易带来虚假的感觉或者产生恐怖谷效应,而卡通二次元的形象给人的接受度更高。关于 live2d 的 SDK 驱动方式可以参考官方示例:https://github.com/Live2D 。 相关算法开源代码: 1. ASR 语音识别: openai 的 whisper: https://github.com/openai/whisper wenet: https://github.com/wenete2e/wenet speech_recognition(这是一个语音识别的接口集合,里面有不同实现的语音识别的接口): https://github.com/Uberi/speech_recognition 2. AI Agent: 大模型部分:包括 ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等等。 Agent 部分:可以使用 LangChain 的模块去做自定义,里面基本包含了 Agent 实现的几个组件 3. TTS: 微软的 edgetts:https://github.com/rany2/edgetts,只能使用里面预设的人物声音,目前接口免费。 VITS:https://github.com/jaywalnut310/vits,还有很多的分支版本,可以去搜索一下,vits 系列可以自己训练出想要的人声。 sovitssvc: https://github.com/svcdevelopteam/sovitssvc,专注到唱歌上面,前段时间很火的 AI 孙燕姿。 除了算法,人物建模模型可以通过手动建模(音频驱动)或者 AIGC 的方式生成人物的动态效果(例如 wav2lip 模型)实现,这样就完成了一个最简单的数字人。当然这种简单的构建方式还存在很多的问题,例如: 1. 如何生成指定人物的声音? 2. TTS 生成的音频如何精确驱动数字人口型以及做出相应的动作? 3. 数字人如何使用知识库,做出某个领域的专业性回答?
2024-11-06
开源大模型ChatGLM 系列有哪些版本
ChatGLM 系列的开源版本包括: ChatGLM36B:第三代 ChatGLM 对话模型,采用全新设计的 Prompt 格式,原生支持工具调用、代码执行和 Agent 任务等复杂场景。 ChatGLM36Bbase:第三代 ChatGLM 基座模型,采用更多样的训练数据、更充分的训练步数和更合理的训练策略,在 10B 以下的基础模型中性能较强。 ChatGLM36B32k:第三代 ChatGLM 长上下文对话模型,在 ChatGLM36B 的基础上进一步强化了对长文本的理解能力,能处理最多 32K 长度的上下文。
2024-11-04
智谱清言的开源大模型哪些种类
智谱清言的开源大模型种类包括: 多模态模型: CogAgent18B:基于 CogVLM17B 改进的开源视觉语言模型,拥有 110 亿视觉参数和 70 亿语言参数,支持 11201120 分辨率的图像理解,具备 GUI 图像的 Agent 能力。代码链接:、始智社区。 CogVLM17B:强大的开源视觉语言模型(VLM),在多模态权威学术榜单上综合成绩优异。代码链接:。 Visualglm6B:开源的支持图像、中文和英文的多模态对话语言模型,语言模型基于 ChatGLM6B,具有 62 亿参数;图像部分通过训练 BLIP2Qformer 构建起视觉模型与语言模型的桥梁,整体模型共 78 亿参数。代码链接:。 RDM:Relay Diffusion Model,级联扩散模型,可以从任意给定分辨率的图像快速生成,而无需从白噪声生成。代码链接:。 此外,智谱清言是智谱 AI 和清华大学推出的大模型产品,基础模型为 ChatGLM 大模型。2023 年 10 月 27 日,智谱 AI 于 2023 中国计算机大会(CNCC)上,推出了全自研的第三代基座大模型 ChatGLM3 及相关系列产品。智谱清言在工具使用排名国内第一,在计算、逻辑推理、传统安全能力上排名国内前三。总体来看,智谱清言更擅长专业能力,但在代码能力上还有一定优化空间,知识百科与其他第一梯队模型相比稍显不足。综合来看,智谱清言是一个很有竞争力的大模型。可应用的场景相对广泛,根据 SuperCLUE 测评结果,优先推进在 AI 智能体方面相关的应用,包括任务规划、工具使用及一些长文本记忆相关的场景。另外在较复杂推理应用上的效果会比较不错,在广告文案、文学写作方面也是一个很好的选择。
2024-11-04
像midjournal这样的国内外AI绘画社区
以下是为您介绍的像 Midjourney 这样的国内外 AI 绘画社区相关内容: Midjourney 是 AI 绘图领域家喻户晓的产品。其优点在于模型强大,能生成高质量图像,且支持充分的个性化设置。但使用过程不太便捷,需要通过 Discord 应用加入其频道或创建自己的频道并邀请 Midjourney 机器人才能生成图片。从学习难度来看,它的学习曲线较陡峭,在用户体验和易用性方面有待改进。 在“学社说明”中提到,大家一起收集和测试 AI 绘画提示词中的核心关键词,让新手规避无效探索,为相关从业人员节省时间。招募有 Midjourney 账号且喜欢 AI 绘画的人员,扫飞书二维码进群。根据关键词做创意,收录不错的作品。 在“AI 线上绘画教程”中提到,工作中需要大量图片时,AI 生图是高效的解决办法。主流的 Midjourney 付费成本高,Stable Diffusion 硬件门槛不低,但有像这样的免费在线 SD 工具网站。本教程旨在让入门玩家在半个小时内自由上手创作绘图。
2024-11-12
stable diffusion 绘画
以下是关于 Stable Diffusion 绘画的相关内容: 如果您是运营网店的女装店主,在没有资金请模特的情况下,可以用 Stable Diffusion 来制作商品展示图。具体步骤如下: 1. 真人穿衣服拍照,并获取具有真实质感的照片。若身材方面有问题,可借助美图秀秀或 PS 处理。 2. 选好底模,一定要是 realistic 的、真人照片风格的底模,如 majicmixRealistic_v7。 3. 进行换头操作,根据不同平台需求更换,如面向海外市场换白女头,面向中老妇女换妈妈头。 4. 在图生图下的局部重绘选项卡下涂抹自己替换的部分,并设置好 prompts 和 parameters,如“breathtaking cinematic photo, masterpiece, best quality, , blonde hair, silver necklace, carrying a white bag, standing, full body, detailed face, big eyes, detailed hands”。 关于 Stable Diffusion 的工作原理,就像学习画画临摹梵高的作品一样。您花四十年学习的梵高风格相当于 Stable Diffusion 的大模型——Checkpoint。人们将成千上万美术风格的作品练成模型放入 AI 中,AI 就能依照模型画出类似风格的作品。要画出符合心意的作品,首先要选对合适的大模型。大模型可在 C 站(https://civitai.com/)下载,但需要科学上网。有真实系的(Chillmixout)、二次元的(anything)、游戏 CG 风(ReV Animated)等。 用 Stable Diffusion 时,可以把自己想象成画家。在起笔前要确定照片风格,如二次元动漫、三次元现实照片或盲盒模型。确定风格后切换大模型,不同模型代表不同照片风格,即 SD 界面左上角的“Stable Diffusion 模型”。若想生成真人 AI 小姐姐,可选用 chilloutmix 的大模型。关于模型的获取和存放位置,后续会详细介绍。
2024-11-08
如何用两张照片,合成一张绘画效果的图
以下是将两张照片合成为一张绘画效果的图的步骤: 1. 利用 Dalle3 绘图,根据以下提示词分别把高中和大学时期的内容绘制成两幅四格漫画: 高中:中午,急急忙忙跑到食堂,排长队买饭。 大学:中午,懒洋洋在宿舍点外卖,直接送到宿舍楼下。 2. 利用 Python 进行图片处理: 统一设置:使用上传的字体,字体颜色黑色。 首先: 在每张图片的上面创建一个空白的白色背景区域(从原图片进行延长,而不是遮盖原图),用来放置文字(高中的图片写上“高中”,大学的图片写上“大学”)。 文字的字体大小设置成 65px,居中显示。 然后: 在图片下方创建一个空白的白色背景区域(从原图片进行延长,而不是遮盖原图),用来放置文字(高中的图片写上),如果句子过长,要注意换行显示。 文字的字体大小设置成 45px,居中显示。 最后把两张图片拼成一张图,高中的图片在左,大学的图片在右。两张图中间放置 50px 的空白区域。 另外,还有一些相关的知识供您参考: Double Exposure 是一种视觉艺术风格,将两个或多个照片合成到一起,创建出具有艺术效果的图像,灵感来自于传统的双重曝光摄影技术。最佳提示词:Double Exposure。 在 Stable Diffusion 中,可以使用【X/Y/Z plot】脚本来做参数对比,例如将 X 轴设置为提示词相关性,取值范围是 1 30。通过对比找到合适的参数,如提示词相关性在 6 11 中间为最佳。还可以使用绘图功能进行局部修改,如增加红色眼镜、去掉衣服上的图案、更换头部或帽子等部分。
2024-11-04
用现有的搭建一个ai网站 实现绘画 聊天 会员 积分 等功能
以下是搭建一个具备绘画、聊天、会员、积分等功能的 AI 网站的步骤: 1. 搭建 OneAPI(https://github.com/songquanpeng/oneapi),用于汇聚整合多种大模型接口,方便后续更换使用各种大模型,同时会告知如何白嫖大模型接口。 2. 搭建 FastGpt(https://fastgpt.in/),这是一个知识库问答系统,将知识文件放入,并接入上面的大模型作为分析知识库的大脑,最后回答问题。若不想接入微信,搭建到此即可,其有问答界面。 3. 搭建 chatgptonwechat(https://github.com/zhayujie/chatgptonwechat)接入微信,并配置 FastGpt 将知识库问答系统接入微信。建议先用小号以防封禁风险。若想拓展功能,可参考 Yaki.eth 同学的教程(https://waytoagi.feishu.cn/wiki/UADkwZ9B0iAWdTkFJIjcN7EgnAh),其中的 cow 插件能实现文件总结、MJ 绘画等能力。 在积分和会员方面,以下是一些相关的活动形式和积分设置示例: 吵爷帮助技能持有者在社区实现虚拟 IPO 审核服务。 Larkspur:扣子 bot 文案生图体验| 10 积分,扣子虚拟女友体验| 10 积分,帮你把 Siri 接入 Llama 3 70B |10 积分。 勿忘心安 Dify 本地部署不成功不要积分 10 积分一次。 Penny 给你解梦,并还原场景 10 积分。 Rachel 倩敏 宠物照片变毛毡头像 5 积分一个,before after 合并呈现 10 积分一个。 梦飞 给全国所有的项目做聚合平台,用户体验一次抽成 3 5 积分。 David 为社区用户做积分银行,可超前消费,存 10 个积分,利息 1 个积分,贷 10 个积分,利息 2 个积分,并为项目 IPO 提供融资服务。 波大波吗 5 分钟,让你的微信变成 chatgpt + MJ + SD +....+ 新闻专家 20 积分一次。 琥珀川 教你用 ai 技能接单、创业 10 积分。 大满满 简约的 mj 转模型|随喜积分。 Matteo 工作日晚 8 11 点,提供微信 1 对 1 视频聊天 30min,互通获取 AI 信息的渠道 + 漫聊 AI 相关使用体验思考 1 积分。 桂大阳 风景壁纸一张 10 积分、手机壳图案 + 手机壳效果图 10 积分。 镜 教你画小鹿动画表情包一个 10 积分,5 个 60 积分,8 个 100 积分。教你如何手绘蒙娜丽莎 10 积分一次,一次 10 分钟。教你做小鹿角色 2 维转 3D 一个 20 积分。 易求无方 与你的虚拟人进行一次心灵交流 20 积分,与你进行一次心灵交流 10 积分。 游小言 虚拟 IP 打造,给视频换脸,一次 10 积分,支持以技能易技能。
2024-11-04
绘画提示词
以下是关于绘画提示词的相关信息: 提示词语法: 根据想画的内容写出提示词,多个提示词之间使用英文半角逗号将权重降低至原先的 90.91%,将权重减少为原先的 25%。 风格提示词: pointillism 点彩派、Claude Monet 克劳德莫奈、quilted art 桁缝艺术、partial anatomy 局部解剖、color ink on paper 彩墨纸本、doodle 涂鸦、Voynich manuscript 伏尼契手稿、book page 书页、realistic 真实的、3D 3D 风格、sophisticated 复杂的、photoreal 真实感、national geographic 国家地理、hyperrealism 超写实主义、cinematic 电影股的、architectural sketching 建筑素描、symmetrical portrait 对称肖像、clear facial features 清晰的面部特征、interior design 室内设计、weapon design 武器设计、subsurface scattering 次表面散射、Game scene graph 游戏场景图、character concept art 角色概念艺术 图像类 Prompt 网站: MidLibrary:Midjourney 最全面的流派、艺术技巧和艺术家风格库, MidJourney Prompt Tool:类型多样的 promot 书写工具,点击按钮就能生成提示词修饰部分, OPS 可视化提示词:这个网站有 Mid Journey 的图片风格、镜头等写好的词典库,方便快速可视化生成自己的绘画提示词, AIart 魔法生成器:中文版的艺术作品 Prompt 生成器, IMI Prompt:支持多种风格和形式的详细的 MJ 关键词生成器, Prompt Hero:好用的 Prompt 搜索,Search prompts for Stable Diffusion,ChatGPT & Midjourney, OpenArt:AI 人工智能图像生成器, img2prompt:根据图片提取 Prompt, MidJourney 提示词工具:专门为 MidJourney 做的提示词工具,界面直观易用, PromptBase:Prompt 交易市场,可以购买、使用、销售各种对话、设计 Prompt 模板, AiTuts Prompt:精心策划的高质量 Midjourney 提示数据库,提供广泛的不同风格选择,
2024-10-29
推荐一款可以根据指令进行绘画的ai
以下为您推荐几款可以根据指令进行绘画的 AI: 1. Midjourney:目前是一款容易上手的 AI 绘图工具,对于新手是不错的入门选择。现阶段的 AI 能辅助进行设计,视觉效果吸睛。在 Midjourney 中没有固定的 Prompt来生成某种 APP,具体想要的效果需要多多尝试。可以使用指令模板:「ui design forapplication,mobile app,iPhone,iOS,Apple Design Award,screenshot,single screen,high resolution,dribbble」,把里面的“类型”替换成您想设计的产品的关键词描述(英文),就能生成想要的 UI 设计图。例如出行类关键词:「距离、车费、费用结算、优惠金额、地图」等;餐饮类关键词:「介绍咖啡的特色、口味、咖啡豆产地、价格」等;运动类关键词:「卡路里、步数、距离、某种运动」等描述。 2. 古德齐尔德女士尝试让 AI 通过执行著名艺术家 Sol LeWitt 的指令并生成 Javascript 代码来创建艺术品。使用 OpenAI 的旧模型 GPT3 时大多失败,但 GPT4 对部分指令表现不错。例如在一个墙面上,任何连续的墙面,使用硬铅笔,在随机位置放置 50 个点。这些点应该均匀分布在墙面的面积上。所有点都应该通过直线连接起来。
2024-10-27
ollama嵌入向量在模型后有什么用
嵌入向量在模型后的作用主要体现在以下方面: 1. 用于文档内容的表示和检索:将文档分成块,计算嵌入向量并存储在向量存储中,在测试时通过查询向量存储获取可能与任务相关的块,填充到提示中进行生成。 2. 提升模型的检索能力:在大语言模型应用程序中,向量存储成为检索相关上下文的主要方式,嵌入向量有助于更高效地获取相关信息。 3. 支持多语言和不同粒度的检索任务:例如像 bgem3 这样的向量模型,支持超过 100 种语言的语义表示及检索任务,能实现句子、段落、篇章、文档等不同粒度的检索。 在实际应用中,如在 LangChain 中,本地向量存储使用量较大,而在计算文本片段的嵌入时,OpenAI 占据主导地位,开源提供商如 Hugging Face 等也被较多使用。
2024-11-12
国内文生图大模型,有哪些?
以下是一些国内的文生图大模型: 百度的文心一言:https://wenxin.baidu.com 抖音的云雀大模型:https://www.doubao.com 智谱 AI 的 GLM 大模型:https://chatglm.cn 中科院的紫东太初大模型:https://xihe.mindspore.cn 百川智能的百川大模型:https://www.baichuanai.com/ 商汤的日日新大模型:https://www.sensetime.com/ MiniMax 的 ABAB 大模型:https://api.minimax.chat 上海人工智能实验室的书生通用大模型:https://internai.org.cn 此外,真人效果卓绝的大模型 lofi.v2 也可用于生成真实场景下的字体。在使用 SDXL 大模型时,其分为 base+refiner 以及配套的 VAE 模型,base 用于文生图操作,refiner 用于细化生成的模型,VAE 用于调节图片效果和色彩。要在 webUI 中使用,需将秋叶启动器中 webUI 的版本升级到 1.5 以上,并将模型放入对应文件夹。
2024-11-12
我想了解一下关于模型微调的知识
以下是关于模型微调的知识: 介绍:微调可让您从 API 提供的模型中获得更多收益,比如比即时设计更高质量的结果、能够训练比提示中更多的例子、由于更短的提示而节省了 Token、更低的延迟请求。GPT3 已在大量文本上预训练,微调通过训练更多示例改进小样本学习,让您在大量任务中取得更好结果。对模型微调后,无需在提示中提供示例,可节省成本并降低延迟。在高层次上,微调涉及准备和上传训练数据、训练新的微调模型、使用微调模型。 哪些模型可以微调:微调目前仅适用于以下基础模型:davinci、curie、babbage 和 ada。还可以继续微调微调模型以添加其他数据,无需从头开始。 微调的概念和意义:在人工智能领域,通常根据应用领域将大模型分为通用大模型和领域特定模型。通用大模型如 GPT4.0、GPT3.5 等具有广泛的自然语言理解能力,但在特定领域表现可能不理想。对大模型针对特定领域进行的训练过程称为微调,通过在特定领域数据上训练,优化所有层参数,提高在该领域的专业性。微调可节省成本、加快模型部署和应用速度。 相关应用开发:除了调用 ChatGPT 之外,还需学会模型微调、设计 Prompt、优化用户交互的解决方案等。在开发中,程序读取结构化数据,如 JSON 格式。通过稳定的提示词设计及一些模型参数(如温度 Temperature 等)来让 ChatGPT 保持稳定输出。
2024-11-12
可以调用不同大预言模型的整合工具推荐
以下是为您推荐的可以调用不同大语言模型的整合工具: 1. Poe:由 Quora 开发,有 APP 版本,支持跨端使用。集成了 Chat GPT、GPT4、Claude+、Claude、Dragonfly 等模型,同时支持用户自建 Chatbot。不同语言模型回复效果有差异,适合需要调用多种大语言模型的用户。访问地址: 。Dragonfly 擅长给出较短的回答,并擅长在输入中给出示例时遵循指示。Claude 更擅长创造性回复,配合 Poe 中的提问引导,非常适合在查阅资料时使用,有时能够给出超越直接使用 Chat GPT 时的体验(但和 Chat GPT 一样,Claude 也时常会给出一些错误回复,一些问题可以尝试在两个模型中都问一遍提升信息准确性)。此外支持分享用户和模型的对话内容,但 GPT4、Claude+产品需要付费订阅使用。 2. 国内的一些模型,如智谱和文心,在文生图方面有一定能力。 另外,大模型工具可根据自身条件准备,推荐顺序为:1. chatGPT 4.0 2. kimichat 3. 智谱清言 4 。
2024-11-12
国内外大预言模型对比
以下是国内外大语言模型的对比情况: 1. 工具使用能力: 在工具使用的测评中,GPT4 Turbo 取得满分。 国内大模型中智谱清言表现不俗,取得 83.78 的高分,排名国内第一。文心一言 4.0、通义千问 2.0、Yi34BChat、AndesGPT 均有超过 70 分的表现。超过 GPT3.5 的国内模型有 12 个。 开源模型中,Baichuan213BChat、Xverse13B2Caht 表现可圈可点,均超过 GPT3.5 以及众多闭源模型。总体来看,国内大模型在工具使用能力上表现优异,这与国内大模型厂商积极落地应用密不可分。 2. 主观和客观对比: 通过对比模型在主观简答题 OPEN 和客观选择题 OPT 上的不同表现,国内大模型多数擅长做选择题,普遍选择题分数高于简答题分数。文心一言 4.0 和智谱清言表现相对稳定。 GPT4 Turbo 的表现最为稳定。 客观题相对主观题更容易通过题库形式进行训练和提升,同时由于客观题中包含中文特性问题,中文模型有一定优势,应综合来看模型的评测效果。 在本次测评中,国外的代表性大模型如 GPT4 的不同版本、Claude2、Llama2 都有很好的稳定性表现,值得国内大模型进一步分析研究。 3. 总体表现: GPT 4 Turbo 总分 90.63 分遥遥领先,高于其他国内大模型及国外大模型。国内最好模型文心一言 4.0有 4.9 分的差距。 过去 1 年国内大模型有长足进步,综合能力超过 GPT 3.5 和 GeminiPro 的模型有 11 个。 在 SuperCLUE 测评中,国外模型的平均成绩为 69.42 分,国内模型平均成绩为 65.95 分,差距在 4 分左右。国内外的平均水平差距在缩小,11 月差距在 10 分左右。 国内开源模型在中文上表现好于国外开源模型,如百川智能的 Baichuan213BChat、阿里云的 Qwen72B、Yi 34BCha t 均优于 Llama213BChat。
2024-11-12
利用gpt-4模型的AI工具有哪些
以下是一些利用 GPT4 模型的 AI 工具: 1. Kickresume 的 AI 简历写作器:使用 GPT4 语言模型自动生成简历,能为简历摘要、工作经验和教育等专业部分编写内容,并保持一致语调。 2. Rezi:受到超过 200 万用户信任的领先 AI 简历构建平台,使用先进的 AI 技术自动化创建可雇佣简历的各个方面,包括写作、编辑、格式化和优化。 3. Huntr 的 AI 简历构建器:提供免费的简历模板,以及 AI 生成的总结/技能/成就生成器和 AI 驱动的简历工作匹配。 更多 AI 简历产品,还可以查看这里:https://www.waytoagi.com/category/79 。您可以根据自己的需要选择最适合的工具。 此外,在生成式人工智能领域,GPT4 有以下突破点: 1. 赋予模型使用工具的能力,如 OpenAI 推出的 ChatGPT 插件测试版,允许与多种工具交互。 2. 在计划和解决问题方面具有一定能力,能通过玩游戏或模拟环境快速学习和从经验中学习。 3. 在许多任务上达到人类水平的表现,对人类的理解有所提升。 4. 但也存在一些限制,如架构中的自回归特性导致缺乏规划能力等。
2024-11-12
目前能力最强的AI是什么?
目前能力最强的 AI 是 GPT4。GPT4 是功能最强的人工智能写作工具,您可以在 Bing(选择“创新模式”)上免费访问,或者通过购买 ChatGPT 的$20/月订阅来使用。Claude 也是表现出色的 AI,紧随其后,并且提供了有限的免费选项。这些工具还被直接集成到常见的办公应用程序中,例如 Microsoft Office 将包括一个由 GPT 提供支持的副驾驶,Google Docs 将整合 Bard 的建议。
2024-11-12
目前评价最高的OA相关的AI应用是?
以下是一些评价较高的与 OA 相关的 AI 应用: BOSS 直聘简历筛选功能:利用自然语言处理和机器学习技术,快速筛选简历,提高招聘效率。 贝壳找房租赁管理功能:通过数据分析和自然语言处理技术,管理房地产租赁业务,提高效率。 腾讯游戏社交平台:借助数据分析和机器学习技术,为玩家提供社交平台,增强游戏体验。 彩云天气 APP:运用数据分析和机器学习技术,提供准确的天气预报预警,保障生命财产安全。 下厨房口味调整功能:使用自然语言处理和数据分析技术,根据用户反馈调整菜谱口味。 英语流利说纠错功能:基于自然语言处理和机器学习技术,帮助语言学习者纠正错误。 豆瓣电影剧情分析工具:利用数据分析和自然语言处理技术,分析电影剧情,提供深度解读。 腾讯文档分类功能:依靠数据分析和机器学习技术,自动分类办公文件,方便管理。 美丽修行定制方案功能:凭借图像识别和数据分析技术,根据用户肤质定制护肤方案。 宝宝树安全座椅推荐:借助数据分析和机器学习技术,为家长推荐合适的儿童安全座椅。 途虎养车保养推荐:通过数据分析和机器学习技术,根据车辆情况推荐保养套餐。 丰巢快递柜管理系统:利用数据分析、物联网技术,优化快递柜使用效率。 智联招聘面试模拟功能:运用自然语言处理和机器学习技术,帮助求职者进行面试模拟。 酷家乐装修设计软件:使用图像生成和机器学习技术,为用户提供装修设计方案。
2024-11-10
目前最先进的AI自动生成视频的软件
目前较为先进的 AI 自动生成视频的软件有以下几种: 1. Pika:一款出色的文本生成视频 AI 工具,擅长动画制作,并支持视频编辑。 2. SVD:若熟悉 Stable Diffusion,可安装此最新插件,能在图片基础上直接生成视频,由 Stability AI 开源。 3. Runway:老牌 AI 视频生成工具,提供实时涂抹修改视频的功能,收费,年初在互联网爆火。由一家总部位于旧金山的 AI 创业公司制作,其 Gen2 代表了当前 AI 视频领域最前沿的模型,能通过文字、图片等方式生成 4 秒左右的视频,致力于专业视频剪辑领域的 AI 体验,同时也在扩展图片 AI 领域的能力。目前支持在网页、iOS 访问,网页端有 125 积分的免费试用额度(可生成约 105 秒视频),iOS 有 200 多,两端额度不同步。官方网站:https://runwayml.com/ 。Gen1 的主要能力有视频生视频、视频风格化、故事版、遮罩等,仅支持视频生视频是 Gen1 和 Gen2 的最大差异。Gen1 使用流程可参考:Gen1 能力介绍:https://research.runwayml.com/gen1 ;Gen1 参数设置:https://help.runwayml.com/hc/enus/articles/15161225169171 ;也可通过视频学习:https://youtu.be/I4OeYcYf0Sc 。 4. Kaiber:视频转视频 AI,能够将原视频转换成各种风格的视频。 5. Sora:由 OpenAI 开发,可以生成长达 1 分钟以上的视频。 此外,还有以下一些相关软件: |网站名|网址|费用|优势/劣势|教程| |||||| |luma||30 次免费|| |Kling|kling.kuaishou.com||支持运动笔刷,1.5 模型可以直出 1080P30 帧视频|| |hailuoai|https://hailuoai.video/|新账号 3 天免费,过后每天 100 分|非常听话,语义理解能力非常强|| |Opusclip|https://www.opus.pro/||利用长视频剪成短视频|| |Raskai |https://zh.rask.ai/||短视频素材直接翻译至多语种|| |invideoAI |https://invideo.io/make/aivideogenerator/||输入想法>自动生成脚本和分镜描述>生成视频>人工二编>合成长视频|| |descript |https://www.descript.com/?ref=feizhuke.com|||| |veed.io|https://www.veed.io/|一次免费体验|自动翻译自动字幕|| |clipchamp |https://app.clipchamp.com/|免费,高级功能付费|| |typeframes |https://www.revid.ai/?ref=aibot.cn|有免费额度|| 更多的文生视频的网站可以查看这里: 。请注意,以上内容由 AI 大模型生成,请仔细甄别。
2024-11-08
目前有哪些值得关注的AIGC短片
以下是一些值得关注的 AIGC 短片: AIGC Weekly 76 中: Luma AI 发布的 Dream Machine 视频生成模型,图生视频表现惊艳,如美少女混剪(https://x.com/KakuDrop/status/1800928377693687890)和可爱怪物动画(https://x.com/LumaLabsAI/status/1800921393321934915)。 用已有的表情包图片生成的视频也生动搞笑,如奥斯卡合影图片(https://x.com/fofrAI/status/1801198998289608925)。 作者自己跑的测试(https://x.com/op7418/status/1801138865224454480)总结了一些要点。 Luma 官方发布的视频(https://x.com/op7418/status/1801828221996122144)介绍了模型特点和擅长内容。 AIGC Weekly 95 中: 将视频拆分为各个层级的 Demo(https://x.com/dmvrg/status/1851480809477455899)。 Midjourney 的图片编辑加上 C4D 渲染的 Framer LOGO(https://x.com/andyorsow/status/1851771716852420632)。 两个同事计划午餐约会的短片(https://x.com/iamneubert/status/1851615112878076164)。 Nicolas 这段 AI 视频素材混剪(https://x.com/iamneubert/status/1851256571856052467)。 此外,浙江在线报道了 AI 春晚,如《10 万人观看的这场 AI 春晚,有何不同》(https://china.zjol.com.cn/pinglun/202402/t20240212_26647577.shtml)提到了 Way to AGI 社区组织的相关情况。
2024-11-08
目前有小程序的AI工具有哪些?
目前常见的小程序 AI 工具包括以下几类: 编程相关: GitHub Copilot:由 GitHub 联合 OpenAI 和微软 Azure 团队推出,支持多种语言和 IDE,能为程序员快速提供代码建议。 通义灵码:阿里巴巴团队推出,提供多种编程辅助能力。 CodeWhisperer:亚马逊 AWS 团队推出,由机器学习技术驱动,实时提供代码建议。 CodeGeeX:智谱 AI 推出的开源免费编程助手,基于 130 亿参数的预训练大模型。 Cody:Sourcegraph 推出的代码编写助手,借助强大的代码语义索引和分析能力。 CodeFuse:蚂蚁集团支付宝团队为国内开发者提供的免费 AI 代码助手。 Codeium:AI 驱动的编程助手,提高编程效率和准确性。更多辅助编程 AI 产品,可查看:https://www.waytoagi.com/category/65 。 其他应用: 医疗诊断辅助:如平安好医生 APP 中的 AI 医疗诊断辅助系统,辅助医生进行疾病诊断,提高诊断准确性。 会议记录生成:如腾讯会议的 AI 会议记录生成工具,自动生成会议记录,方便回顾和整理。 书法字体生成:如字体管家 APP 中的 AI 书法字体生成器,生成各种风格的书法字体。 摄影构图建议:如醒图 APP 中的 AI 摄影构图建议工具,为摄影爱好者提供构图建议,提升照片质量。 此外,适合 4 岁儿童练习英语口语的 AI 工具包括: :通过游戏和互动活动教孩子英语,提供多种课程,有家长仪表板可跟踪孩子进度。 :提供英语等多种语言课程,使用多种教学方法,有社区功能可与其他孩子练习口语。 :用抽认卡和游戏教孩子英语,提供多种课程,有社交功能可与亲友一起学习。 :使用沉浸式方法教英语,有语音识别功能帮助练习发音。 :免费语言学习应用,使用游戏化方法让学习有趣,提供多种课程。 为 4 岁儿童选择 AI 英语口语学习工具时,要考虑孩子的年龄、兴趣和学习风格,以及应用程序的功能和成本。
2024-11-04
为什么国内目前仍有一些人在盲目夸耀国产AI不错,有出息,等等
国内在 AI 领域的发展情况较为复杂。在 2023 年之前,国内 AI 行业曾自认为与美国差距不大且有人口数据优势,但 ChatGPT 和 GPT4 的出现打破了这种认知,直接拉开了 2 年的技术差距。上半年国内坚信靠资金和卡能发展,但试验后发现不易,下半年纷纷转向“垂直应用”“商业化”,不提 AGI,这种转向是短视且致命的。目前国内最领先的模型水平大概在准 ChatGPT3.5,与 GPT4 有差距。 国内大厂在人才、GPU、数据和资金储备上有冲击 AGI 的能力,但受内部短期考核压力等影响,实际效果不明显。具体来说,百度的“文心 4.0”和阿里的“通义千问”是比较突出的。同时,智谱一年间推出了 4 代 GLM,MiniMax 推出了新模型和“星野”APP,月之暗面在长 Token 能力上表现不错。 在图像 AI 领域,国内产品发展迅速,如快手团队开发的“可灵”能生成高质量图像和视频,但价格较高;阿里的“通义万相”在中文理解处理方面出色,操作界面友好,且目前免费,但存在一些局限性。 在硬件层,国内仍面临芯片卡脖子问题,目前没有能胜任大模型训练的芯片,在推理上虽有 Nvidia 的替代产品出现,但华为昇腾因稳定性和生态问题还需时间打磨。
2024-11-03