直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

文生图模型排行

回答

以下是一些常见的文生图模型排行及相关介绍:

  1. Kolors:最近开源的文生图模型中表现出色。从技术报告来看,有更强的中文文本编码器、机造的高质量文本描述、人标的高质量图片、强大的中文渲染能力,以及巧妙的 noise schedule 解决高分辨率图加噪不彻底的问题。实测效果不错,体现了快手的技术实力。
  2. 基于 Diffusion Model 的代表模型:
    • Stable Diffusion
    • Midjourney
    • GLIDE
    • DALL-E 2
    • DALL-E 3 发展阶段为 2022 年至今,受益于开源模式和参数量较少,研究成本相对低,在学术界和工业界的传播和迭代速度快。其原理是通过连续添加高斯噪声来破坏训练数据,然后通过消除噪声来学习如何重建数据。
  3. 基于自回归模型(Auto-regressive Model)的代表模型:
    • DALL-E
    • CogView
    • CogView2
    • Parti
    • CM3leon 发展阶段为 2020 年至今,囿于闭源模式和参数量较大,研究成本高,迭代速度慢于 Diffusion Model。其原理是 Encoder 将文本转化成 token,经特征融合后,由训练好的模型 Decoder 输出图像。
  4. Red_Panda:文生图模型黑马,霸榜 Hugging Face,超越了 Midjourney、Flux 等。
内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

模型能力简介

Kolors可以说是最近开源的文生图模型中最给力的一个了。从技术报告来看,改进也是很全面的,更强的中文文本编码器、机造的高质量文本描述、人标的高质量图片、强大的中文渲染能力,以及巧妙的noise schedule解决高分辨率图加噪不彻底的问题。可以说是目前主流的文生图训练技巧都用上了,实测效果也确实很不错。在看到Kling视频生成的强大表现,不得不让人赞叹快手的技术实力。

质朴发言:一文纵览文生图/文生视频技术发展路径与应用场景|Z 研究第 1 期

基于Diffusion Model3.1.发展阶段:2022年至今,受益于开源模式和参数量较少,研究成本相对低,在学术界和工业界的传播和迭代速度快3.2.原理:Diffusion Model通过连续添加高斯噪声来破坏训练数据,然后通过消除噪声来学习如何重建数据3.3.代表模型:Stable Diffusion、Midjourney、GLIDE、DALL-E 2、DALL-E 3基于自回归模型(Auto-regressive Model)4.1.发展阶段:2020年至今,囿于闭源模式和参数量较大,研究成本高,迭代速度慢于Diffusion Model4.2.原理:自回归模型Encoder将文本转化成token,经特征融合后,由训练好的模型Decoder输出图像4.3.代表模型:DALL-E、CogView、CogView2、Parti、CM3leon

10月盘点:AI 行业大事记

文生图模型黑马Red_Panda霸榜Hugging Face,把一众老前辈Midjourney、Flux全部踩在脚下。[报道@机器之心](https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650941110&idx=2&sn=5115eccaeb0fc9158b4f5d75223089a7&scene=21#wechat_redirect)

其他人在问
文生视频工具
以下是一些文生视频工具: 1. Pika:出色的文本生成视频 AI 工具,擅长动画制作,支持视频编辑。 2. SVD:Stability AI 开源的 video model,可在图片基础上直接生成视频,适合熟悉 Stable Diffusion 的用户。 3. Runway:老牌 AI 视频生成工具,提供实时涂抹修改视频功能,但收费。 4. Kaiber:视频转视频 AI,能将原视频转换成各种风格的视频。 5. Sora:由 OpenAI 开发,可生成长达 1 分钟以上的视频。 另外,根据视频脚本生成短视频的工具包括: 1. ChatGPT + 剪映:ChatGPT 生成视频小说脚本,剪映根据脚本自动分析并生成素材和文本框架。 2. PixVerse AI:在线 AI 视频生成工具,支持将多模态输入转化为视频。 3. Pictory:AI 视频生成器,用户提供文本描述即可生成相应视频内容。 4. VEED.IO:提供 AI 图像生成器和 AI 脚本生成器,帮助从图像制作视频并规划内容。 5. Runway:能将文本转化为风格化的视频内容,适用于多种场景。 6. 艺映 AI:专注于人工智能视频领域,可根据文本脚本生成视频。 更多的文生视频网站可查看:https://www.waytoagi.com/category/38 。 同时,还有关于清影的文生视频示例,如“9、吗喽打工”“10、赛博吗喽黑客(体现指令跟随能力)”“11、老奶奶”等,具体视频可通过相应链接查看。
2024-11-24
文生视频
以下是关于文生视频的相关信息: “文生视频”是指使用人工智能技术将文本内容转换成视频的服务。一些国内外提供此类功能的产品有: 1. Pika:非常出色的文本生成视频 AI 工具,擅长动画制作,并支持视频编辑。 2. SVD:如果熟悉 Stable Diffusion,可以直接安装这款最新的插件,在图片基础上直接生成视频,这是由 Stability AI 开源的 video model。 3. Runway:老牌 AI 视频生成工具,提供实时涂抹修改视频的功能,但需要注意是收费的。 4. Kaiber:视频转视频 AI,能够将原视频转换成各种风格的视频。 5. Sora:由 OpenAI 开发,可以生成长达 1 分钟以上的视频。 更多的文生视频的网站可以查看:https://www.waytoagi.com/category/38 。 Sora 的应用包括文生视频、图生视频、视频反推、视频编辑、视频融合等。其模型推理策略中,文生视频的做法是喂入 DiT 的为文本 embedding+全噪声 patch;视频编辑类似 SDEdit 的做法,在视频上加点噪声(不要搞成全是噪声),然后拿去逐步去噪;图生视频、视频反推、视频融合则是喂入 DiT 的为文本 embedding(可选)+特定帧用给定图片的 embedding+其他帧用全噪声 patch。 文生视频是 AI 生成视频中最直接的一种方式,通过输入提示词,让 PixVerse 生成视频。这种方式简单快速,但需要对提示词有较为深入的了解,能够准确描述画面内容,提示词的基本规则可以参考:。为方便创作,还提供了灵感分镜,风格选择等功能,帮助更快掌握文生视频。 内容由 AI 大模型生成,请仔细甄别。
2024-11-24
那个文生视频或图生视频的AI可以生成融合变化的效果
以下是关于文生视频或图生视频的 AI 生成融合变化效果的相关信息: 在人工智能技术迅速发展的当下,AI“词生卡”技术兴起,它将文字描述转化为视觉图像,重塑了创意产业格局。AI 的多模态输出能力已基本成型,包括文生文、文生图、文生码、文生视频、图生视频等,但大多在某个维度能力强,跨界融合还不够。 从生成方式分类,AI 视频生成包含: 1. 文生视频、图生视频,如 Runway、Pika labs、SD + Deforum、SD + Infinite zoom、SD + AnimateDiff、Warpfusion、Stability Animation 等。 一些热门产品如 Luma AI,其 Dream Machine 目前支持 txt2vid 文生视频和 img2vid 图生视频两种能力,8 月底最新发布的 Dream Machine 1.5 增强了提示词理解能力和视频生成能力。Luma AI 的 img2vid 生成效果在多方面表现出色,如生成时长较长、运动幅度大、能产生相机多角度位移、运动过程一致性保持较好、分辨率高且有效改善模糊感等。
2024-11-23
免费文生图
以下是一些免费的文生图工具和相关信息: Pika labs:目前推出了 Beta 版本,支持免费、不限次数地文生视频、图生视频,生成的视频会带上官方水印。官方 Twitter:https://twitter.com/pika_labs 。优秀案例:近期 x 上一个创作者发布的庆祝星球大战 100 周年的短片做的非常成功,这位导演用 Pika labs 产出的视频都非常高质量。 DALL·E:OpenAI 推出的一款文生图工具,可以根据输入的文本描述生成逼真的图片。 StableDiffusion:开源的文生图工具,可以生成高质量的图片,并且支持多种模型和算法。 MidJourney:因其高质量的图像生成效果和用户友好的界面设计而受到广泛欢迎,在创意设计人群中尤其流行。 您还可以在 WaytoAGI 网站(https://www.waytoagi.com/category/104)查看更多文生图工具。 此外,文字生成视频的 AI 产品有: Pika:非常出色的文本生成视频 AI 工具,擅长动画制作,并支持视频编辑。 SVD:如果熟悉 Stable Diffusion,可以直接安装这款最新的插件,在图片基础上直接生成视频。这是由 Stability AI 开源的 video model。 Runway:老牌 AI 视频生成工具,提供实时涂抹修改视频的功能,但需要收费。 Kaiber:视频转视频 AI,能够将原视频转换成各种风格的视频。 Sora:由 OpenAI 开发,可以生成长达 1 分钟以上的视频。 更多的文生视频的网站可以查看:
2024-11-23
文生图反向推出提示词
在文生图中,反向推出提示词的方式主要有以下几种: 1. 在图生图功能中,除了文本提词框外,还有图片框输入口。随便照一张照片拖入后,文本输入框旁边有两个反推提示词的按钮:CLIP 可以通过图片反推出完整含义的句子;DeepBooru 可以反推出关键词组。例如一张小男孩坐在长凳上的图片,通过 CLIP 反推得到的提示词为“a young boy sitting on a bench with a toy train and a lego train set on the floor next to him,Adam Rex,detailed product photo,a stock photo,lyco art”,通过 DeepBooru 反推得到的提示词为“shoes,solo,hat,orange_background,yellow_background,smile,socks,black_hair,sitting,sneakers”。但这两种方式生成的提示词可能存在瑕疵,需要手动补充信息。补充好提示词后,调整宽度和高度,使红框刚好匹配图片,同时注意两个重要参数:提示词相关性和重绘幅度。 2. 利用上一期活动图片反推工作流,使用唯美港风图片进行反推提示词,在大模型后接一个相关模型。上一期活动链接:。 3. 利用抱脸的 joycaption 图片反推提示词,然后在哩布上跑 flux 文生图工作流。joycaption 链接(需要魔法):https://huggingface.co/spaces/fancyfeast/joycaptionprealpha 。文生图工作流: 。在哩布上跑文生图:https://www.liblib.art/modelinfo/e16a07d8be544e82b1cd14c37e217119?from=personal_page 。 在写文生图的提示词时,例如“”。
2024-11-22
文生图模型性能排行
以下是一些文生图模型的性能排行相关信息: Kolors 是最近开源的文生图模型中表现出色的一个。它具有更强的中文文本编码器、高质量的文本描述、人标的高质量图片、强大的中文渲染能力以及巧妙解决高分辨率图加噪问题的 noise schedule,实测效果不错。 PIKA1.0 是一个全新的模型,文生视频和文生图的质量都有大幅度提升。在文生图方面稳定得令人惊讶,3D 和 2D 的动画效果出色。 为全面比较 Kolors 与其他模型的生成能力,构建了包含人工评估、机器评估的全面评测内容。在 KolorsPrompts 评估集中,Kolors 在整体满意度方面处于最优水平,其中画面质量显著领先其他模型。具体的平均分数如下: AdobeFirefly:整体满意度平均分 3.03,画面质量平均分 3.46,图文相关性平均分 3.84。 Stable Diffusion 3:整体满意度平均分 3.26,画面质量平均分 3.5,图文相关性平均分 4.2。 DALLE 3:整体满意度平均分 3.32,画面质量平均分 3.54,图文相关性平均分 4.22。 Midjourneyv5:整体满意度平均分 3.32,画面质量平均分 3.68,图文相关性平均分 4.02。 Playgroundv2.5:整体满意度平均分 3.37,画面质量平均分 3.73,图文相关性平均分 4.04。 Midjourneyv6:整体满意度平均分 3.58,画面质量平均分 3.92,图文相关性平均分 4.18。 Kolors:整体满意度平均分 3.59,画面质量平均分 3.99,图文相关性平均分 4.17。所有模型结果取自 2024.04 的产品版本。
2024-11-18
国内AI排行榜
以下是 9 月国内的部分 AI 产品排行榜: |排名|产品|特性|分类|应用名称|下载量(万)|环比变化|所属公司| ||||||||| |A75+1|异世界回响|原生|情感陪伴|异世界回响AI 虚拟好友聊天对话|<10|0.2302|Soul| |A76+1|沉浸式翻译|功能|翻译|沉浸式翻译 Safari 扩展|<10|0.0994|书同文网络| |A77+1|美趣 AI|原生|图片生成|美趣 AIAI 绘画&视频&写作生成神器|<10|0.2002|兴利和| |A78+1|说得相机提词器|功能|写作软件|说得相机提词器文案生成&口播短视频美颜拍摄|<10|0.8782| | |A79+1|AI 智能写作|原生|写作软件|AI 智能写作|<10|0.0453|汉酷网络| |A80+1|创客贴 AI|功能|平面设计|创客贴设计海报、宣传广告图片制作软件|<10|0.2632|艺源酷科技| |A81+1|360AI 搜索|功能|智慧搜索|360AI 搜索生成式 AI 答案引擎|<10|0.1017|360| |A82+1|图趣 AI|原生|图片生成|图趣AI 绘画图生图软件|<10|0.4896| | |A83+1|Molica AI|原生|图片生成|Molica AI|<10|0.1007| | |A48+1|秘塔 AI 搜索|原生|智慧搜索|秘塔 AI 搜索|10|0.3259|秘塔网络| |A49+1|X Eva|原生|情感陪伴|X EvaAI 克隆人|<10|0.5208|小冰公司| |A50+1|快问 AI|原生|教育|快问 AI学习有问题快问 AI|<10|0.6738|作业帮| |A51+1|我在 AI|原生|情感陪伴|我在 AI|<10|0.0279|有零科技| |A52+1|玖安全能 AI 助手|原生|个人助理|玖安全能 AI 助手 app 官方版|<10|0.0715|玖安网络| |A53+1|WOW|原生|情感陪伴|Wow有趣又懂你的 AI 社区|<10|0.5911|美团| |A54+1|幕布|原生|思维导图|幕布大纲笔记&思维导图|<10|0.7643|字节跳动| |A55+1|Muse AI|原生|音乐生成|Muse AIAI 音乐创作|<10|0.2367|特赞| |A56+1|Glow|原生|聊天机器人|Glow|<10|0.2374|MiniMax| |A84+1|文案宝|原生|个人助理|文案宝AI Bot 智能 nearing 生成器&一键 AI 识图|<10|0.0946| | |A85+1|独响|原生|情感陪伴|独响你的 AI 朋友圈|<10|0.6229|毛线球科技| |A86+1|Cos Love|原生|情感陪伴|Cos Love 虚拟情感聊天|<10|0.7398|探途网络| |A87+1|毒霸姬|原生|个人助理|毒霸姬您的专属 AI 助手|<10|0.4755|海鸟科技| |A88+1|名人朋友圈|原生|情感陪伴|名人朋友圈|<10|0.5807|华中时讯| |A89+1|AI Genie|原生|情感陪伴|AI Genie虚拟社交元宇宙|<10|0.0097|卡瓦科技| |A90+1|AI 人工智能助手|原生|个人助理|AI 人工智能助手|<10|0.0023| | |A91+1|万能 AI 盒子|原生|个人助理|万能 AI 盒子AI 人工智能创作助理|<10|0.0157|杰爱歪| |A92+1|虚拟恋人 AI|原生|情感陪伴|虚拟恋人 AI|<10|0.5661| |
2024-10-30
国产AI排行榜
以下是国产 AI 的月度排行榜: |排名|产品|特性|分类|应用名称|下载量(万)|环比变化|所属公司| ||||||||| |A87+1|Molica AI|原生|图片生成|Molica AI|<10|0.3888| | |A88+1|创客贴AI|功能|平面设计|创客贴设计海报、宣传广告图片制作软件|<10|0.3037|艺源酷科技| |A89+1|脸猫|原生|图片生成|脸猫AI绘画,AI写真,智能换装特效视频一键制作|<10|0.6221| | |A90+1|AiU|原生|小说生成|AiUAI互动小说&虚拟恋人陪伴|<10|0.3845|聆心智能| |A91+1|AI Genie|原生|情感陪伴|AI Genie虚拟社交元宇宙|<10|0.1167|卡瓦科技| |A92+1|Chat Bot|原生|聊天机器人|ChatBot:AI4.0 人工智能绘画写小说 sora 视频|<10|0.131| | |A93+1|图趣 AI|原生|图片生成|图趣AI 绘画图生图软件|<10|0.6398| | |A38+1|秘塔写作猫|原生|写作软件|秘塔写作猫|14|0.3975|秘塔网络| |A39+1|冒泡鸭|原生|情感陪伴|冒泡鸭在 AI 开放世界探索角色故事|14|0.2724|阶跃星辰| |A40+1|秘塔 AI 搜索|原生|智慧搜索|秘塔 AI 搜索|14|0.0981|秘塔网络| |A41+1|开拍|功能|视频生成|开拍提词器·口播神器·高清画质|14|1.7319|美图公司| |A42+1|TalkAI 练口语|原生|教育|TalkAI 练口语AI 视频、对话背单词|13|0.4406|惊叹科技| |A43+1|造梦次元|原生|情感陪伴|造梦次元|13|0.4417|想法流科技| |A44+1|美图设计室|功能|图片生成|美图设计室电商人必备的 AI 设计工具|12|1.4848|美图公司| |A74+1|无界 AI|原生|图片生成|无界 AI二次元 AI 生成艺术 创作无限以致涌现 AI 绘画工具|<10|0.464|杭州超节点| |A75+1|美趣 AI|原生|图片生成|美趣 AIAI 绘画&视频&写作生成神器|<10|0.3573|兴利和| |A76+1|万卷|原生|个人助理|万卷你的智能助理|<10|0.6724|MiniMax| |A77+1|虚拟恋人 AI|原生|情感陪伴|虚拟恋人 AI|<10|0.3173| | |A78+1|MJ 中文极速版|原生|图片生成|MJ 中文极速版全能 AI 绘画创作工具|<10|0.1119| | |A79+1|AI 写作鱼|原生|写作软件|AI 写作鱼智能写作&伪原创改写|<10| | | |A80+1|AI 智能写作|原生|写作软件|AI 智能写作|<10|0.6026|汉酷网络|
2024-09-24
AI数字人排行榜
以下是为您整理的部分 AI 数字人的排行榜信息: 全球高增速 Top50: 28:Bardeen AI,低代码,增速 71,流量系数 0.409 29:AnonChatGPT,AI ChatBots,增速 87.7,流量系数 0.396 30:Remini,图像生成,增速 336,流量系数 0.366 31:TinyWow,生活助理,增速 482,流量系数 0.358 32:suno AI,音乐,增速 2975,流量系数 0.357 33:Lightning AI,AI 训练模型,增速 137,流量系数 0.356 34:PDF ai,pdf,增速 96.7,流量系数 0.351 35:Pixverse,图生视频,增速 160,流量系数 0.333 36:阿里通义千问,AI ChatBots,增速 677,流量系数 0.327 37:Pfpmaker,Avatars,增速 147,流量系数 0.313 38:Artflow ai,数字人,增速 86.1,流量系数 0.307 39:anakin.ai,人工智能构建应用程序,增速 151,流量系数 0.302 40:AINovel,讲故事,增速 767,流量系数 0.3 48:virbo,数字人,增速 49.7,流量系数 0.189 16:heygen,数字人,增速 436,流量系数 0.143 出海总榜 Top50: 42:powerdrill,数据分析,访问量 62.4,相对 3 月变化 0.56 43:Glasp,会议总结,访问量 60.7,相对 3 月变化 0.325 44:Jina AI,AI ChatBots,访问量 54.1,相对 3 月变化 0.384 45:Talkie,访问量 51.9,相对 3 月变化 0.438 46:Dify.ai,AI ChatBots,访问量 51.7,相对 3 月变化 0.452 47:lensgo.ai,图生视频,访问量 50.3,相对 3 月变化 0.267 49:Chatdoc,pdf,访问量 48,相对 3 月变化 0.037 50:plaud.ai,转录,访问量 44.6,相对 3 月变化 0.07 15:Notta,会议总结,访问量 450,相对 3 月变化 0.128 17:coze,Agent,访问量 420,相对 3 月变化 0.261 18:popai,AI ChatBots,访问量 410,相对 3 月变化 0.07 19:Glarity,youtube 总结,访问量 394,相对 3 月变化 0.59 20:Sider,AI ChatBots,访问量 360,相对 3 月变化 0.008 21:,电商,访问量 350,相对 3 月变化 0.029 22:ZMO AI,图片增强,访问量 338,相对 3 月变化 0.161 23:MyShell,AI ChatBots,访问量 290,相对 3 月变化 0.737 24:vizard.ai,长视频切片,访问量 290,相对 3 月变化 0.503 25:Filmora,视频编辑,访问量 270,相对 3 月变化 0.043 26:ciciai,AI ChatBots,访问量 230,相对 3 月变化 0.447 27:zmo,图像生成,访问量 200,相对 3 月变化 0.058 28:pika.art,图生视频,访问量 200,相对 3 月变化 0.091
2024-09-10
国内免费ai排行榜
以下是国内部分免费 AI 的排行榜信息: |排行|Name|二级分类|相关月份|变化率| |||||| |16|魔塔社区阿里达摩院|开发者社区|12 月|0.07| |17|沉浸式翻译|翻译|12 月|0.3| |18|站酷海洛|资源|12 月|0.36| |19|Boardmix 博思 AI 白板|思维导图|12 月|0.21| |20|autoDL 云服务租用|无|12 月|0.21| |21|Glasp|会议总结|12 月|0.16| |22|讯飞听见|转录|12 月|0.16| |23|亿图脑图|思维导图|12 月|0.18| |24|虎课网免费在线视频教程|AI 学习|12 月|0.06| |25|百度飞桨 AI Studio|AI 学习|12 月|0.2| |26|AI 抠图 pixian.ai|图像编辑|12 月|0.01| |27|标小智 LOGO 生成|图像生成|12 月|0| |28|democreator|视频编辑|12 月|0.07| |29|站长素材音效|音乐|12 月|0.17| |48|Boardmix 博思 AI 白板|PPT|6 月|0.237| |49|讯飞听见|转录|6 月|0.038| |50|帆软战略|电商|6 月|0.033| |51|帆软数据|数据分析|6 月|0.033| |52|360 苏打办公|生产力|6 月|0.002| |53|标小智 LOGO 生成|图像生成|6 月|0.075| |54|edrawsoft|思维导图|6 月|0.008| |55|彩云|通用写作|6 月|0.113| |56|虎课网免费在线视频教程|AI 学习|6 月|0.012| |57|xmind|思维导图|6 月|0.149| |58|秘塔写作猫|通用写作|6 月|0.267| |59|Pixso AI|设计工具|6 月|0.124| |36|虎课网免费在线视频教程|AI 学习|4 月|0.005| |37|Glasp|会议总结|4 月|0.325| |38|aippt|PPT|4 月|0.142| |39|帆软战略|电商|4 月|0.145| |40|帆软数据|数据分析|4 月|0.145| |41|讯飞听见|转录|4 月|0.065| |42|Pixso AI|设计工具|4 月|0.017| |43|ToonMe(卡通头像)|图像生成|4 月|0.993| |44|edrawsoft|思维导图|4 月|0.14| |45|Dify.ai|AI ChatBots|4 月|0.452| |46|彩云|通用写作|4 月|0.117| |47|360 苏打办公|生产力|4 月|1.269|
2024-09-05
国内免费ai的排行榜,要求详细信息简述
目前国内免费 AI 产品的排名情况会因不同的评估标准和时间而有所变化,暂时没有确切和权威的排行榜信息。但一些常见的免费 AI 工具和平台包括百度的文心一言、字节跳动的云雀模型等。这些工具在自然语言处理、图像识别等领域都有一定的应用和特点。您可以根据自己的具体需求和使用场景,对它们进行试用和比较。
2024-09-05
你的模型是什么
以下是关于模型的相关信息: 微调模型:假设已准备好训练数据,可使用 OpenAI CLI 开始微调工作。需指定从 ada、babbage、curie 或 davinci 等基本模型开始,还可通过后缀参数自定义微调模型名称。运行命令后会进行文件上传、创建微调作业、流式传输事件直至作业完成等操作。每个微调工作默认从 curie 基本模型开始,模型选择会影响性能和成本。开始微调作业后,可能需几分钟至数小时完成,若事件流中断可通过特定命令恢复。完成后会显示微调模型名称,还可进行列出现有作业、检索作业状态或取消作业等操作。 图像描述模型:编码器部分将 inception resnet V2 应用于图像数据,并冻结大部分 CNN 部分,因骨干是通过庞大的数据集(如图像网络数据集)预训练的,若想再次微调也是可能的。解码器较为复杂,包含注意力层、嵌入层、GRU 层、添加层归一化层和最终的密集层等。定义好编码器和解码器后,创建最终模型并定义输入(图像输入进入编码器,文字输入进入解码器)和输出,在运行训练前需定义损失功能。 不同模型切换:使用光标聊天、Ctrl/⌘ K 和终端 Ctrl/⌘ K 可在不同模型间切换。在 AI 输入框下方有下拉列表可选择模型,默认有、cursorsmall 等模型,cursorsmall 是 Cursor 的自定义模型,不如 GPT4 智能但速度更快且用户可无限制访问。可在 Cursor Settings > Models > Model Names 下添加其他模型。
2024-11-25
有哪些使用语言模型的最佳实践案例?
以下是一些使用语言模型的最佳实践案例: 1. 转换类应用: 大型语言模型擅长将输入转换为不同格式,如语言翻译、拼写和语法矫正、格式转换等。例如,可以输入一段不符合语法规范的文本让其修改,或输入 HTML 输出 JSON。 可以执行翻译任务,模型在多种语言的大量文本上训练,能够掌握数百种语言。 2. 基础提示词: 提示词包含传递到模型的指令、问题等信息,也可包含上下文、输入或示例等详细信息,以更好地指导模型获得更好结果。 对于 OpenAI 的聊天模型,可使用 system、user 和 assistant 三种角色构建 prompt,通常示例仅使用 user 消息作为 prompt。 提示工程探讨如何设计最佳提示词,如通过改进提示词完善句子输出。 3. 提示工程: 将复杂任务分解为更简单的子任务,如使用意图分类识别用户查询中的指令,对长对话进行总结或过滤,将长文档分段总结。 给予模型“思考”时间,如让模型在给出最终答案前先进行“思考链”推理,指导其先给出解决方案,使用“内心独白”或系列查询隐藏推理过程,询问是否遗漏信息以确保完整性。
2024-11-25
表格大模型的使用
以下是关于表格大模型使用的相关内容: 使用 coze 做智能报表助手: 用户上传 excel 后,在工作流中获取 excel 连接,通过插件下载并读取数据。最初打算将解析的 excel 数据以单元格形式存到 bot 数据库,用大模型根据数据和用户提问生成答案,但大模型计算能力差,常出错。后改为将 excel 转换为数据表,用大模型把用户问题转换为 sql,准确率高。自己写服务动态创建表并存表名到 coze 数据库,根据表名动态执行 sql 拿数据。再用大模型为用户生成 3 个推荐报表,限制数据 100 条。拿到 sql 后执行查询,用大模型转换为绘制 echarts 图表的参数,自行编写插件提高图表清晰度。 SDXL 大模型: SDXL 的大模型分为两部分,base+refiner 是必须下载的,base 用于文生图操作,refiner 用于细化生成的模型以获得更丰富的细节,还有配套的 VAE 模型用于调节图片效果和色彩。模型可在云盘获取,在 webUI 中使用需将版本升级到 1.5 以上,放入对应文件夹。先在文生图中用 base 模型生成,再将图片发送到图生图中用 refiner 模型重绘。 通过 Open WebUI 使用大模型: Open WebUI 是大模型的交互客户端,是 github 上的开源项目,参考官方文档下载安装。安装前需先安装 Docker,不同系统安装方式不同。安装 Open WebUI 有两种方式,已安装 ollama 时只需安装 open webui 即可。安装完成后即可使用。
2024-11-25
AI的主要大模型有哪些
目前主要的 AI 大模型包括: 1. OpenAI 系列: GPT3.5:于 11 月启动了当前的 AI 热潮。 GPT4:在春季首次发布,功能更强大。有新的变种使用插件连接到互联网和其他应用程序,如 Code Interpreter 是一个强大的版本,可运行 Python 程序。未为 OpenAI 付费只能使用 3.5。微软的 Bing 使用 4 和 3.5 的混合,通常是 GPT4 家族中首个推出新功能的模型,能创建和查看图像,可在网页浏览器中阅读文档并连接到互联网。 2. 谷歌:Bard,由各种基础模型驱动,最近是名为 PaLM 2 的模型。 3. Anthropic:Claude 2,其最显著的特点是有非常大的上下文窗口,本质上是 LLM 的记忆,几乎可以保存一整本书或许多 PDF,且与其他大型语言模型相比,不太可能恶意行事。
2024-11-25
目前各大主流模型的 max output token
以下是目前各大主流模型的 max output token 情况: Claude2100 k 模型的上下文上限是 100k Tokens,即 100000 个 token。 ChatGPT16 k 模型的上下文上限是 16k Tokens,即 16000 个 token。 ChatGPT432 k 模型的上下文上限是 32k Tokens,即 32000 个 token。 需要注意的是,token 限制同时对一次性输入和一次对话的总体上下文长度生效。不是达到上限就停止对话,而是会遗忘最前面的对话。 如果想直观查看 GPT 如何切分 token,可以打开: 。此外,GPT3 和 GPT3.5/4 的 token 计算方式不同,英文的 Token 占用相对于中文较少,这也是很多中文长 Prompt 会被建议翻译成英文设定然后要求中文输出的原因。
2024-11-24
如何用langchian加载本地模型
要使用 Langchain 加载本地模型,您可以按照以下步骤进行: 1. 加载所需的库和模块,例如 feedparse 用于解析 RSS 订阅源,ollama 用于在 Python 程序中跑大模型。使用 ollama 前请确保服务已经开启并下载好模型。 2. 从订阅源获取内容,通过特定函数从指定的 RSS 订阅 URL 提取内容,若需接收多个 URL 稍作改动即可。然后使用专门的文本拆分器将长文本拆分成较小的块,并附带相关元数据,如标题、发布日期和链接,最终将这些文档合并成一个列表用于后续处理。 3. 为文档内容生成向量,使用文本向量模型 bgem3。从 hf 下载好模型后,假设放置在某个路径 /path/to/bgem3,通过函数利用 FAISS 创建高效的向量存储。 在整个过程中,还需要了解以下相关知识: 1. RAG(Retrieval Augmented Generation):大模型训练数据有截止日期,当需要依靠不在训练集中的数据时,可通过检索增强生成。RAG 应用包括文档加载(从多种来源加载文档,LangChain 提供 100 多种文档加载器)、文本分割(把文档切分为指定大小的块)、存储(将切分好的文档块嵌入并存储到向量数据库)、检索(通过检索算法找到与输入问题相似的嵌入片)、输出(把问题及检索出的嵌入片提交给 LLM 生成答案)。 2. Ollama:支持多种大型语言模型,包括通义千问、Llama 2、Mistral 和 Gemma 等,易于使用,适用于 macOS、Windows 和 Linux 系统,支持 cpu 和 gpu,提供模型库,用户可下载不同模型,还支持自定义模型、提供 REST API 用于运行和管理模型及与其他应用程序集成,社区贡献丰富。安装完后确保后台服务已启动,可通过 ollama list 确认,通过 ollama 命令下载模型。
2024-11-23