直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

国内文生图大模型,有哪些?

回答

以下是一些国内的文生图大模型:

  • 百度的文心一言:https://wenxin.baidu.com
  • 抖音的云雀大模型:https://www.doubao.com
  • 智谱 AI 的 GLM 大模型:https://chatglm.cn
  • 中科院的紫东太初大模型:https://xihe.mindspore.cn
  • 百川智能的百川大模型:https://www.baichuan-ai.com/
  • 商汤的日日新大模型:https://www.sensetime.com/
  • MiniMax 的 ABAB 大模型:https://api.minimax.chat
  • 上海人工智能实验室的书生通用大模型:https://intern-ai.org.cn

此外,真人效果卓绝的大模型 lofi.v2 也可用于生成真实场景下的字体。在使用 SDXL 大模型时,其分为 base+refiner 以及配套的 VAE 模型,base 用于文生图操作,refiner 用于细化生成的模型,VAE 用于调节图片效果和色彩。要在 webUI 中使用,需将秋叶启动器中 webUI 的版本升级到 1.5 以上,并将模型放入对应文件夹。

内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

SD的优势区间,ControlNet做字体!(实战篇)

这里不是绝对唯一答案,因为很多CN模型能实现相似效果,或者更有故事性的效果的。以比较容易出效果为例:将字体参考图放进ControlNet中,预处理器选择invert(from white bg&black line),注意控制类型就不要选择预设的了,因为很有可能处理模型不是一一对应的。invert比较适合完全还原字体的细节。当然如果字形本身识别度很高的话,也可以使用Canny等模型。选好预处理可以点击💥按钮预览一下。然后选择Control模型,可以选择Depth景深模型,也可以选择Scribble涂鸦模型,使用Canny描边的预处理这里也可以用Canny的模型,但控制力稍差。选择好之后,记得点击启用,开启ControlNet。[heading1]选择生图大模型[content]插件暂时简单的设置完毕,要选择生图模型了,大模型决定了我们的最终的风格,是真实系,是动画二次元,还是什么,这决定你对模型熟悉程度。生成一个真实场景下的字体,文章开始图片相似的风格,是我的目标,以此为例:经过一些尝试,我选了真人效果卓绝的大模型lofi.v2,(还有一些其他比较真实的模型都可以备选,只是会有一些参数变化需要注意)不同的大模型,会对CN模型的控制力有不同的适应度,所以需要微调参数。

8月正式上线的国内大模型

5⃣️五家北京企业机构:百度(文心一言)https://wenxin.baidu.com抖音(云雀大模型)https://www.doubao.com智谱AI(GLM大模型)https://chatglm.cn中科院(紫东太初大模型)https://xihe.mindspore.cn百川智能(百川大模型)https://www.baichuan-ai.com/3⃣️三家上海企业机构:商汤(日日新大模型)https://www.sensetime.com/MiniMax(ABAB大模型)https://api.minimax.chat上海人工智能实验室(书生通用大模型)https://intern-ai.org.cn今天这8个大模型,在聊天状态下——能生成Markdown格式的:智谱清言、商量Sensechat、MiniMax目前不能进行自然语言交流的:昇思(可以对文本进行是否由AI生成的检测,类似论文查重,准确度不错)、书生受限制使用:MiniMax(无法对生成的文本进行复制输出,且只有15元的预充值额度进行体验,完成企业认证后可以进行充值)特色功能:昇思——生图,MiniMax——语音合成阿里通义千问、360智脑、讯飞星火等均不在首批获批名单中,广东省2家和其他省市1家也将陆续开放据悉,广东地区获批公司分别为华为、腾讯,科大讯飞系其他地区获批产品

【SD】向未来而生,关于SDXL你要知道事儿

SDXL的大模型分为两个部分:第一部分,base+refiner是必须下载的,base是基础模型,我们使用它进行文生图的操作;refiner是精炼模型,我们使用它对文生图中生成的模型进行细化,生成细节更丰富的图片。第二部分,是SDXL还有一个配套的VAE模型,用于调节图片的画面效果和色彩。这三个模型,我已经放入了云盘链接中,大家可以关注我的公众号【白马与少年】,然后回复【SDXL】获取下载链接。想要在webUI中使用SDXL的大模型,首先我们要在秋叶启动器中将webUI的版本升级到1.5以上。接下来,将模型放入对应的文件夹中,base和refiner放在“……\sd-webui-aki-v4.2\models\Stable-diffusion”路径下;vae放在“……\sd-webui-aki-v4.2\models\VAE”路径下。完成之后,我们启动webUI,就可以在模型中看到SDXL的模型了。我们正常的使用方法是这样的:先在文生图中使用base模型,填写提示词和常规参数,尺寸可以设置为1024*1024,进行生成。我这边使用了一个最简单的提示词“1girl”,来看看效果。生成的图片大家可以看一下,我觉得是相当不错的。我知道大家心里可能会想——“就这,还好吧,也没有那么惊艳吧?”,那么,我用同样的参数再给你画一幅sd1.5版本的图像,你就能看出进步有多大了。是不是没有对比就没有伤害?SDXL,真香!还没完,我们到现在还只使用了一个base模型,接下来,将图片发送到图生图当中,大模型切换为“refiner”,重绘幅度开小一点,再次点击生成。

其他人在问
文生图反向推出提示词
在文生图中,反向推出提示词的方式主要有以下几种: 1. 在图生图功能中,除了文本提词框外,还有图片框输入口。随便照一张照片拖入后,文本输入框旁边有两个反推提示词的按钮:CLIP 可以通过图片反推出完整含义的句子;DeepBooru 可以反推出关键词组。例如一张小男孩坐在长凳上的图片,通过 CLIP 反推得到的提示词为“a young boy sitting on a bench with a toy train and a lego train set on the floor next to him,Adam Rex,detailed product photo,a stock photo,lyco art”,通过 DeepBooru 反推得到的提示词为“shoes,solo,hat,orange_background,yellow_background,smile,socks,black_hair,sitting,sneakers”。但这两种方式生成的提示词可能存在瑕疵,需要手动补充信息。补充好提示词后,调整宽度和高度,使红框刚好匹配图片,同时注意两个重要参数:提示词相关性和重绘幅度。 2. 利用上一期活动图片反推工作流,使用唯美港风图片进行反推提示词,在大模型后接一个相关模型。上一期活动链接:。 3. 利用抱脸的 joycaption 图片反推提示词,然后在哩布上跑 flux 文生图工作流。joycaption 链接(需要魔法):https://huggingface.co/spaces/fancyfeast/joycaptionprealpha 。文生图工作流: 。在哩布上跑文生图:https://www.liblib.art/modelinfo/e16a07d8be544e82b1cd14c37e217119?from=personal_page 。 在写文生图的提示词时,例如“”。
2024-11-22
文生图模型性能排行
以下是一些文生图模型的性能排行相关信息: Kolors 是最近开源的文生图模型中表现出色的一个。它具有更强的中文文本编码器、高质量的文本描述、人标的高质量图片、强大的中文渲染能力以及巧妙解决高分辨率图加噪问题的 noise schedule,实测效果不错。 PIKA1.0 是一个全新的模型,文生视频和文生图的质量都有大幅度提升。在文生图方面稳定得令人惊讶,3D 和 2D 的动画效果出色。 为全面比较 Kolors 与其他模型的生成能力,构建了包含人工评估、机器评估的全面评测内容。在 KolorsPrompts 评估集中,Kolors 在整体满意度方面处于最优水平,其中画面质量显著领先其他模型。具体的平均分数如下: AdobeFirefly:整体满意度平均分 3.03,画面质量平均分 3.46,图文相关性平均分 3.84。 Stable Diffusion 3:整体满意度平均分 3.26,画面质量平均分 3.5,图文相关性平均分 4.2。 DALLE 3:整体满意度平均分 3.32,画面质量平均分 3.54,图文相关性平均分 4.22。 Midjourneyv5:整体满意度平均分 3.32,画面质量平均分 3.68,图文相关性平均分 4.02。 Playgroundv2.5:整体满意度平均分 3.37,画面质量平均分 3.73,图文相关性平均分 4.04。 Midjourneyv6:整体满意度平均分 3.58,画面质量平均分 3.92,图文相关性平均分 4.18。 Kolors:整体满意度平均分 3.59,画面质量平均分 3.99,图文相关性平均分 4.17。所有模型结果取自 2024.04 的产品版本。
2024-11-18
用 mj 做文生图,Prompt 模板
以下是使用 MJ 进行文生图的 Prompt 模板: 1. 定主题:明确您需要生成一张什么主题、什么风格、表达什么信息的图。 2. 选择基础模型 Checkpoint:按照主题,找内容贴近的 checkpoint。一般喜欢用模型大佬麦橘、墨幽的系列模型,如麦橘写实、麦橘男团、墨幽人造人等,效果较好。 3. 选择 lora:在想要生成的内容基础上,寻找内容重叠的 lora,以控制图片效果及质量。可多参考广场上好看的帖子中使用的 lora。 4. ControlNet:用于控制图片中特定的图像,如人物姿态、生成特定文字、艺术化二维码等,属于高阶技能,可后续学习。 5. 局部重绘:下篇再教。 6. 设置 VAE:无脑选择 840000 这个即可。 7. Prompt 提示词:用英文写想要 AI 生成的内容,使用单词和短语的组合,不用管语法,单词、短语之间用英文半角逗号隔开。 8. 负向提示词 Negative Prompt:用英文写想要 AI 避免产生的内容,同样不用管语法,只需单词和短语组合,中间用英文半角逗号隔开。 9. 采样算法:较复杂,一般选 DPM++ 2M Karras 较多。最稳妥的是留意 checkpoint 的详情页上模型作者是否有推荐采样器,使用推荐的采样器更有保障。 10. 采样次数:根据采样器特征,选 DPM++ 2M Karras 后,采样次数一般在 30 40 之间,多了意义不大且慢,少了出图效果差。 11. 尺寸:根据个人喜好和需求选择。 另外,使用 Stability AI 基于 Discord 的媒体生成和编辑工具进行文生图时: 1. 点击链接进入官方 DISCORD 服务器:https://discord.com/invite/stablediffusion 。 2. 进入 ARTISAN 频道,任意选择一个频道。 3. 输入/dream 会提示没有权限,点击链接,注册登录,填写信用卡信息以及地址,点击提交,会免费试用三天,三天后开始收费。 4. 输入/dream 提示词,这部分和 MJ 类似。 5. 和 MJ 手工输入参数不同,可选参数有五类: prompt:提示词,正常文字输入,必填项。 negative_prompt:负面提示词,填写负面提示词,选填项。 seed:种子值,可以自己填,选填项。 aspect:长宽比,选填项。 model:模型选择,SD3,Core 两种可选,选填项。 Images:张数,1 4 张,选填项。完成后选择其中一张。 在 MJ 应用篇儿童绘本制作、人物一致性方面: 1. 生成人物图片:确定人物形象,如“a little girl wearing a yellow floral skirt + 人物动作 + 风格词”,在 mj 中生成直到得到满意的人物图像。垫图 URL + “In the forest,a little girl wearing a yellow floral skirt is playing happily,super high details,HDsmooth,by Jon Burgerman,s 400 ar 3:4 niji 5 style expressive iw 2”,iw 取值范围,不填写默认 iw = 1,iw 值越大越接近垫的图像,反之更接近提示词。为确保人物一致性,取 iw 2 。 2. 合成人物和场景,垫图并重新生成:使用 PS 或者 Canva 将人物和场景合成到一张图,若色调不和谐(若画面和谐或 PS 技术足够,也可不用图生图),将合成后的图作为垫图(iw 2),mj 重新生图,如“prompt:垫图 url + Little girl wearing a yellow floral skirt,and her friend brown bear,taking shelter in the cave,rainstorm,super high details,HDsmooth,by Jon Burgerman,s 400 ar 3:4 niji 5 style expressive iw 2”。 3. 绘本展示。
2024-11-15
文生图的 Prompt 模板
以下是关于文生图的 Prompt 模板的相关内容: 通常描述逻辑包括人物及主体特征(如服饰、发型发色、五官、表情、动作),场景特征(如室内室外、大场景、小细节),环境光照(如白天黑夜、特定时段、光、天空),画幅视角(如距离、人物比例、观察视角、镜头类型),画质(如高画质、高分辨率),画风(如插画、二次元、写实)。通过这些详细的提示词,能更精确地控制 Stable Diffusion 的绘图。 对于新手,有功能型辅助网站帮助书写提示词,如 http://www.atoolbox.net/ ,可通过选项卡方式快速填写关键词信息;https://ai.dawnmark.cn/ ,每种参数有缩略图参考,方便直观选择提示词。还可以去 C 站(https://civitai.com/)抄作业,复制每一张图的详细参数并粘贴到正向提示词栏,然后点击生成按钮下的第一个按键,不过要注意图像作者使用的大模型和 LORA,不然即使参数一样,生成的图也会不同,也可只取其中较好的描述词使用。 在 Tusiart 中,文生图的操作流程如下: 定主题:确定要生成的图的主题、风格和表达的信息。 选择基础模型 Checkpoint:找内容贴近主题的 checkpoint,如麦橘、墨幽的系列模型。 选择 lora:寻找内容重叠的 lora 控制图片效果及质量。 ControlNet:控制图片中特定的图像,如人物姿态、特定文字、艺术化二维码等。 设置 VAE:无脑选择 840000 。 Prompt 提示词:用英文写需求,单词和短语组合,用英文半角逗号隔开,不用管语法和长句。 负向提示词 Negative Prompt:用英文写要避免的内容,单词和短语组合,用英文半角逗号隔开。 采样算法:如选 DPM++ 2M Karras,留意 checkpoint 详情页上模型作者推荐的采样器。 采样次数:根据采样器特征,如选 DPM++ 2M Karras 采样次数在 30 40 之间。 尺寸:根据喜好和需求选择。 在一些提示词中,括号和“:1.2”等是用来增加权重的,权重越高在画面中体现越充分,提示词的先后顺序也会影响权重。同时还有反向提示词,告诉 AI 不要的内容。
2024-11-15
请推荐一下文生PPT好用的免费软件
以下为您推荐几款文生 PPT 好用的免费软件: 1. 歌者 PPT(gezhe.com): 功能:话题生成(一键生成 PPT 内容)、资料转换(支持多种文件格式转 PPT)、多语言支持(生成多语言 PPT)、模板和案例(海量模板和案例库)、在线编辑和分享(生成结果可自由编辑并在线分享)、增值服务(自定义模板、字体、动效等)。 产品优势:免费使用(所有功能永久免费)、智能易用(通过 AI 技术简化 PPT 制作流程,易于上手)、海量案例(大量精美模板和优秀案例可供选择和下载)、资料转 PPT 很专业(支持多种文件格式,转换过程中尊重原文内容)、AI 翻译(保持 PPT 原始排版不变,多语言在线即时翻译)。 推荐理由:完全免费,智能化程度高,模板和案例库丰富,对多语言支持好,适合不太擅长制作 PPT 或者时间紧张的人群。 2. Gamma: 作为在各种交流群中频繁推荐的产品,以其卓越的性能和用户体验赢得广泛认可。免费版本也能生成质量非常高的 PPT,随着不断优化和改进,能满足大多数用户的需求。个人使用体验良好,生成效果令人满意,在内容组织、设计美观度和整体专业感方面表现出色。 目前市面上大多数 AI 生成 PPT 按照以下思路完成设计和制作: 1. AI 生成 PPT 大纲 2. 手动优化大纲 3. 导入工具生成 PPT 4. 优化整体结构 推荐 2 篇市场分析的文章供参考: 1. 《》 2. 《》 请注意,以上内容由 AI 大模型生成,请仔细甄别。
2024-11-13
论文全文生成摘要
以下是关于您问题的回答: “Chain of Density”(CoD)是一种通过建立一系列相互关联的紧密提示来指导 AI 生成具体和连续输出的方法。它由美国哥伦比亚大学、麻省理工和 Salesforce 公司的研究人员共同发表。具体来说,是使用 GPT4 生成初始的稀疏摘要,然后通过迭代加入缺失的重要内容,在不增加摘要长度的情况下,添加更多实体信息,让摘要更具细节和丰富性、可读性及抽象性。这些提示相互链接,形成一个“密度链”,更有针对性地引导 AI 达到预期的输出。论文以“如何从文章提炼萃取出最合适的摘要”为重点,发布后有网友实测将 CoD 提示法用于翻译,翻译质量有飞跃提升。 在论文写作方面,有以下常用的 AI 工具和平台: 1. 文献管理和搜索: Zotero:结合 AI 技术,自动提取文献信息,帮助管理和整理参考文献。 Semantic Scholar:AI 驱动的学术搜索引擎,提供文献推荐和引用分析。 2. 内容生成和辅助写作: Grammarly:提供文本校对、语法修正和写作风格建议,提高语言质量。 Quillbot:基于 AI 的重写和摘要工具,精简和优化内容。 3. 研究和数据分析: Google Colab:提供云的 Jupyter 笔记本环境,支持 AI 和机器学习研究,便于数据分析和可视化。 Knitro:用于数学建模和优化,进行复杂数据分析和模型构建。 4. 论文结构和格式: LaTeX:结合自动化和模板,处理论文格式和数学公式。 Overleaf:在线 LaTeX 编辑器,提供模板库和协作功能,简化编写过程。 5. 研究伦理和抄袭检测: Turnitin:广泛使用的抄袭检测工具,确保论文原创性。 Crossref Similarity Check:检测潜在抄袭问题。 使用这些工具时,要结合自身写作风格和需求,选择最合适的辅助工具。需注意,内容由 AI 大模型生成,请仔细甄别。
2024-11-12
有帮助草图大师建模的ai吗
以下是一些能够帮助草图大师建模的 AI 工具: 1. CADtools 12:这是一个 Adobe Illustrator(AI)插件,为 AI 添加了 92 个绘图和编辑工具,包括图形绘制、编辑、标注、尺寸标注、转换、创建和实用工具。 2. Autodesk Fusion 360:Autodesk 开发的一款集成了 AI 功能的云端 3D CAD/CAM 软件,能帮助创建复杂几何形状和优化设计。 3. nTopology:基于 AI 的设计软件,可创建复杂 CAD 模型,包括拓扑优化、几何复杂度和轻量化设计等。 4. ParaMatters CogniCAD:基于 AI 的 CAD 软件,能根据用户输入的设计目标和约束条件自动生成 3D 模型,适用于拓扑优化、结构设计和材料分布等领域。 5. 生成设计工具:一些主流 CAD 软件,如 Autodesk 系列、SolidWorks 等,提供了基于 AI 的生成设计工具,可根据用户输入的设计目标和约束条件自动产生多种设计方案。 此外,还有一些图片生成 3D 建模的工具,也可能对草图大师建模有帮助: 1. Tripo AI:VAST 发布的在线 3D 建模平台,能利用文本或图像在几秒钟内生成高质量且可立即使用的 3D 模型。 2. Meshy:功能全面,支持文本生成 3D、图片生成 3D 以及 AI 材质生成。 3. CSM AI:支持从视频和图像创建 3D 模型,Realtime Sketch to 3D 功能支持通过手绘草图实时设计 3D 形象,再转换为 3D 模型。 4. Sudo AI:支持通过文本和图像生成 3D 模型,适用于游戏领域的模型生成。 5. VoxCraft:免费 3D 模型生成工具,能将图像或文本快速转换成 3D 模型,并提供了图像到 3D、文本到 3D 和文本到纹理等多种功能。 如果您需要绘制逻辑视图、功能视图、部署视图,以下工具可供选择: 1. PlantUML:文本到 UML 的转换工具,可通过编写描述性文本来自动生成序列图、用例图、类图等,从而帮助创建逻辑视图。 2. Gliffy:基于云的绘图工具,提供创建各种架构图的功能,包括逻辑视图和部署视图。 3. Archi:免费的开源工具,用于创建 ArchiMate 和 TOGAF 模型,支持逻辑视图的创建。 4. Rational Rose:IBM 的 UML 工具,支持创建多种视图,包括逻辑视图和部署视图。 请注意,虽然这些工具可以辅助创建相关视图,但它们不都是基于 AI 的。AI 在绘图工具中的应用通常涉及到智能推荐布局、自动生成图表代码或识别图表中的模式和关系。在选择工具时,您应该考虑您的具体需求,比如是否需要支持特定的建模语言、是否需要与特定的开发工具集成、是否偏好在线工具或桌面应用程序等。
2024-08-23
通过semantic-kernel调用文生图大模型接口
Semantic Kernel 是一个由 Microsoft Research AI Interactions 团队开发的框架,它帮助开发者将自然语言处理 功能集成到应用程序中。Semantic Kernel 可以与各种服务、工具和模型配合工作,包括 OpenAI 的 DALLE、GPT3 和 Microsoft 的 Azure OpenAI 服务。 要使用 Semantic Kernel 调用文生图大模型接口,你需要按照以下步骤操作: 1. 设置你的环境: 确保你有 Microsoft Azure 订阅和 Azure Cognitive Services 资源。 安装最新的 .NET SDK。 2. 安装 Semantic Kernel: 通过 NuGet 安装 Semantic Kernel 包: ```shell dotnet add package Microsoft.SemanticKernel ``` 3. 配置 Semantic Kernel: 在你的应用程序中配置 Semantic Kernel,连接到 Azure OpenAI 服务或其他支持的模型。 设置 API 密钥和其他必要配置。 4. 编写代码调用文生图大模型: 使用 Semantic Kernel SDK 创建一个函数来调用文生图大模型接口。 准备输入数据,例如,图像生成的提示(prompts)。 5. 处理响应: 接收并处理模型的输出,可能包括图像数据或其他相关信息。 6. 部署和运行应用程序: 部署你的应用程序,并确保它可以访问 Azure OpenAI 服务。 运行你的应用程序,并通过 Semantic Kernel 调用文生图大模型。 这里是一个简单的代码示例,展示了如何使用 Semantic Kernel 来调用服务: ```csharp using Microsoft.SemanticKernel; // 创建 Semantic Kernel 实例 var kernel = new Kernel; // 配置 Azure OpenAI 服务 var azureOpenAiService = new AzureOpenAiService( new AzureOpenAiSettings { AzureOpenAiDeploymentName = "yourdeploymentname", Endpoint = "https://yourendpoint.openai.azure.com/", ApiKey = "yourapikey" } ); kernel.Config.AddAzureOpenAiService; // 定义函数 var promptFunction = kernel.CreateSemanticFunction; // 调用文生图大模型 var imagePrompt = "A serene landscape with mountains, a river flowing through, and a traditional Chinese pagoda in the distance."; var imageResult = await promptFunction.InvokeAsync; // 处理响应 Console.WriteLine; ``` 请注意,上述代码仅为示例,实际代码将取决于文生图大模型的接口细节和你的具体需求。确保在开发过程中遵守所有适用的法律和政策,并尊重用户隐私和数据保护。
2024-04-25
图片生成图片的AI模型有哪些
目前比较成熟的图片生成图片(图生图)的 AI 模型主要有: 1. Artguru AI Art Generator:在线平台,能生成逼真图像,为设计师提供灵感,丰富创作过程。 2. Retrato:AI 工具,可将图片转换为非凡肖像,有 500 多种风格供选择,适合制作个性头像。 3. Stable Diffusion Reimagine:新型 AI 工具,通过稳定扩散算法生成精细、具细节的全新视觉作品。 4. Barbie Selfie Generator:专为喜欢梦幻童话风格的人设计的 AI 工具,能将上传的照片转换为芭比风格,效果出色。 此外,一些受欢迎的文生图工具也可用于图生图,例如: 1. DALL·E:由 OpenAI 推出,能根据输入的文本描述生成逼真的图片。 2. StableDiffusion:开源的文生图工具,可生成高质量的图片,支持多种模型和算法。 3. MidJourney:因高质量的图像生成效果和友好的用户界面设计而广受欢迎,在创意设计人群中尤其流行。 在 WaytoAGI 网站(https://www.waytoagi.com/category/104),可以查看更多文生图工具。 关于图生图的操作方式:在相关工具的首页有对话生图对话框,输入文字描述即可生成图片,不满意可通过对话让其修改。例如在吐司网站,图生图时能调整尺寸、生成数量等参数,高清修复会消耗较多算力建议先出小图。Flex 模型对语义理解强,不同模型生成图片的积分消耗不同,生成的图片效果受多种因素影响。国外模型对中式水墨风等特定风格的适配可能存在不足,可通过训练 Lora 模型改善。
2024-11-23
学习大模型的路径
学习大模型的路径主要包括以下几个步骤: 1. 收集海量数据:就像教孩子成为博学多才的人需要让其阅读大量书籍、观看纪录片、与人交谈一样,对于大模型,要收集互联网上的文章、书籍、维基百科条目、社交媒体帖子等各种文本数据。 2. 预处理数据:如同为孩子整理学习资料,AI 研究人员需要清理和组织收集到的数据,包括删除垃圾信息、纠正拼写错误、将文本分割成易于处理的片段。 3. 设计模型架构:如同为孩子设计学习计划,研究人员要设计大模型的“大脑”结构,通常是一个复杂的神经网络,例如 Transformer 架构,这种架构擅长处理序列数据如文本。 4. 训练模型:如同孩子开始阅读和学习,大模型开始“阅读”提供的数据,通过反复尝试预测句子中的下一个词,不断重复这个过程,逐渐学会理解和生成人类语言。 此外,关于大模型的底层原理,计算机科学家/工程师以大脑神经元细胞结构为灵感,在计算机上利用概览模型实现对人脑结构的模仿,不过计算机的神经元节点更为简单,本质上只是进行一些加法和乘法运算而后输出。大模型内部如同人类大脑是一个混沌系统,即使是 OpenAI 的科学家也无法解释其微观细节。
2024-11-22
现在哪几家的大模型支持通过手机视频多模态实时交流?
以下几家的大模型支持通过手机视频多模态实时交流: 1. PandaGPT:能够理解不同模式的指令并根据指令采取行动,包括文本、图像/视频、音频、热、深度和惯性测量单位。 2. VideoLLaMA:引入了多分支跨模式 PT 框架,使语言模型能够在与人类对话的同时处理给定视频的视觉和音频内容。 3. 视频聊天 GPT:专门为视频对话设计,能够通过集成时空视觉表示来生成有关视频的讨论。 4. NExTGPT:端到端、通用的 anytoany 多模态语言模型,支持图像、视频、音频、文本的自由输入输出。
2024-11-22
siri是不是使用大模型技术
Siri 目前并非使用大模型技术。苹果公司的 Siri 概念虽好,但由于技术限制,其表现未达到人工智能的水平,常被称为“人工智障”。不过,随着技术发展,未来可能会用大模型重新改造 Siri,将手机上的所有功能控制起来,使其成为真正的智能助理。例如,苹果公司在手机算力的芯片发展到能够支撑大模型上手机的情况下,可能会推出大模型的小数据量、专业的版本来替代 Siri。同时,苹果公司若 All in 手机,其大模型可能会是本地化的,以重视个人数据保护和隐私。
2024-11-21
sairi是不是使用大模型技术
Sora 是使用大模型技术的。周鸿祎认为 Open AI 训练这个模型会阅读大量视频,大模型加上 Diffusion 技术需要对世界进一步了解,学习样本以视频和摄像头捕捉到的画面为主。Sora 在训练数据上采用在原始尺寸上进行训练的策略,避免了传统 AI 对人为抽象的依赖。此外,Sora 还采用了一些数据预处理技术,如将视觉图块压缩成低维潜在表示,并将其排列成序列,注入噪声后输入扩散变换器的输入层,同时采用时空分块化来降低后续对时间信息建模的复杂性。这种对原始视频和图像特征的细腻处理标志着生成模型领域的重大进步。
2024-11-21
模型微调怎么解决多轮对话容易受到上轮对话的影响问题
在解决模型微调中多轮对话容易受到上轮对话影响的问题时: 对于多轮对话,现实中常伴随指代问题,如使用“它”“他们”“我们”等代词。若仅依据原始提问检索知识片段,可能导致结果不精确或无法检索到信息。同时,对模型回复内容的限制可能影响多轮对话流畅性甚至中断。 为提升对话系统性能和用户体验,需开发提示词解决多轮对话中的指代消解问题,确保模型能在连续交流中提供准确连贯回答。但由于“指代消解”需多轮对话完成,单次交互无法达成,所以要转换测试形式,先解决“指代消解”问题再进行下一轮答复。 首先准备指代消解所需提示词,这里使用的“指代消解”提示词是用 CoT 写出的思维链,列举不同推理情景,让模型适应并推理出需消解的代词,再根据结果重新组织问题。 接着复现指代消解步骤,如进行第一轮对话,提出问题“尼罗河是什么?”,系统召回相关知识片段并回复,然后开始指代消解。 另外,聊天模型通过一串聊天对话输入并返回生成消息输出。聊天格式虽为多轮对话设计,但对单轮任务也有用。会话通过 messages 参数输入,包含不同角色和内容的消息对象数组。通常会话先有系统消息设定助手行为,再交替使用用户和助手消息。当指令涉及之前消息时,包含聊天历史记录有帮助,若超出模型限制需缩减会话。
2024-11-21
国内的,AI学习类关于阅读和听力提升的应用(具备AI能力的应用)或者工具有哪些?
目前国内具备 AI 能力、有助于提升阅读和听力的应用和工具相对较多。例如,流利说英语在听力和口语训练方面表现出色,它能通过 AI 技术为用户提供个性化的学习方案和精准的发音纠正。还有百词斩,其在单词记忆和阅读拓展方面有独特的功能,利用 AI 算法推荐适合用户水平的阅读材料。此外,网易有道词典也具备一定的 AI 辅助功能,能帮助用户提升听力理解和阅读能力。
2024-11-23
推荐一款国内不错的AI视频生成软件
以下为您推荐几款国内不错的 AI 视频生成软件: 1. 可灵:在 AI 视频生成领域表现出色,具有以下优势: 卓越的视频生成质量,与国际顶级模型相当,能满足普通用户和专业创作者的需求。 生成速度快,处理效率高于国外同类产品,提升用户工作效率。 对国内用户可访问性强,提供便捷、稳定的使用体验。 2. Hidreamai:有免费额度,支持文生视频、图生视频,提示词使用中文、英文均可,文生视频支持多种控制,可生成 5s 和 15s 的视频。网址:https://hidreamai.com//AiVideo 3. ETNA:由七火山科技开发,可根据简短文本描述生成相应视频内容,生成视频长度 8 15 秒,画质可达 4K,最高 38402160,画面细腻逼真,帧率 60fps,支持中文,时空理解。网址:https://etna.7volcanoes.com/ 此外,还有 Pika、SVD、Runway、Kaiber、Sora 等国内外提供此类功能的产品,您可以根据自己的具体情况进行选择。更多的文生视频网站可查看: 需注意,以上内容由 AI 大模型生成,请仔细甄别。
2024-11-22
请推荐几个国内能用的支持多模态交流的app
以下为您推荐几个国内能用的支持多模态交流的 APP 及相关模型: 1. 百度(文心一言):https://wenxin.baidu.com 2. 抖音(云雀大模型):https://www.doubao.com 3. 智谱 AI(GLM 大模型):https://chatglm.cn 4. 中科院(紫东太初大模型):https://xihe.mindspore.cn 5. 百川智能(百川大模型):https://www.baichuanai.com/ 6. 商汤(日日新大模型):https://www.sensetime.com/ 7. MiniMax(ABAB 大模型):https://api.minimax.chat 8. 上海人工智能实验室(书生通用大模型):https://internai.org.cn 此外,智谱·AI 开源的多模态模型有: 1. CogAgent18B:基于 CogVLM17B 改进的开源视觉语言模型。拥有 110 亿视觉参数和 70 亿语言参数,支持 11201120 分辨率的图像理解,具备 GUI 图像的 Agent 能力。 代码链接: 模型下载: 2. CogVLM17B:强大的开源视觉语言模型(VLM),在多模态权威学术榜单上综合成绩优异。 代码链接:无 模型下载: 3. Visualglm6B:开源的支持图像、中文和英文的多模态对话语言模型。 代码链接: 模型下载:
2024-11-22
列出2-3个精选的比较好的文本处理类的AI工具或网站,要求尽量是国内的产品,最好是免费的。罗列时应包含以下信息:名称、简介、2-3个主要功能、横向对比的优缺点
以下为您精选的国内文本处理类 AI 工具或网站: 1. 秘塔写作猫 简介:利用 AI 技术辅助用户进行高质量写作。 主要功能:检查语法、拼写错误;提供写作改进建议;进行智能润色和内容创作辅助。 优点:功能较为全面,能有效提升写作质量。 缺点:可能存在对某些特定领域的适应性不足。 2. Lettria 简介:处理个人文本材料。 主要功能:对个人文本进行分析和处理。 优点:专注于个人文本处理,针对性较强。 缺点:功能相对较单一。
2024-11-19
列出2-3个精选的比较好的文本处理类的AI工具或网站,要求尽量是国内的产品,最好是免费的。罗列时应包含以下信息:
以下为您精选的 23 个国内的、免费的文本处理类 AI 工具或网站: 1. 🍓 JamGPT:AI Debug 小助手。网址:https://jam.dev/jamgpt 2. ✅ Lettria:个人文本材料处理。网址:https://www.lettria.com/ 3. 🔗 Bloks:个人笔记、任务列表和会议记录自动处理。网址:https://www.bloks.app/
2024-11-19
国内怎么使用claude
Claude 目前部署在投资了 Anthropic 的亚马逊实验环境平台,在国内不用翻墙即可体验。其具有卓越的文字生成能力,生成的文本更加流畅自然、质量更高,在长文本生成和复杂叙事任务中表现出色,对于创意写作工作可能是最佳选择,能理解细微语境差异,生成富有感情色彩和个性化的内容。但使用时存在账号被封禁风险较高、无法记住过往交流信息等问题。在提示词母体测试中,按生成质量来说,Claude 表现最好。目前加入该平台的模型厂商众多,模型新鲜程度不一,Claude 今早已上线。测试平台包括海外版 Coze 等,在不同场景的测试中,Claude 都展现出一定优势。
2024-11-19