Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

图生文功能的开源数据集有哪些?

Answer

图生文功能的开源数据集有一些,其中一个比较知名的是智源研究院 FlagEval 团队开源的ImageEval-prompt。这是一个细粒度的文生图模型测评数据集,从实体、风格、细节上拆分出 11 个评测子维度,并对 DALL-E 2、Stable Diffusion、 AltDiffusion-m18 、ERNIE-ViLG 等模型进行了对比测评。

此外,还有一些其他的开源数据集可以用于训练和评估图生文模型,但具体的选择取决于您的需求和目标。希望这个信息对您有所帮助!

Content generated by AI large model, please carefully verify (powered by aily)

References

Others are asking
多模图生文评测集
以下是关于多模图生文评测集的相关信息: 为全面比较 Kolors 与其他模型的生成能力,构建了包含人工评估、机器评估的全面评测内容。构建了包含 14 种垂类、12 个挑战项、总数量为一千多个 prompt 的文生图评估集 KolorsPrompts。在 KolorsPrompts 上,收集了 Kolors 与市面上常见的 SOTA 级别的开源/闭源系统的文生图结果,并进行了人工评测和机器评测。 人工评测方面,邀请了 50 个具有图像领域知识的专业评估人员对不同模型的生成结果进行对比评估,衡量维度为画面质量、图文相关性、整体满意度三个方面。Kolors 在整体满意度方面处于最优水平,其中画面质量显著领先其他模型。具体的平均分数如下: AdobeFirefly:整体满意度平均分 3.03,画面质量平均分 3.46,图文相关性平均分 3.84。 Stable Diffusion 3:整体满意度平均分 3.26,画面质量平均分 3.5,图文相关性平均分 4.2。 DALLE 3:整体满意度平均分 3.32,画面质量平均分 3.54,图文相关性平均分 4.22。 Midjourneyv5:整体满意度平均分 3.32,画面质量平均分 3.68,图文相关性平均分 4.02。 Playgroundv2.5:整体满意度平均分 3.37,画面质量平均分 3.73,图文相关性平均分 4.04。 Midjourneyv6:整体满意度平均分 3.58,画面质量平均分 3.92,图文相关性平均分 4.18。 Kolors:整体满意度平均分 3.59,画面质量平均分 3.99,图文相关性平均分 4.17。所有模型结果取自 2024.04 的产品版本。 Kolors 开源模型相关: 2024.07.03,Kolors 在智源研究院评测中取得第二名,其中中文主观质量、英文主观质量两个单项排名第一。 2024.07.02,祝贺,可图项目组提出的可控视频生成方法被 ECCV 2024 接收。 2024.02.08,祝贺,可图项目组提出的生成模型评估方法被 CVPR 2024 接收。 多模态大模型入门指南: 训练过程: 预训练阶段:通常利用 XText 的数据集,来训练输入、输出的 Projector。通过优化损失函数来实现不同模态的对齐。PEFT 有时候用于 LLM Backbone。X文本数据集包含图像文本、视频文本和音频文本,其中图像文本有两种类型:图像文本对(即<img1><txt1>)和交错图像文本语料库(即,txt1><img1><txt2><txt3><img2><txt4>)。这些 XText 数据集的详细统计数据如附录 F 的表 3 所示。 多模态微调:对满足指令微调格式的一系列数据集对预训练好的多模态大模型进行微调。通过这种微调,MMLLM 可以遵循新的指令泛化到没有见过的任务,增强 zeroshot 的能力。MM IT 包括监督微调(SFT)和 RLHF 两部分,目的是为了使得模型符合人类的意图或者偏好,并且增强 MMLLMs 的交互能力。SFT 将 PT 阶段的数据转换为指令aware 的格式,使用 QA 任务作为例子。可以采用各种模板。优化目标和预训练相同,SFT 数据可以构造为单轮的 QA 或者多轮的 QA。常用的 SFT 和 RLHF 的数据集见表 4。
2024-12-06
图生文评测集
以下是关于图生文评测集的相关内容: 为全面比较 Kolors 与其他模型的生成能力,构建了包含人工评估、机器评估的全面评测内容。在相关基准评测中,Kolors 表现有竞争力,达业界领先水平。构建了包含 14 种垂类、12 个挑战项、总数量一千多个 prompt 的文生图评估集 KolorsPrompts。在 KolorsPrompts 上,收集了 Kolors 与常见 SOTA 级别开源/闭源系统的文生图结果,并进行人工评测和机器评测。 人工评测方面,邀请 50 个具有图像领域知识的专业评估人员对不同模型生成结果对比评估,衡量维度为画面质量、图文相关性、整体满意度。Kolors 在整体满意度方面最优,画面质量显著领先其他模型。具体平均分如下: |模型|整体满意度平均分|画面质量平均分|图文相关性平均分| ||||| |AdobeFirefly|3.03|3.46|3.84| |Stable Diffusion 3|3.26|3.5|4.2| |DALLE 3|3.32|3.54|4.22| |Midjourneyv5|3.32|3.68|4.02| |Playgroundv2.5|3.37|3.73|4.04| |Midjourneyv6|3.58|3.92|4.18| |Kolors|3.59|3.99|4.17| 此外,还有关于 Vidu 大家测试和 Tusiart 简易上手教程的相关信息: Vidu 全球上线,注册即刻体验。Web 端访问:https://www.vidu.studio/ ,具有极速生成(实测 30 秒最快推理速度)、动漫风格、角色可控、精准理解、大片质感等特点。同时提供了“文生视频”“图生视频(用作起始帧)”“参考人物角色生成视频”的使用指南及相关视频链接。 Tusiart 简易上手教程中,文生图的相关要点包括:提示词相关性(数字在 5 15 之间为宜)、随机种子、ADetailer(面部修复插件)、CLIP skip(设成 2 )。
2024-12-06
图生文模型
以下是关于图生文模型的相关信息: Kolors 是一款强大的开源文生图模型,具有更强的中文文本编码器、机造的高质量文本描述、人标的高质量图片、强大的中文渲染能力,以及巧妙的 noise schedule 解决高分辨率图加噪不彻底的问题。实测效果很不错,展现了快手的技术实力。 Tripo AI 中,文生 3D 模型是用一段文字生成 3D 模型,在「Create」界面底部输入框输入提示词(不支持中文),不会写提示词可点击输入框左侧的</>按钮随机生成并自动填入。填写好提示词后点击右侧「Create」生成 3D 模型,每次生成 4 个基础模型,不满意可点击「Retry」重新生成。有满意的模型点击单个模型下方黄色的「Refine」精修,精修进度在「My Models」中查看,一般 5 分钟左右完成。图生 3D 模型是用一张图片生成 3D 模型,点击输入框右侧的图标上传图片即可生成,一次生成一个基础模型,同样支持重生成和精修。 Tusiart 文生图操作流程包括:定主题,确定生成图片的主题、风格和信息;选择基础模型 Checkpoint,找内容贴近的模型;选择 lora,寻找内容重叠的 lora 控制图片效果及质量;ControlNet 用于控制图片中特定图像;设置 VAE 无脑选择 840000;Prompt 提示词用英文写需求,单词和短语用英文半角逗号隔开;负向提示词 Negative Prompt 用英文写避免产生的内容,单词和短语组合并用英文半角逗号隔开;采样算法一般选 DPM++ 2M Karras,也可参考模型作者推荐的采样器;采样次数根据采样器特征,选 DPM++ 2M Karras 时一般在 30 40 之间;尺寸根据个人喜好和需求选择。
2024-11-13
图生文产品经理工作内容,详细一些
以下是关于图生文产品经理工作内容的详细介绍: 1. 学历与专业背景:通常要求本科及以上学历,计算机科学、人工智能、机器学习相关专业背景。 2. 工具使用与原理掌握:熟悉 ChatGPT、Llama、Claude 等 AI 工具的使用及原理,并具有实际应用经验;熟练掌握 ChatGPT、Midjourney 等 AI 工具的使用及原理。 3. 项目负责:负责制定和执行 AI 项目,如 Prompt 设计平台化方法和模板化方法。 4. 技术了解:了解并熟悉 Prompt Engineering,包括常见的 Prompt 优化策略(例如 CoT、Fewshot 等)。 5. 数据分析与决策:对数据驱动的决策有深入的理解,能够基于数据分析做出决策。 6. 创新思维:具有创新思维,能够基于业务需求提出并实践 AI first 的解决方案。 7. 前沿关注:对 AI 技术与算法领域抱有强烈的好奇心,并能付诸实践;对 AIGC 领域有深入的理解与实际工作经验,保持对 AI 技术前沿的关注。 8. 编程与算法能力:具备一定的编程和算法研究能力,能应用新的 AI 技术和算法于对话模型生成;具有一定的编程基础,熟练使用 Python、Git 等工具。 此外,从实际案例来看,产品经理还会在工作中运用 AI 工具解决实际问题,如使用 GPT 优化代码以提高工作效率和解决性能问题等。
2024-10-16
推荐免费使用的图生文的AI
以下为您推荐一些免费使用的图生文的 AI 工具: 1. Clip Interrogator:这是一款「图生文」反向工具,上传图片即可生成对应的文字描述。实测上传真实照片也可生成对应 prompt。 网址:https://replicate.com/pharmapsychotic/clipinterrogator 2. Midjourney:已实现「图生文」反向输出功能。 此外,还有一些相关的 AI 工具供您参考: 1. Pika:出色的文本生成视频 AI 工具,擅长动画制作,并支持视频编辑。 2. SVD:如果熟悉 Stable Diffusion,可以直接安装这款最新的插件,在图片基础上直接生成视频。这是由 Stability AI 开源的 video model。 3. Leonardo:能生成高质量图片,支持用户上传自己 DIY 的模型,提供丰富的模型选择,但存在访问限制。 更多相关工具和信息您可以查看:https://www.waytoagi.com/category/38 。请注意,以上内容由 AI 大模型生成,请仔细甄别。
2024-10-11
开源模型和闭源模型
开源模型和闭源模型的情况如下: 专有模型(闭源模型):如 OpenAI、Google 等公司的模型,需访问其官方网站或平台(如 ChatGPT、Gemini AI Studio)使用。 开源模型: 可使用推理服务提供商(如 Together AI)在线体验和调用。 可使用本地应用程序(如 LM Studio)在个人电脑上运行和部署较小的开源模型。 例如 DeepSeek、Llama 等开源模型。 Qwen 2 开源,具有多种尺寸的预训练和指令调整模型,在大量基准评估中表现出先进性能,超越目前所有开源模型和国内闭源模型,在代码和数学性能等方面显著提高。 金融量化领域的大模型正趋向闭源,几个巨头的核心模型如 OpenAI 最新一代的 GPT4、Google 的 Bard 以及未来的 Gemini 短时间内不会公开。Meta 的 LLaMA 目前开源,但未来可能改变。OpenAI 未来可能开源上一代模型。
2025-02-17
做chatbi有什么开源项目可以参考
以下是一些可参考的做 chatbot 的开源项目: Inhai:Agentic Workflow:其中介绍了大模型利用「网页搜索」工具的典型例子,还包括 Agent 自行规划任务执行的工作流路径以及多 Agent 协作的内容。 ChatDev:吴恩达通过此开源项目举例,可让大语言模型扮演不同角色相互协作开发应用或复杂程序。 ChatMLX:多语言支持,兼容多种模型,具有高性能与隐私保障,适用于注重隐私的对话应用开发者。链接:https://github.com/maiqingqiang/ChatMLX
2025-02-17
开源文字转语音
以下是为您提供的开源文字转语音相关信息: WhisperSpeech:通过对 OpenAI Whisper 模型的反向工程实现,生成发音准确、自然的语音输出。 相关链接:https://github.com/collabora/WhisperSpeech 、https://x.com/xiaohuggg/status/1748572050271420663?s=20 StyleTTS 2:一个开源的媲美 Elevenlabs 的文本转语音工具,可结合文本角色内容和场景音快速生成有声小说。 主要特点:多样化的语音风格、更自然的语音、高效生成、精确的语音控制、接近真人的语音合成、适应不同说话者。 工作原理:利用风格扩散和与大型语音语言模型(SLM)的对抗性训练来实现接近人类水平的 TTS 合成,通过扩散模型将风格建模为一个潜在的随机变量,以生成最适合文本的风格,而不需要参考语音,实现了高效的潜在扩散,同时受益于扩散模型提供的多样化语音合成。 相关链接:暂无
2025-02-15
采用GPL许可证的AI开源模型有哪些
以下是一些采用 GPL 许可证的智谱·AI 开源模型: 其他模型: WebGLM10B:利用百亿参数通用语言模型(GLM)提供高效、经济的网络增强型问题解答系统,旨在通过将网络搜索和检索功能集成到预训练的语言模型中,改进现实世界的应用部署。代码链接: WebGLM2B:代码链接无,模型下载: MathGLM2B:在训练数据充足的情况下,20 亿参数的 MathGLM 模型能够准确地执行多位算术运算,准确率几乎可以达到 100%,其结果显著超越最强大语言模型 GPT4 在相同测试数据上 18.84%的准确率。代码链接: MathGLM500M:代码链接无,模型下载: MathGLM100M:代码链接无,模型下载: MathGLM10M:代码链接无,模型下载: MathGLMLarge:采用 GLM 的不同变体作为骨干来训练 MathGLM,包括具有 335M 参数的 GLMlarge 和 GLM10B。此外,还使用 ChatGLM6B 和 ChatGLM26B 作为基座模型来训练 MathGLM。这些骨干模型赋予 MathGLM 基本的语言理解能力,使其能够有效理解数学应用题中包含的语言信息。模型下载: 多模态模型: CogAgent18B:基于 CogVLM17B 改进的开源视觉语言模型。CogAgent18B 拥有 110 亿视觉参数和 70 亿语言参数,支持 11201120 分辨率的图像理解,在 CogVLM 功能的基础上,具备 GUI 图像的 Agent 能力。代码链接:、始智社区 CogVLM17B:强大的开源视觉语言模型(VLM)。基于对视觉和语言信息之间融合的理解,CogVLM 可以在不牺牲任何 NLP 任务性能的情况下,实现视觉语言特征的深度融合。我们训练的 CogVLM17B 是目前多模态权威学术榜单上综合成绩第一的模型,在 14 个数据集上取得了 stateoftheart 或者第二名的成绩。代码链接无,模型下载: Visualglm6B:VisualGLM6B 是一个开源的,支持图像、中文和英文的多模态对话语言模型,语言模型基于 Chat 模型: ChatGLM6Bint4:ChatGLM6B 的 Int4 版本。最低只需 6GB 显存即可部署,最低只需 7GB 显存即可启动微调(,模型权重下载链接:魔搭社区、始智社区、启智社区 ChatGLM6Bint8:ChatGLM6B 的 Int8 版本。上下文 token 数:2K,代码链接:,模型权重下载链接:魔搭社区、始智社区、启智社区 AgentLM7B:1. 提出了一种 AgentTuning 的方法;2. 开源了包含 1866 个高质量交互、6 个多样化的真实场景任务的 Agent 数据集 AgentInstruct;3. 基于上述方法和数据集,利用 Llama2 微调了具备超强 Agent 能力的 AgentLM7B、AgentLM13B、AgentLM70B。上下文 token 数:4K,代码链接: AgentLM13B:上下文 token 数:4K,代码链接无,模型权重下载链接: AgentLM70B:上下文 token 数:8K,代码链接无,模型权重下载链接:
2025-02-14
开源模型的MIT模式、Apache、GPL、BSD模式的模型案例有哪些?
目前开源模型的 MIT 模式、Apache、GPL、BSD 模式的具体案例众多且不断更新。MIT 模式的开源模型如 TensorFlow Lite;Apache 模式的有 MXNet;GPL 模式的像 Gnuplot;BSD 模式的例如 OpenCV 等。但请注意,这只是其中的一部分,实际情况可能会有所变化。
2025-02-14
开源模型的MIT模式、Apache、GPL、BSD模式的定义和区别
MIT 模式:这是一种相对宽松的开源许可模式。允许使用者对软件进行修改、再发布,并且几乎没有限制,只要求在再发布时保留原版权声明和许可声明。 Apache 模式:提供了较为宽松的使用条件,允许修改和再发布代码,但要求在修改后的文件中明确注明修改信息。同时,还包含一些专利相关的条款。 GPL 模式:具有较强的传染性和约束性。如果基于 GPL 许可的代码进行修改和再发布,修改后的代码也必须以 GPL 许可发布,以保证代码的开源性和可共享性。 BSD 模式:也是一种较为宽松的许可模式,允许使用者自由地修改和再发布代码,通常只要求保留原版权声明。 总的来说,这些开源许可模式在对使用者的限制和要求上有所不同,您在选择使用开源模型时,需要根据具体需求和项目情况来确定适合的许可模式。
2025-02-14
帮我找一些具有文件上传功能的AI智能体或应用的搭建教程
以下是一些具有文件上传功能的 AI 智能体或应用的搭建教程: 使用 Coze 搭建: 方法一:直接使用 Coze 的 API 对接前端 UI 框架,将工作流逻辑集中在工程模板端,实现前后端分离的处理方式。 方法二:直接调用大模型 API,并通过前端代码实现提示词处理和逻辑控制,将交互流程完全放入前端代码中。 实现文件上传:通过 Coze 的,用户可将本地文件上传至 Coze 的云存储。在消息或对话中,文件上传成功后可通过指定 file_id 来直接引用该文件。 Coze 的 API 与工作流执行:关于 API 的使用及工作流执行流程可以参考。 设计界面:搭建 Demo 最简单的方式是首先绘制草图,然后借助多模态 AI 工具(如 GPT/Claude)生成初步的前端结构代码。前端开发语言包括 HTML 用于构建网页基础框架,定义整体页面结构;CSS 负责网页布局样式美化;JavaScript 实现交互逻辑,如信息处理、网络请求及动态交互功能。 Stuart 教学 coze 应用中的“上传图片”: 传递上传图片地址:首先,把工作流的入参设置为 File>Image。然后,注意代码内容,其中 ImageUpload1 部分是可以替换成实际的文件上传组件的组件名称的,一个引号,一个大括号都不能错。 获得图片 URL:接下来就比较简单了,工作流中可以直接用这个 image 变量,也可以用 string 模式输出,它会在工作流中变成图片的 URL。 无企业资质也能 coze 变现: 以 API 形式链接 Zion 和 Coze:同理也可以为 dify、kimi 等给任何大模型&Agent 制作收费前端。参考教程: 自定义配置:变现模版 UI 交互、API、数据库等拓展功能,支持在 Zion 内自由修改,可参考文档配置。相关链接:支付: 微信小程序变现模版正在开发中,不久将会上线。目前实现小程序端可以通过 API 形式搭建。 Zion 支持小程序,Web,AI 行为流全栈搭建,APP 端全栈搭建 2025 上线。
2025-02-16
你是一名电商专家,有没有哪个AI大模型或者智能体可以完成以下功能:输入材质图片,得到经过设计后的成品衣服
目前尚未有成熟的 AI 大模型或智能体能够直接实现输入材质图片就得到经过设计后的成品衣服的功能。但在 AI 领域的不断发展中,可能会有相关的技术和模型在未来出现。
2025-02-16
你是一名电商专家,有没有哪个AI大模型或者智能体可以完成以下功能:输入衣服材质图片,得到经过设计后的材质成品衣服
目前尚未有专门的 AI 大模型或智能体能够直接实现您所描述的输入衣服材质图片就得到经过设计后的材质成品衣服的功能。但随着 AI 技术的不断发展,未来可能会出现相关的应用。
2025-02-16
如何通过智能体实现RPA功能
通过智能体实现 RPA 功能可以从以下几个方面考虑: 1. 借助 LLM 构建更智能的 RPA 系统:利用 LLM 使 RPA 系统能够根据上下文理解输入和操作,并动态调整以创建更强大的解决方案。可能会有针对特定类型自动化任务的垂直化解决方案,如财务的发票处理或客户支持中的服务查询。 2. 结合特定应用场景:在税务工作中,可利用引刀 AP 创建网页实现智能解答税务问题,结合飞书避免信息泄露和实现自动回复。在财务领域,RPA 可用于开票、网银流水下载等。 3. 为智能体赋予内容:一是给智能体封装技能,如发快递、反馈意见等;二是为智能体创建知识库;三是设置兜底回复。 4. 与现有工具结合:将引到 AP 与飞书机器人结合以提升效率。 5. 选择合适的 RPA 产品:如杭州分叉智能公司的 RPA 产品,其可控制桌面软件,实现办公流程自动化,底层语言用 Python,使用界面为全中文。 6. 针对多人多部门使用场景:公司多人多部门使用 RPA 可实现无人化办公专区,提高办公效率,节省人力时间成本。 7. 工作流封装:将工作流问题封装成智能体以应对复杂场景。
2025-02-15
豆包、DeepSeek、ChatGPT分别有些什么功能用于解决用户整理对话的需求
以下是豆包、DeepSeek、ChatGPT 在解决用户整理对话需求方面的功能: ChatGPT: 1. 内容生成:可以生成文章、故事、诗歌、歌词等内容。 2. 聊天机器人:作为聊天机器人的后端,提供自然的对话体验。 3. 问答系统:为用户提供准确的答案。 4. 文本摘要:生成文本的摘要或概述。 5. 机器翻译:在这方面有不错的表现。 6. 群聊总结:能够对群聊内容进行总结。 7. 代码生成:生成代码片段,帮助开发者解决编程问题。 8. 教育:帮助学生解答问题或提供学习材料。 9. 浏览器插件:如 webpilot 。 10. PDF 对话:通过相关网站实现与 PDF 的对话。 11. PPT 生成:协助高效制作 PPT 。 12. 音视频提取总结:通过特定网站进行总结。 13. 播客总结:通过特定网站完成总结。 14. 生成脑图:通过相关网站生成。 关于豆包和 DeepSeek 在解决用户整理对话需求方面的功能,上述内容中未提及。
2025-02-13
哪个AI的知识库功能比较强大?
以下是一些知识库功能比较强大的 AI 相关产品: 1. Coze 汽车售后服务知识库 Bot:主要针对汽车售后场景,能解答问题,输出文档,还具备智能录入功能。当用户提出问题,它能给出初步判断并分析原因,给出精准解决方案及操作视频。问题解决后能生成维修报告和案例归档文档存入 AI 知识库。其 AI 知识库不仅支持单独文本录入还支持链接录入,能智能解析分解文章并录入知识点。 2. WayToAGI:这是由一群热爱 AI 的专家和爱好者共同建设的开源 AI 知识库,整合了各种 AI 资源,提供了一系列开箱即用的工具,如文生图、文生视频、文生语音等详尽的教程,还能追踪 AI 领域最新进展并时刻更新。 3. 扣子:其记忆库功能可以保留和理解对话细节,并支持添加外部知识库给模型补充知识。知识库支持上传本地或线上内容,然后将这些内容分割成知识分片,通过语义匹配给模型补充知识。
2025-02-13