直达「 通往AGI之路 」飞书知识库 →
首页/问答列表/问答详情

有什么根据图片反向输出 Prompt的工具么

回答

以下是一些根据图片反向输出 Prompt 的工具:

内容由 AI 大模型生成,请仔细甄别(powered by aily)

参考资料

Prompt网站精选

prompter/)||<br>|IMI Prompt|支持多种风格和形式的详细的MJ关键词生成器|[https://www.imiprompt.com/](https://www.imiprompt.com/)||<br>|Prompt Hero|好用的Prompt搜索,Search prompts for Stable Diffusion,ChatGPT & Midjourney|[https://prompthero.com/](https://prompthero.com/)||<br>|OpenArt|AI人工智能图像生成器|[https://openart.ai/](https://openart.ai/)||<br>|img2prompt |根据图片提取Prompt|[https://replicate.com/methexis-inc/img2prompt](https://replicate.com/methexis-inc/img2prompt)||<br>|MidJourney提示词工具|专门为MidJourney做的提示词工具,界面直观易用|[https://aijiaolian.chat/midjourney](https://aijiaolian.chat/midjourney)||<br>|PromptBase|Prompt交易市场,可以购买、使用、销售各种对话、设计Prompt模板|[https://promptbase.com/](https://promptbase.com/)||<br>| AiTuts Prompt| AiTuts Prompt是一个精心策划的高质量Midjourney提示数据库,提供了广泛的不同风格供你选择。|[https://prompts.aituts.com/](https://prompts.aituts.com/)||

Tusiart简易上手教程

8.负向提示词Negative Prompt:用英文写你想要AI避免产生的内容,也是一样不用管语法,只需单词和短语组合,中间用英文半角逗号隔开。9.采样算法:这玩意儿还挺复杂的,现在我一般选DPM++ 2M Karras比较多。当然,最稳妥的是留意checkpoint的详情页上,模型作者是否有推荐采样器,使用他们推荐的采样器会更有保障。10.采样次数:要根据你采样器的特征来,一般我选了DPM++ 2M Karras之后,采样次数在30~40之间,多了意义不大还慢,少了出图效果差。11.尺寸:看你喜欢,看你需求。12.提示词相关性:指图像与用户输入prompt的匹配程度。数字越大,图像就越接近你的提示。但数字过高会让图像质量下降。在5~15之间为好,我看其他人一般用7,9,12。13.随机种子:生成的每张图都有随机种子,在固定好种子以后,可以对图片进行“控制变量”效果的操作,比如说修改提示词、修改clip跳过层等等。14.ADetailer:面部修复插件,预防或解决脸部崩坏的超强小工具,高阶操作后面再学,没事勾上也OK。15.CLIP skip:设成2就行。

Tusiart简易上手教程

1.Prompt提示词:想要AI生成的内容(不绝对有效,需要多费功夫学习,哪怕从照抄别人开始)。2.负向提示词Negative Prompt:想要AI避免产生的内容(不绝对有效,也需要费功夫学,哪怕从照抄别人开始)。1.图生图:上传图片之后,sd将根据你的图片和你选择的模型以及输入的prompt等等信息进行重绘。重绘幅度越大,输出的图和输入的图差别就越大。1.尺寸:图片生成的尺寸大小。太小了AI生成不了什么内容,太大了AI开始放飞自我。如果你要高清图,可以设置中等的尺寸并用高分辨率修复。1.采样算法:使用何种采样器,通俗说就是让AI用什么算法生图。1.采样次数:AI调整图片内容的次数。步骤越多,调整越精密,出图效果理论上更好,生图耗时越长。但是并非越多越好,效果的提升非线性,多了以后效果的增长曲线就放平并开始震荡了。1.提示词相关性:指图像与prompt的匹配程度。数字增大将导致图像更接近你的提示,但过高会让图像质量下降。

其他人在问
prompt
以下是关于 prompt 的相关知识: 什么是 prompt:提示是您给 Claude 的文本,用于引发相关输出。提示通常以问题或指示的形式出现。例如:|Role|Prompt| || |User|Why is the sky blue? 为什么天空是蓝色的?Claude 回答的文本被称为“响应”,有时也被称为“输出”或“完成”。 什么是提示工程及与提示词的区别:提示工程是人工智能领域中,特别是在自然语言处理(NLP)和大型语言模型(LLMs)的上下文中一个相对较新的概念。它涉及设计和优化输入提示,以引导 AI 模型生成特定类型的输出或执行特定的任务。其关键点包括精确性、创造性、迭代、上下文理解。提示词通常指的是直接输入到 AI 模型中的问题、请求或指示,它们是提示工程的一部分。提示词可以简单或复杂。提示词是实际输入到 AI 系统中的具体文本,用以引导模型的输出。提示工程则是一个更广泛的概念,不仅包括创建提示词,还涉及理解模型的行为、优化提示以获得更好的性能、以及创造性地探索模型的潜在应用。提示工程的目标是最大化 AI 模型的效用和性能,而提示词是实现这一目标的手段之一。在实际应用中,提示工程可能包括对 AI 模型的深入分析、用户研究、以及对特定任务的定制化提示设计。 头脑风暴常用的 20 个 prompt:20 ChatGPT prompts to brainstorm and find infinite new ideas in every field: 1. Brainwriting Prompt: "Let's brainstorm ideas for coming up with intentionally bad ideas can spark creativity and lead us in new directions." 3. Mind Mapping
2024-10-18
什么是System prompt?什么是user prompt?二者有何区别?
System prompt(系统提示)是指在与语言模型(如 ChatGPT 等)的交互中,用于指定模型如何根据设定的角色和逻辑进行回答的文本。它通常包括任务定义(确保模型清楚自己的任务)、输出格式(指导模型如何格式化回答)、操作边界(明确模型不应采取的行为)等部分。在对话中,每次模型给出回应时,都会考虑到系统提示,它就像一个过滤器,模型在回应新提示之前会自动应用。 User prompt(用户提示)则是用户给语言模型(如 Claude 等)的文本,通常以问题或指示的形式出现,用于引发相关输出。 二者的区别在于: 来源不同:System prompt 是为模型设定的规则和指导,而 User prompt 是由用户发起的输入。 作用不同:System prompt 影响模型的整体回答方式和范围,User prompt 则是具体的问题或指令,期望得到针对性的回答。
2024-10-18
常用的prompt的自动化词条组合有哪些?
以下是一些常用的 prompt 自动化词条组合: 1. 情境:这是一个基础的提示词框架,可作为入手选择。 2. 对于 Dynamic Prompts 插件,魔法提示词能自动生成补充,如勾选魔法提示词并设置相关参数,包括创意度、模型选择等。以 MagicPrompt 模型为例,能根据输入的关键词生成丰富的补充内容。 3. 在 Prompt 的基础篇中,每个单独的提示词叫 tag(关键词),支持英语及 emoji 。语法规则包括用英文半角逗号分隔 tag ,改变 tag 权重有两种写法,还能进行 tag 的步数控制。 如果您觉得这些例子过于复杂,可结合自身生活或工作场景,如自动给班级孩子起昵称、排版微信群运营文案、安排减脂餐、列学习计划、设计商务会议调研问卷等,来思考能帮助简单自动化的场景。
2024-10-18
有为AI电商准备的Prompt或者Agent吗
以下是为您整理的关于 AI 电商的 Prompt 或 Agent 的相关信息: 在 Prompt 精选网站中新增了网站,介绍了大语言模型相关的论文研究、学习指南、模型、讲座、参考资料、大语言模型能力以及与其他与提示工程相关的工具。 在 toB 领域,智能客服产品通常借助 agent 来实现,接入企业的 QA 知识库,对用户的信息予以回应,并依据用户的回答下达诸如取消订单、催快递之类的 action 指令。 新增了《》,作者为了让更多人理解 Agents 的可能性,分享了十篇具有较高可读性的关于 AIAgents 论文。 在之前的讨论中提到,AI Agent 的“大脑模块”激活关键之一是 Prompt,但单纯通过 Prompt 构建大脑模块(Prompttuning)一般适合“无趣的灵魂”,拟人化不那么重的情况,而对于“有趣的灵魂”,最直接的解决方式是通过微调一个定向模型(Finetuning),一般创建方式是 Prompttuning + Finetuning 相结合。
2024-10-17
gpt写论文推送的prompt
以下是为您整合的关于 GPT 写论文相关的内容: 1. GPTs 源 prompt:这段文字是关于 GPT 作为聊天机器人的功能和限制说明,包括通过 ChatGPT iOS 应用程序对话、处理图像输入、使用工具执行任务等,还提到了小互 bots 的制作过程,如引入外部知识库、聚合自有功能、提供第三方能力、通过 action set 设定 API 能力以及通过 Prompt 的 CoT 思维链处理数据链路等。相关导航网站:https://waytoagi.feishu.cn/record/Yq8DrMybyekB89csQREcZTkQnpd 、https://gptlet.app/gpts 。 2. DALL·E 3 论文公布、上线 ChatGPT,作者一半是华人:论文的最后一章讨论了限制与风险,如在空间感知方面表现不佳,不能很好理解方位词,构建文本描述生成器时存在问题,生成的文本会让图片在重要细节上产生幻觉,对下游任务有影响,未来希望探索字符级语言模型改进。 3. 教育方面:一个历史老师用 GPT 给学生讲课,历史专业学生已训练识别 ChatGPT 等服务的常见陷阱,语言模型对历史学家和历史专业学生是好事,但短期内对历史老师和其他教育工作者有重大问题,教授需重新思考作业,LLMs 注重迭代反馈,不同提示会产生不同结果。
2024-10-17
什么是promptscript?
Promptscript 在 AI 视频生成中,是直接描述或引导视频生成的文本或指令。它类似于给 AI 的提示,包含主体、运动、风格等信息,用户借此控制和指导生成内容。其作用十分重要,是表达需求的方式,会影响视频的内容和质量。如果上述解释过于抽象,您可以理解为:将您输入的文字变成对应的画面和运动形式。在即梦 Dreamina 这款具备强大视频生成功能的工具中,要想获得最佳的视频质量,需要写好 prompt。图片生视频和文本生视频都有相应的 prompt 输入位置。在自然语言处理领域中,Prompt 是一段文本或语句,用于指导机器学习模型生成特定类型、主题或格式的输出,例如“给我写一篇有关人工智能的文章”“翻译这个英文句子到法语”等。在图像识别领域中,Prompt 可以是一个图片描述、标签或分类信息。
2024-10-15
在sd中防止多人出现的反向提示词
我总结了以下几点在 Stable Diffusion 中防止多人出现的反向提示词: 1. 使用"solo"、"single figure"等关键词 在提示词中加入"solo"、"single figure"等词语,可以指示生成单个人物,而不是多人场景。这有助于避免生成包含多个人物的图像。 2. 限制人物数量 在提示词中明确指定生成单个人物,例如"a person", "a woman"等,而不是使用诸如"people"、"group"等词语。这可以有效限制生成的人物数量。 3. 避免使用集体词汇 在提示词中尽量避免使用"crowd"、"group"、"team"等集体性词汇,这些词容易引导生成包含多个人物的图像。 4. 使用负面提示词 在提示词中加入"no multiple people"、"avoid group shots"等负面提示词,明确告知模型不要生成包含多人的图像。这可以有效抑制多人出现的情况。 5. 结合其他限制条件 除了人物数量限制,还可以在提示词中加入其他限制条件,如特定的背景、场景、服饰等,进一步缩小生成范围,避免出现多人的情况。 总的来说,在 Stable Diffusion 中防止多人出现,需要在提示词中采取明确的限制措施,包括使用特定关键词、限制人物数量、避免集体词汇以及加入负面提示等方式。通过这些手段,可以更好地控制生成结果,避免出现不符合需求的多人图像。
2024-05-01
我需要找一个根据用户故事 输出界面原型的工具
以下为您推荐一些根据用户故事输出界面原型的工具: 1. 即时设计:https://js.design/ 这是一款可在线使用的“专业 UI 设计工具”,为设计师提供更加本土化的功能和服务,相较于其他传统设计工具,更注重云端文件管理、团队协作,并将设计工具与更多平台整合,一站搞定全流程工作。 2. V0.dev:https://v0.dev/ Vercel Labs 推出的 AI 生成式用户界面系统。每个人都能通过文本或图像生成代码化的用户界面。它基于 Shadcn UI 和 Tailwind CSS 生成复制粘贴友好的 React 代码。 3. Wix:https://wix.com/ Wix 是一款用户友好的 AI 工具,可让您在没有任何编码知识的情况下轻松创建和自定义自己的网站,提供广泛的模板和设计供您选择,以及移动优化和集成电子商务功能等功能。Wix 建站工具通过拖放编辑、优秀模板和 250 多种 app,能帮助不同领域的用户创建所有种类的网站。 4. Dora:https://www.dora.run/ 使用 Dora AI,可以通过一个 prompt,借助 AI 3D 动画,生成强大网站。支持文字转网站,生成式 3D 互动,高级 AI 动画。 请注意,以上内容由 AI 大模型生成,请仔细甄别。
2024-10-18
把文稿整理并输出成公众号文章的prompt
以下是为您整理的关于如何利用 AI 打造爆款公众号文章的内容: 陶力文律师指出,写好提示词对于律师用好 AI 至关重要。文章结构需精华,包括定义身份、流程和所需资源描述,对资源及使用的阐述,以及对最终输出结果的描述。同时,要遵循相关要求,如结论有案例基础、文字简练精准、案例脱敏等。 利用 AI 生产文章过程相对简单,关键是提供清晰且具指导性的提示词。好的提示词能助 AI 准确理解需求并生成预期内容。若已有基本提示词,AI 可生成基础文章;若想提升质量,可提供更详细、具创意的提示词,如“请根据我们收集的关于 OpenAI 回应马斯克言论的资讯,创作一篇既深入又易于理解的科技资讯文章。文章应该有一个吸引人的标题,开头部分要概述事件的背景和重要性,主体部分详细分析 OpenAI 的回应内容及其可能产生的影响,结尾处提出一些引人深思的问题或观点。”这样的提示词能为 AI 设定基本结构和内容要求,生成结构完整、内容丰富、观点鲜明的文章,但最终产出可能需微调以符合预期和公众号风格。不到十分钟就能完成文章内容产出。 第五部分为结语及作者宣传,欢迎有问题联系咨询。
2024-10-09
是否有可以输入图片输出重新绘制的流程图的AI工具
以下是一些可以输入图片输出重新绘制的流程图的 AI 工具: 1. Lucidchart: 简介:强大的在线图表制作工具,集成了 AI 功能,可自动化绘制多种示意图。 功能:拖放界面,易于使用;支持团队协作和实时编辑;丰富的模板库和自动布局功能。 官网:https://www.lucidchart.com/ 2. Creately: 简介:在线绘图和协作平台,利用 AI 功能简化图表创建过程,适合绘制多种图表。 功能:智能绘图功能,可自动连接和排列图形;丰富的模板库和预定义形状;实时协作功能。 官网:https://creately.com/ 3. Whimsical: 简介:专注于用户体验和快速绘图的工具,适合创建多种示意图。 功能:直观的用户界面,易于上手;支持拖放操作,快速绘制和修改图表;提供多种协作功能。 官网:https://whimsical.com/ 4. Miro: 简介:在线白板平台,结合 AI 功能,适用于团队协作和各种示意图绘制。 功能:无缝协作,支持远程团队实时编辑;丰富的图表模板和工具;支持与其他项目管理工具集成。 官网:https://miro.com/ 5. Microsoft Visio: 简介:专业的图表绘制工具,适用于复杂的流程图等。AI 功能可帮助自动化布局和优化图表设计。 功能:集成 Office 365,方便与其他 Office 应用程序协同工作;丰富的图表类型和模板;支持自动化和数据驱动的图表更新。 官网:https://www.microsoft.com/enus/microsoft365/visio/flowchartsoftware 6. Diagrams.net: 简介:免费且开源的在线图表绘制工具,适用于各种类型的示意图绘制。 功能:支持本地和云存储(如 Google Drive、Dropbox);多种图形和模板,易于创建和分享图表;可与多种第三方工具集成。 官网:https://www.diagrams.net/ 使用这些 AI 工具绘制示意图的一般步骤如下: 1. 选择工具:根据具体需求选择合适的 AI 绘图工具。 2. 创建账户:注册并登录该平台。 3. 选择模板:利用平台提供的模板库,选择适合需求的模板。 4. 添加内容:根据需求添加并编辑图形和文字,利用 AI 自动布局功能优化图表布局。 5. 协作和分享:若需要团队协作,可邀请团队成员一起编辑。完成后导出并分享图表。
2024-10-07
你可以处理EXCEL并输出EXCEL吗
目前我无法直接处理 Excel 并输出 Excel 文件。但我可以为您提供关于 Excel 处理的相关知识和指导,帮助您更好地了解和运用 Excel 的功能。
2024-09-26
kimi 单次输出字数上限是多少?
Kimi 是国内最早支持 20 万字无损上下文的 AI,也是目前对长文理解做得最好的 AI 产品。但在实际输出时,通常会被截断到 1 千字以内。例如在同时询问多个大模型并返回汇总梳理后的结果中,就存在这种输出截断的情况。此外,通过一些不太正经的办法,如情绪勒索,Kimi 能实现一定程度的扩写。 您可以通过以下链接使用 Kimi:点我去下载 。
2024-09-24
如何投喂自己专业领域知识训练出一个可以输出自己专业领域可做分析和决策的机器人
在训练一个能在自己专业领域进行分析和决策的机器人时,首先您将学习一些软件开发最佳实践的提示。接下来会涵盖一些常见的用例,包括总结、推理、转换和扩展。然后您将使用 LLM 构建一个聊天机器人。在大型语言模型或 LLM 的开发中,大体上有两种类型的 LLM,分别称为基础 LLM 和指令调整后的 LLM。基础 LLM 已经训练出来根据文本训练数据预测下一个单词,通常是在互联网和其他来源的大量数据上进行训练,以找出接下来最有可能的单词。例如,若提示“一次有一个独角兽”,它可能会继续完整这个句子,预测出接下来的几个单词是“和所有的独角兽朋友生活在一个神奇的森林里”。但如果提示“法国的首都是什么”,那么 LLM 可能会给出正确的回答“巴黎”,或者也可能会给出错误的回答。训练后的 LLM 可以接收新的提示作为输入,并输出预测结果。
2024-09-23
生成分享图片工具
以下为一些生成分享图片的工具及相关方法: 1. Midjourney V6:可用于生成场景模型。 放大工具:Comfy Ui、Magnific Ai、Upscayl 深度图:Leia Pix 法线图:Shadermap 2. 辅助工具生成透明背景图像: 安装好插件后,在生成图片时勾选“layerdiffusion enabled”。 在“layerdiffusion method”中选择生成透明图像的模式,如“Only Generate Transparent Image”。 提示中输入透明物体的描述,如“玻璃杯”,点击生成可得到透明背景的玻璃杯图像。 也可上传背景图像,在“layerdiffusion method”中选择“From Background to Blending”,然后生成透明图像。 反之,也可以先生成透明的前景,然后选择“From Foreground to Blending”模式,生成背景。 特定模型: layer_xl_transparent_attn:用于将 Stable Diffusion XL 模型转化为透明图像生成器的模型。 layer_xl_transparent_conv:与 layer_xl_transparent_attn 类似,通过修改 conv 层的 offset 实现。 layer_xl_fg2ble:用于将 XL 模型转化为前景图像到混合图像的生成模型。 layer_xl_fgble2bg:用于基于前景和混合图像生成背景的模型。 layer_xl_bg2ble:将 XL 模型转化为根据背景图像生成混合图像的模型。 layer_xl_bgble2fg:将 XL 模型转化为根据背景和混合图像生成前景的模型。 vae_transparent_encoder:图像编码器,用于从像素空间中提取潜在偏移,帮助透明图像的生成。 vae_transparent_decoder:图像解码器,输出真实的 PNG 图像。 3. Aimwise WaytoAGI 百家号文旅分享中的方法: 开启 controlnet 边缘类模型,导入需要处理的 logo,调整合适的 cn 参数。 开启 controlnet IP adapter 功能性模型,导入风格参考图,调整合适的 cn 参数,可快速进行风格迁移和融合,提升出图效率。
2024-10-18
ai现在拍摄一本书的图片能够识别到这是什么书么
目前的 AI 技术在拍摄一本书的图片并识别其是什么书方面已经取得了一定的进展。 在图像识别领域,神经网络发挥着重要作用。例如,对于识别印刷体图片,通常会先将图片转换为黑白,调整至固定尺寸,然后与数据库中的内容进行对比以得出结论。但实际情况较为复杂,存在多种字体、不同拍摄角度等多种例外情况,单纯依靠添加规则的方法不可行,而神经网络专门处理这类未知规则的情况。 不过,要准确识别一本书,还面临一些挑战,如书籍的版本、封面设计的多样性等。但随着技术的不断发展和数据的积累,未来 AI 识别一本书的准确性有望不断提高。 同时,也有一些相关的实验和研究,比如通过设计工作流让 AI 自举式地进行创造,从作家的作品中提取名场面并转译成绘画指令等。
2024-10-17
怎么用AI绘制一个我指定的动漫人物原型的各类图片,例如日漫《好想告诉你》中的黒沼爽子
要使用 AI 绘制指定的动漫人物原型,如日漫《好想告诉你》中的黑沼爽子,您可以按照以下步骤进行: 1. 选择合适的 AI 绘画工具:目前有许多在线的 AI 绘画平台和软件可供选择,例如 DALL·E2、StableDiffusion 等。 2. 明确描述特征:在输入描述时,尽可能详细地描述黑沼爽子的外貌特征,包括发型(如黑色的长直发)、眼睛(如大而明亮的眼睛)、服装(如校服的款式和颜色)、表情(如羞涩的微笑)等。 3. 参考相关图片:如果可能,找到黑沼爽子的官方图片或其他粉丝绘制的作品,作为参考提供给 AI 绘画工具,以帮助其更好地理解您的需求。 4. 不断调整和优化:根据生成的初步结果,对描述进行调整和优化,例如修改某些特征的描述、增加更多细节等,以获得更符合您期望的图片。 需要注意的是,AI 绘画的结果可能会受到多种因素的影响,不一定能完全符合您的预期,但通过不断尝试和优化,您有机会获得较为满意的作品。
2024-10-17
有可以查询图片的快速方法吗?
以下为一些快速查询图片的方法: 1. 利用 Perplexity.AI 的 Search Images 功能:点击搜索结果旁的加号,可快速浏览并选择与主题紧密相连的图片资源。在挑选图片时,要避免使用带有水印、画质不清晰或分辨率较低的图片。图片出处主要在 twitter 和官方网站。 2. 对于 Midjourney 生成的图片: 作业 ID 是其唯一标识符,格式类似于 9333dcd0681e4840a29c801e502ae424,可以在图像文件名的第一部分、网站上的 URL 和图像文件名中找到。 在网页上,可通过选择...> Copy...>作业 ID 来在作品库中查找任何图像的作业 ID。 从 URL 中,可在打开作品的网页链接末尾找到 Job ID。 从文件名中,Job ID 在文件名的最后一部分。 使用表情符号✉️可以将已完成的作业发送到私信中,私信中将包括图像的 seed 号和作业 ID,但✉️表情符号只适用于您自己的作业。 3. 如果不喜欢用模板找封面图,可根据文章内容搜索匹配的封面。比如在公众号中搜索同行的封面,直接“拿来主义”。若文章正文里没有封面图,可用壹伴浏览器插件的“查看封面”按钮(需会员),或者使用秘塔 AI 搜索工具,输入文章链接获取封面。相关在线工具链接:https://www.mgpaiban.com/tool/wxfm.html ,为方便使用可将其收藏。
2024-10-16
有相关图片识别的相关知识和工具么?
以下是关于图片识别的相关知识和工具: 知识: 图片识别中,对于印刷体图片的识别,可能先将图片变为黑白、调整为固定尺寸,再与数据库对比得出结论。但实际情况复杂,存在多种字体、拍摄角度等例外情况,传统基于规则的方法不可行。 神经网络专门处理未知规则的情况,其发展得益于生物学研究支持和数学方向的指引,能处理如手写体识别等未知情况。 图像融合是将两个或多个图像合成为一个新的图像,以获得更全面和丰富的信息,可通过像素级、特征级和决策级融合等技术实现,在多个领域有应用。 目标检测是在图像或视频中准确识别和定位特定对象,多模态信息融合可提高其性能和鲁棒性。 工具和参考文献: 推荐阅读《这就是 ChatGPT》这本书,有助于深入了解相关内容。 以下是一些相关的参考文献: VisionLanguage Models for Vision Tasks:A Survey Visual Instruction Tuning towards GeneralPurpose Multimodal Model:A Survey ViTs are Everywhere:A Comprehensive StudyShowcasing Vision Transformers in Different Domain Multimodal Foundation Models:From Specialists to GeneralPurpose Assistants VisionLanguage Pretraining:Basics,Recent Advances,and Future Trends An Image is Worth 16x16 Words:Transformers for Image Recognition at Scale COGVLM:VISUAL EXPERT FOR LARGE LANGUAGE MODELS CogAgent:A Visual Language Model for GUI Agents AppAgent:Multimodal Agents as Smartphone Users Gemini:A Family of Highly Capable Multimodal Models QwenVL:A Versatile VisionLanguage Model for Understanding,Localization,Text Reading,and Beyond arxiv:ChatVideo:A Trackletcentric Multimodal and Versatile Video Understanding System arxiv:Video Understanding with Large Language Models:A Survey arxiv:Vid2Seq:LargeScale Pretraining of a Visual Language Model for Dense Video Captioning CSDN 博客:视频理解多模态大模型(大模型基础、微调、视频理解基础) CSDN 博客:逐字稿| 9 视频理解论文串讲(下)【论文精读】_视频理解论文串讲(下) Youtube:Twostream Convolutional Networks for Action Recognition in Videos arxiv:Is SpaceTime Attention All You Need for Video Understanding? 相关算法: 图像融合的相关算法有:小波变换、基于金字塔变换的多分辨率融合、基于区域的图像融合、基于特征的图像融合等。 目标检测的相关算法有:基于深度学习的目标检测算法(如 RCNN、Fast RCNN、Faster RCNN、YOLO、SSD 等)、基于传统计算机视觉技术的目标检测算法(如 HOG、SIFT、SURF 等)。
2024-10-16
现在最新的 AI 生成图片产品有哪些
目前最新的 AI 生成图片产品主要有以下这些: 1. Artguru AI Art Generator:在线平台,能生成逼真图像,为设计师提供灵感,丰富创作过程。 2. Retrato:AI 工具,可将图片转换为非凡肖像,有 500 多种风格供选择,适合制作个性头像。 3. Stable Diffusion Reimagine:新型 AI 工具,通过稳定扩散算法生成精细、具细节的全新视觉作品。 4. Barbie Selfie Generator:专为喜欢梦幻童话风格的人设计,能将上传的照片转换为芭比风格,效果出色。 此外,还有一些用于设计海报的 AI 产品: 1. Canva(可画):https://www.canva.cn/ ,是受欢迎的在线设计工具,提供大量模板和设计元素,AI 功能可协助选择颜色搭配和字体样式。 2. 稿定设计:https://www.gaoding.com/ ,智能设计工具采用先进人工智能技术,自动分析和生成设计方案。 3. VistaCreate:https://create.vista.com/ ,简单易用的设计平台,提供大量设计模板和元素,用户可使用 AI 工具创建个性化海报,智能建议功能可帮助快速找到合适设计元素。 4. Microsoft Designer:https://designer.microsoft.com/ ,通过简单拖放界面,可快速创建演示文稿、社交媒体帖子等视觉内容,集成丰富模板库和自动图像编辑功能。 以下是图像生成的 Top30 AI 产品数据: |排名|产品名|分类|6 月访问量(万 Visit)|相对 5 月变化| |||||| |1|Adobe firefly|图像生成|28890|0.053| |2|Freepik|图像生成|8341|0.076| |3|Shutterstock|图像生成|6389|0.068| |4|Civitai|图像生成|2592|0.046| |5|Leonardo.Ai|图像生成|1680|0.027| |6|Midjourney|图像生成|1673|0.109| |7|Yodayo|图像生成|1554|0.044| |8|Ideogram|图像生成|1140|0.081| |9|Picsart Al|图像生成|1103|0| |10|Sea Art AI|图像生成|912|0.018| |11|PixAI|图像生成|899|0.07| |12|Openart|图像生成|650|0.074| |13|NovelAI|图像生成|639|0.052| |14|Playground|图像生成|631|0.065| |15|Krea|图像生成|611|0.119| |16|nightcafe|图像生成|606|0.039| |17|Media.io|图像生成|551|0.086|
2024-10-16