Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

目标检测领域最新sota模型

Answer

以下是目标检测领域的一些最新模型:

  • YOLOv8 目标检测跟踪模型:快速准确的多对象识别和定位,支持实例分割、人体姿态估计等,多平台兼容,是一站式视觉识别解决方案。详细介绍:https://docs.ultralytics.com/models/ ,GitHub:https://github.com/ultralytics/ultralytics 。
  • OpenAI 在 2024 年 2 月发布的 Sora 模型,是一个文本到视频的生成式 AI 模型,能够根据文本提示生成现实或想象场景的视频,在目标检测方面也有一定的应用和潜力。
Content generated by AI large model, please carefully verify (powered by aily)

References

OpenAI联创:RLHF是超级智能的秘密武器

[title]OpenAI联创:RLHF是超级智能的秘密武器[heading1]模型将解锁哪些新能力?Dwarkesh Pa tel:从宏观角度来看,pre-training和post-training的主要任务分别是什么?二者的主要区别是?John Schulman:pre-training阶段主要是让模型学习互联网上的网页、代码等等各种内容,并且让模型做到能模仿这些内容,模型在预训练后已经能生成很仿真的网页。同时这个模型还需要做最大化对数概率(maximize log probability)的训练,主要是为了让模型能在给定一系列token之后准确地预测下一个token。因为我们的训练目标是最大化这些预测的对数概率,所以这个模型在概率分配上会非常精确。也就是说,它不仅可以生成网络上的各种内容,还能为这些内容赋予相应的概率值。pre-training阶段后的基础模型能够扮演各种角色,生成多种不同类型的内容。进入到post-training阶段之后,我们通常就会针对一个更具体的应用场景进行优化,比如让模型做聊天助手。在这个场景下,模型的目标不再是简单地模仿一个人,而是要能够回答用户的问题或执行用户的指令,提供帮助。我们优化的目标也变成了生成用户会喜欢并且觉得有用的输出,而不仅仅是复制网络上的原始内容。是GPT-4.5和GPT-5比预期的来得慢,之前以为Claude-3发布之后OpenAI就会发新模型了,但现在SOTA模型已经易主一个月了,所以AGI的战线可能会被拉长。第二点是Sora比预期来的要早,这意味着今年大家对多模态的理解和生成的进步幅度都会很大,将会解锁很多新东西,但多模态能不能带来智能和AGI还是一个很强的非共识。第三点就是Elon Musk加入了开源,开源模型能力的水位线会被提升很多,xAI的人才密度很强,GPU也足,这会决定了很多后面模型公司的生死线。

Sora:大型视觉模型的背景、技术、局限性和机遇综述 【官方论文】

[title]Sora:大型视觉模型的背景、技术、局限性和机遇综述【官方论文】[heading1]1引言自从2022年11月ChatGPT发布以来,人工智能技术的出现标志着一个重大的转变,重塑了交互方式,并深入融入日常生活和行业的各个方面[1,2]。基于这一势头,OpenAI在2024年2月发布了Sora,一个文本到视频的生成式AI模型,能够根据文本提示生成现实或想象场景的视频。与之前的视频生成模型相比,Sora的特点是能够在遵循用户文本指令的同时,生成长达1分钟的高质量视频[3]。Sora的进步体现了长期以来人工智能研究任务的实质,即赋予AI系统(或AI代理)理解和与运动中的物理世界互动的能力。这涉及到开发不仅能解释复杂用户指令,而且能将这种理解应用于通过动态和富有上下文的模拟解决现实世界问题的AI模型。图2:Sora在文本到视频生成中的示例。文本指令被给予OpenAI Sora模型,它根据指令生成三个视频。Sora展示了准确解释和执行复杂人类指令的显著能力,如图2所示。该模型能生成包含多个执行特定动作的角色以及复杂背景的详细场景。研究人员将Sora的熟练程度归因于不仅处理用户生成的文本提示,而且还能辨别场景内元素之间复杂的相互作用。Sora最引人注目的方面之一是其生成长达一分钟的视频的能力,同时保持高视觉质量和引人入胜的视觉连贯性。与只能生成短视频片段的早期模型不同,Sora的一分钟长视频创作具有进展感和从第一帧到最后一帧的视觉一致性之旅。此外,Sora的进步在于其生成具有细腻运动和互动描绘的扩展视频序列的能力,克服了早期视频生成模型所特有的短片段和简单视觉呈现的限制。这一能力代表了AI驱动创意工具向前的一大步,允许用户将文本叙述转换为丰富的视觉故事。总的来说,这些进步展示了Sora作为世界模拟器的潜力,为描绘场景的物理和上下文动态提供了细腻的见解。[3]。

XiaoHu.AI日报

[title]XiaoHu.AI日报[heading2]2月21日🔗 https://x.com/xiaohuggg/status/1760191358298710370?s=205⃣️🎯 YOLOv8目标检测跟踪模型:快速准确的多对象识别和定位。支持实例分割、人体姿态估计等。多平台兼容,一站式视觉识别解决方案。🔗详细介绍:https://docs.ultralytics.com/models/🔗 GitHub:https://github.com/ultralytics/ultralytics🔗 https://x.com/xiaohuggg/status/1760149057249636570?s=206⃣️🎥 Sora工作原理解析:结合扩散模型和Transformer架构。采用空间时间补丁和时空立方体。利用知识图谱组合视频,显示巨大潜力。🔗 https://x.com/xiaohuggg/status/1760139842783248609?s=207⃣️🚀 OpenAI技术人员的一天...🔗 https://x.com/xiaohuggg/status/1760130189932265553?s=20

Others are asking
SOTA是什么意思?
SOTA 是“State Of The Art”的缩写,意思是“最先进的”“当前最佳水平”。 在 AI 领域中,例如在多模态的研究中,(c)类方法虽然是 SOTA,但很多想法都受到(d)类的代表作 ViLT 启发。ViLT 把 VE 彻底换成简单的 patch projection 模块,借鉴了 ViT 的思维,其出发点是对视觉数据处理方式的创新。 以往的许多研究通过使用各种方法对视频数据进行生成建模,包括循环网络、生成对抗网络、自回归变换器和扩散模型。但这些工作通常存在一些局限性,而 Sora 作为一个视觉数据的通用模型,可以生成持续时间、纵横比和分辨率各异的视频和图像,长达一分钟的高清视频。
2025-01-07
音频质量检测方面SOTA模型有?
Gemini 模型在音频质量检测方面达到了 SOTA 水平。该模型是天生多模态的,在文本、图像、音频和视频上进行联合训练,在广泛的音频基准测试中表现出色。
2024-10-16
AIGC 检测
以下是一些常见的 AIGC 检测相关的信息: AIGC 论文检测网站和工具: 1. Turnitin:是广泛使用的学术剽窃检测工具,增加了检测 AI 生成内容的功能。使用方法是上传论文,系统自动分析并提供详细报告,标示出可能由 AI 生成的部分。 2. Copyscape:主要用于检测网络上的剽窃行为,虽不是专门的 AIGC 检测工具,但可发现可能被 AI 生成的重复内容。输入文本或上传文档,系统扫描网络查找相似或重复内容。 3. Grammarly:提供语法检查和剽窃检测功能,剽窃检测部分可帮助识别可能由 AI 生成的非原创内容。将文本粘贴到编辑器中,选择剽窃检测功能,系统提供分析报告。 4. Unicheck:基于云的剽窃检测工具,适用于教育机构和学术研究,可检测 AI 生成内容的迹象。上传文档或输入文本,系统分析并生成报告,显示潜在的剽窃和 AI 生成内容。 5. :专门设计用于检测 AI 生成内容的工具,使用先进算法分析文本,识别是否由 GPT3 或其他 AI 模型生成。上传文档或输入文本,系统提供详细报告。 6. :提供免费的 AI 内容检测工具,可识别文本是否由 AI 生成。将文本粘贴到在线工具中,点击检测按钮,系统提供分析结果。 7. GPTZero:专门设计用于检测由 GPT3 生成内容的工具,适用于教育和出版行业。上传文档或输入文本,系统分析并提供报告,显示文本是否由 GPT3 生成。 8. Content at Scale:提供 AI 内容检测功能,帮助用户识别文本是否由 AI 生成。将文本粘贴到在线检测工具中,系统分析并提供结果。 判断一张图片是否 AI 生成: 可以使用一些网站,例如 ILLUMINARTY(https://app.illuminarty.ai/)。但在测试过程中可能存在误判,比如将结构严谨的真实摄影作品识别为 AI 作图,这是因为鉴定 AI 自身的逻辑算法不能像人类一样综合考虑各种不符合逻辑的表现。
2025-03-18
检测图片造假
以下是关于检测图片造假的相关内容: 胶囊网络(CapsNets)能够有效检测图片造假,减少过拟合,提高检测精度,对不良数据适应力更强,还能适应输入数据的仿射变换,但在大数据集和背景复杂的输入图像等领域运作不太理想,需要进一步研究和改进。 对于判断一张图片是否为 AI 生成,可通过以下方式: 培养自己的鉴赏能力,训练大脑模型。 利用专门的网站,如 ILLUMINARTY(https://app.illuminarty.ai/),但此类网站的鉴定逻辑算法可能存在不足,如将结构严谨的真实摄影作品误判为 AI 作图。 依赖艺术知识储备,了解名画风格、画质与笔触表现力等。 注重细节,如人物肢体是否异常、背景花纹和底纹文字信息等。
2025-03-01
我想做一个论文检测器 判断是不是用AI写的
以下是一些用于判断论文是否由 AI 写作的检测网站和工具: 1. Turnitin:是广泛使用的学术剽窃检测工具,增加了检测 AI 生成内容的功能。使用方法是上传论文,系统自动分析并提供详细报告,标示出可能由 AI 生成的部分。 2. Copyscape:主要用于检测网络剽窃行为,虽不是专门的 AIGC 检测工具,但能发现可能被 AI 生成的重复内容。输入文本或上传文档,系统扫描网络查找相似或重复内容。 3. Grammarly:提供语法检查和剽窃检测功能,剽窃检测部分可帮助识别可能由 AI 生成的非原创内容。将文本粘贴到编辑器中,选择剽窃检测功能,系统提供分析报告。 4. Unicheck:基于云的剽窃检测工具,适用于教育机构和学术研究,能检测 AI 生成内容的迹象。上传文档或输入文本,系统分析生成报告,显示潜在的剽窃和 AI 生成内容。 5. :专门设计用于检测 AI 生成内容,使用先进算法分析文本,识别是否由 GPT3 或其他 AI 模型生成。上传文档或输入文本,系统提供详细报告。 6. :提供免费的 AI 内容检测工具,识别文本是否由 AI 生成。将文本粘贴到在线工具中,点击检测按钮,系统提供分析结果。 7. GPTZero:专门设计用于检测由 GPT3 生成内容,适用于教育和出版行业。上传文档或输入文本,系统分析提供报告,显示文本是否由 GPT3 生成。 8. Content at Scale:提供 AI 内容检测功能,将文本粘贴到在线检测工具中,系统分析提供结果。 在论文写作领域,也有一些常用的 AI 工具和平台: 1. 文献管理和搜索: Zotero:结合 AI 技术自动提取文献信息,帮助管理和整理参考文献。 Semantic Scholar:AI 驱动的学术搜索引擎,提供文献推荐和引用分析。 2. 内容生成和辅助写作: Grammarly:提供文本校对、语法修正和写作风格建议,提高语言质量。 Quillbot:基于 AI 的重写和摘要工具,帮助精简和优化内容。 3. 研究和数据分析: Google Colab:提供基于云的 Jupyter 笔记本环境,支持 AI 和机器学习研究,便于数据分析和可视化。 Knitro:用于数学建模和优化,帮助进行复杂的数据分析和模型构建。 4. 论文结构和格式: LaTeX:结合自动化和模板,高效处理论文格式和数学公式。 Overleaf:在线 LaTeX 编辑器,提供丰富模板库和协作功能,简化编写过程。 5. 研究伦理和抄袭检测: Turnitin:广泛使用的抄袭检测工具,确保论文原创性。 Crossref Similarity Check:通过与已发表作品比较,检测潜在抄袭问题。 使用这些工具时,要结合自己的写作风格和需求,选择最合适的辅助工具。
2025-03-01
免费ai检测工具
以下是一些免费的 AI 检测工具: 1. :提供免费的 AI 内容检测工具,能识别文本是否由 AI 生成。使用方法是将文本粘贴到在线工具中,点击检测按钮获取分析结果。 2. GPTZero:专门设计用于检测由 GPT3 生成的内容,适用于教育和出版行业。上传文档或输入文本,系统会分析并提供报告,显示文本是否由 GPT3 生成。 3. Content at Scale:提供 AI 内容检测功能,帮助识别文本是否由 AI 生成。将文本粘贴到在线检测工具中,系统会分析并提供结果。 4. Turnitin:广泛使用的学术剽窃检测工具,增加了检测 AI 生成内容的功能。用户上传论文,系统自动分析文本并提供详细报告,标示出可能由 AI 生成的部分。 5. Copyscape:主要用于检测网络上的剽窃行为,虽不是专门的 AIGC 检测工具,但可发现可能被 AI 生成的重复内容。输入文本或上传文档,系统扫描网络查找相似或重复内容。 6. Grammarly:提供语法检查和剽窃检测功能,剽窃检测部分可帮助识别可能由 AI 生成的非原创内容。将文本粘贴到编辑器中,选择剽窃检测功能获取分析报告。 7. Unicheck:基于云的剽窃检测工具,适用于教育机构和学术研究,可检测 AI 生成内容的迹象。上传文档或输入文本,系统分析并生成报告,显示潜在的剽窃和 AI 生成内容。 8. :专门设计用于检测 AI 生成内容,使用先进算法分析文本,识别是否由 GPT3 或其他 AI 模型生成。上传文档或输入文本,系统提供详细报告,包括可能的 AI 生成内容。 9. AI Detector by ContentDetector.AI:海外的内容检测工具。
2025-02-14
ai检测
以下是一些关于 AI 检测的相关信息: AIGC 论文检测网站和工具: Turnitin:广泛使用的学术剽窃检测工具,增加了检测 AI 生成内容的功能。使用方法是上传论文,系统自动分析并提供详细报告,标示出可能由 AI 生成的部分。 Copyscape:主要用于检测网络剽窃行为,虽非专门的 AIGC 检测工具,但可发现可能被 AI 生成的重复内容。使用时输入文本或上传文档,系统扫描网络查找相似或重复内容。 Grammarly:提供语法检查和剽窃检测功能,剽窃检测部分可识别可能由 AI 生成的非原创内容。将文本粘贴到编辑器中,选择剽窃检测功能,系统提供分析报告。 Unicheck:基于云的剽窃检测工具,适用于教育机构和学术研究,可检测 AI 生成内容的迹象。上传文档或输入文本,系统分析生成报告,显示潜在的剽窃和 AI 生成内容。 :专门设计用于检测 AI 生成内容的工具,使用先进算法分析文本,识别是否由 GPT3 或其他 AI 模型生成。上传文档或输入文本,系统提供详细报告。 生成式 AI 季度数据报告 2024 月 1 3 月: 文字 教育方面,Humata Al 月访问量减少 129 万,降低了 40%;Elicit 月访问量减少 121 万,降低了 87%;Laion 月访问量减少 49 万,降低了 84%。 23 年 4 月至 24 年 3 月月访问量增量 Top10 和减量 Top5 有相关数据。 赛道方面,天花板潜力为数亿美金,总体趋势平稳增长,月平均增速为 121 万 PV/月,原生产品占比高。竞争方面,Top1 占比 39%,Top3 占比 88%,马太效应弱,网络效应弱,大厂入局少,大厂占比低,技术门槛低。Top1 公司(非大厂)为 GPTZero。 AI ReviewAI 评论(测试版): AI Review 是一项可查看代码库中最近更改以捕获潜在错误的功能,可单击各个审阅项查看编辑器中的完整上下文,并与 AI 聊天获取详细信息。 为让 AI Review 更有利,可提供自定义说明让 AI 专注于特定方面,如性能相关问题。 目前有几个审核选项,如查看工作状态、查看 Diff with Main Branch、查看上次提交。
2025-02-14
文档检测的提示词
以下是为您提供的文档检测相关的提示词: 新闻文章的事实核查员: 角色:你是一个新闻文章的事实核查员。 个人信息:作者为悟空,版本 0.1,语言为中文,工作是确定新闻报道中哪些段落是假的。 目标:首先能区分事实和观点,确定事实和观点是否一致,同时呈现事实和观点,用问号标记缺乏事实支持的观点。 约束:总结事实,原样重述观点。 技能:具备区分事实和观点的能力,使用表情符号、缩写、粗体文本等格式化技术使内容清晰生动。 工作流程:逐步列出文本中的事实和观点,先列事实再列观点,用颜文字符号标记与事实不符的观点并提供判断理由,进一步解释推理。 文章打分器: 角色:文章打分器。 个人信息:作者为李继刚,版本 0.1,语言为中文,基于打分项对文章打分并给出总体得分和各项得分。 目标:了解文章的针对性、观点阐述是否清晰,信息量和文采是否丰富,排版和撰写长度是否符合阅读习惯。 约束:只能对文本文件打分,无法识别图片和视频等非文本内容。 技能:对文字质量有深刻理解,了解优秀文章特征,能进行排版分析和文章长度分析。 工作流程:读取输入文件,包括文章标题和正文。 此外,为您提供一些与文档检测提示词相关的网站: Majinai: 词图: Black Lily: Danbooru 标签超市: 魔咒百科词典: AI 词汇加速器: NovelAI 魔导书: 鳖哲法典: Danbooru tag: AIBooru:
2025-01-10
我想要系统学习ai大模型应用开发,能帮我制定一个系统学习路线吗?
以下是一个系统学习 AI 大模型应用开发的学习路线: 1. 掌握深度学习和自然语言处理基础: 学习机器学习、深度学习、神经网络等基础理论。 掌握自然语言处理基础,如词向量、序列模型、注意力机制等。 相关课程:吴恩达的深度学习课程、斯坦福 cs224n 等。 2. 理解 Transformer 和 BERT 等模型原理: 熟悉 Transformer 模型架构及自注意力机制原理。 掌握 BERT 的预训练和微调方法。 研读相关论文,如 Attention is All You Need、BERT 论文等。 3. 学习 LLM 模型训练和微调: 进行大规模文本语料预处理。 熟悉 LLM 预训练框架,如 PyTorch、TensorFlow 等。 微调 LLM 模型进行特定任务迁移。 相关资源:HuggingFace 课程、论文及开源仓库等。 4. LLM 模型优化和部署: 掌握模型压缩、蒸馏、并行等优化技术。 进行模型评估和可解释性研究。 实现模型服务化、在线推理、多语言支持等。 相关资源:ONNX、TVM、BentoML 等开源工具。 5. LLM 工程实践和案例学习: 结合行业场景,进行个性化的 LLM 训练。 分析和优化具体 LLM 工程案例。 研究 LLM 新模型、新方法的最新进展。 6. 持续跟踪前沿发展动态: 关注顶会最新论文、技术博客等资源。 7. 参与相关社区交流和项目实践: 总的来说,AI 大模型应用开发是一个多学科、系统性的领域,需要深入的理论学习和工程实践经验相结合。除了学习基础知识,熟练使用开源框架工具也很关键。保持对前沿动态的跟踪,并实际参与相关项目是获得真知灼见的最佳途径。 此外,以下是一个利用 AI+SMART 安排学习计划的案例: 学习目标与个人或职业发展目标的关系:平时工作中需要经常阅读英文文档。另外,有朋友和客户是英文母语者,想要和他们沟通更加顺畅。其次,希望未来有机会进入大型外企工作。 具体学习内容:首先是词汇需要提高,其次听力、口语、阅读和写作这些方面都进行全面提高。 量化学习进度和成功:以考取雅思 8.0,且可以和朋友或客户流利的交谈为目标。 时间框架:半年内。 现实可行性:目前雅思 6.5,每天可以投入 2 小时。周末可以更多。有访问网络课程的条件,也可以购买书籍或其他学习材料。 请注意,以上内容由 AI 大模型生成,请仔细甄别。
2025-04-08
有哪些支持超长上下文的大模型
以下是一些支持超长上下文的大模型: Scout:支持 1000 万上下文,适合处理超长文本和复杂推理任务。 Maverick:具有 100 万上下文,长记忆优势适配多场景替代 RAG。 Behemoth:2 万亿参数级别的大模型在训,已超越 GPT4.5 在 STEM 表现。 Claude2100k 模型的上下文上限是 100k Tokens,即 100000 个 token。 ChatGPT16k 模型的上下文上限是 16k Tokens,即 16000 个 token。 ChatGPT432k 模型的上下文上限是 32k Tokens,即 32000 个 token。 需要注意的是,token 限制同时对一次性输入和一次对话的总体上下文长度生效。例如,一次性输入不能超过规定的 token 数量,而且随着对话的进行,当达到上限时,会遗忘最前面的对话内容。
2025-04-08
你都融合了哪些大语言模型?
以下是一些融合的大语言模型: 1. LuotuoChineseLLM: 地址: 简介:囊括一系列中文大语言模型开源项目,包含基于已有开源模型(ChatGLM、MOSS、LLaMA)进行二次微调的语言模型、指令微调数据集等。 2. Linly: 地址: 简介:提供中文对话模型 LinlyChatFlow、中文基础模型 LinlyChineseLLaMA 及其训练数据。中文基础模型以 LLaMA 为底座,利用中文和中英平行增量预训练。项目汇总了目前公开的多语言指令数据,对中文模型进行了大规模指令跟随训练,实现了 LinlyChatFlow 对话模型。 3. ChatYuan: 地址: 简介:元语智能发布的一系列支持中英双语的功能型对话语言大模型,在微调数据、人类反馈强化学习、思维链等方面进行了优化。 4. ChatRWKV: 地址: 简介:开源了一系列基于 RWKV 架构的 Chat 模型(包括英文和中文),发布了包括 Raven,NovelChnEng,NovelCh 与 NovelChnEngChnPro 等模型,可以直接闲聊及进行诗歌、小说等创作,包括 7B 和 14B 等规模的模型。 此外,还有以下相关信息: 1. 本地部署资讯问答机器人: Ollama 支持多种大型语言模型,包括通义千问、Llama 2、Mistral 和 Gemma 等,可用于不同应用场景。 Ollama 易于使用,适用于 macOS、Windows 和 Linux 系统,同时支持 cpu 和 gpu。 Ollama 提供模型库,用户可从中下载不同模型,有不同参数和大小以满足需求和硬件条件,可通过 https://ollama.com/library 查找。 用户可通过简单步骤自定义模型,如修改温度参数调整创造性和连贯性,或设置特定系统消息。 Ollama 提供 REST API 用于运行和管理模型,以及与其他应用程序的集成选项。 Ollama 社区贡献丰富,包括多种集成插件和界面,如 Web 和桌面应用、Telegram 机器人、Obsidian 插件等。 2. AIGC 落地应用大全中的案例: Poe(强烈推荐): 推荐指数:🌟🌟🌟🌟🌟 由 Quora 开发,有 APP 版本,支持跨端使用。 集成了 Chat GPT、GPT4、Claude+、Claude、Dragonfly 等模型,同时支持用户自建 Chatbot。 不同语言模型回复效果有差异,适合需要调用多种大语言模型的用户。 Dragonfly 擅长给出较短回答,并擅长在输入中给出示例时遵循指示。 Claude 更擅长创造性回复,配合 Poe 中的提问引导,非常适合在查阅资料时使用,有时能够给出超越直接使用 Chat GPT 时的体验(但和 Chat GPT 一样,Claude 也时常会给出一些错误回复,一些问题可在两个模型中都问一遍提升信息准确性)。 此外支持分享用户和模型的对话内容。但 GPT4、Claude+产品需要付费订阅使用。 访问地址: Poe 中的提问引导真的能够启发到用户。 支持 Explore Chatbot,但丰富度不如后续要介绍的 Character。 midjourney prompt 扩写 Chatbot 能力很惊人。
2025-04-08
你好,你是基于哪个大语言模型的人工智能?
我并非基于某个特定的大语言模型。AI 领域中的语言模型众多,例如 GPT3 等。大语言模型通常是使用深度学习和神经网络创建的,基于人类训练数据来理解单词、代码语法等。像生成式 AI 可以生成文本、图片、音频、视频等内容形式,其中包括大语言模型。2017 年 6 月,谷歌团队发表的论文《Attention is All You Need》首次提出了 Transformer 模型,它基于自注意力机制处理序列数据,不依赖于循环神经网络或卷积神经网络。
2025-04-08
开源flux模型如何快速使用
以下是关于开源 Flux 模型快速使用的方法: 1. 模型的下载: 如果因为环境问题,可以在网盘中下载。 siglipso400mpatch14384(视觉模型):siglip 由 Google 开发的视觉特征提取模型,负责理解和编码图像内容。工作流程包括接收输入图像、分析图像的视觉内容并将这些视觉信息编码成一组特征向量。打开 ComfyUI\models\clip,在地址栏输入 CMD 回车,打开命令行,输入下面的命令拉取模型(也可以在网盘里下载)。 image_adapter.pt(适配器):连接视觉模型和语言模型,优化数据转换。工作流程包括接收来自视觉模型的特征向量、转换和调整这些特征,使其适合语言模型处理。通过 https://huggingface.co/spaces/fancyfeast/joycaptionprealpha/tree/main/wpkklhc6 下载,放到 models 的 Joy_caption 文件夹里,如果该文件夹不存在,就新建一个。 MetaLlama3.18Bbnb4bit(语言模型):大型语言模型,负责生成文本描述。工作流程包括接收经过适配器处理的特征、基于这些特征生成相应的文本描述、应用语言知识来确保描述的连贯性和准确性。打开 ComfyUI\models\LLM,地址栏输入 CMD 回车,在命令行里面输入下面命令。 2. 下载地址: ae.safetensors 和 flux1dev.safetensors 下载地址:https://huggingface.co/blackforestlabs/FLUX.1dev/tree/main 。 准备了夸克和百度的网盘链接,方便部分同学下载: flux 相关模型(体积较大)的夸克网盘链接:https://pan.quark.cn/s/b5e01255608b 。 flux 相关模型(体积较大)的百度网盘链接:https://pan.baidu.com/s/1mCucHrsfRo5SttW03ei0g?pwd=ub9h 提取码:ub9h 。 如果 GPU 性能不足、显存不够,底模可以使用 fp8 的量化版模型,速度会快很多,下载地址:https://huggingface.co/Kijai/fluxfp8/tree/main 。 3. 工作流下载: 最后我们再下载 dev 的工作流: 。或者下面官方原版的图片链接,图片导入 comfyUI 就是工作流:https://comfyanonymous.github.io/ComfyUI_examples/flux/flux_dev_example.png 。我们打开 ComfyUI,把工作流或图片拖拽到 ComfyUI 里。
2025-04-08
大模型应用开发岗位需要掌握什么
大模型应用开发岗位通常需要掌握以下内容: 1. 编程思维和 Python 基础。 2. 认识大模型 Embedding 技术,包括理论知识和代码实战。 3. 在构建模型应用方面: 根据项目需求选择合适的开发框架。 了解业务背后的深层次需求,设定流程环节以确保模型能解决实际问题。 在每个环节精心设计提示词,引导模型提供准确有用的回复。 确保应用在提供服务时遵守安全和伦理标准。 通过不断测试和迭代优化模型性能和用户体验。 成功部署应用后持续维护和更新以适应需求变化。 4. 提示词的精细设计和调试,因为其直接影响模型的输出质量和应用效果。 5. 对于智能体构建,了解动态推理智能体情感设定,以制作更有情商的智能体。
2025-04-08
请告诉我有关AI的最新资讯
以下是近期的 AI 资讯汇总: 4 月 1 日: 【AI 模型及应用】OpenAI 将会开源一个推理模型,ChatGPT 即将推出推理强度控制选项,Gpt4o 生图能力面向免费用户;Gemini 2.5 Pro 免费使用,任何人都可以使用 Canvas 进行编码和创作。 【AI 视频】Higgsfield 发布 50 多个电影级摄影机动作预设,提升动态镜头表现力;luma 为 Ray 2 引入摄像机运动概念,可基于预设镜头并组合编辑;Remakes 支持基于用户上传图像直接编辑,并融合 Remade 视频特效,简化创意流程;Meta 宣布推出 MoCha 系统,实现电影级说话角色合成效果。 【AI 3D】HSMR 推出从单张图像重建人体 3D 骨骼和网格模型的系统;krea 引入 AI 3D 生成能力,扩展其创意工具的功能范围;PGC 推出基于物理的单一姿势高斯布料模拟技术,提升数字服装的真实感。 【AI 音频】MiniMax Audio 发布全新 Speech02 语音模型,提升语音合成质量。 3 月 21 日: 【AI 绘画】网传神秘 Halfmoon 文本转图像模型为 Reve 对比 Midjourney 效果;Topaz Labs 推出 Gigapixel v8.3.0,将任何图像放大 16 倍;FLORA 引入 gemini 2.0 自然语言编辑图像能力。 【AI 视频】pika 超创内测“操控原视频中物体运动”能力;Krea 上线视频模型训练能力,可控制视频风格/动作/物体等。 【AI 3D】SpatialLM 用于空间理解的大型语言模型。 【AI 模型及应用】OpenAI 发布 2 个语音模型(文本转语音/语音转文本)+1 个演示网站;Claude 支持搜索功能。 3 月 14 日: 【AI 模型及其他】谷歌 Gemini 应用能力升级,包含升级推理模型 gemini 2.0、Flash Thinking Experimental 等多个功能提升;OpenAI 4 项更新;Bolt 一键将 Figma 设计转换为可运行的 Web 应用;阿里推出 AI 旗舰应用“新夸克”;360 智脑团队开源推理模型 LightR114BDS,复现 Deepseek 的强化学习效果。 【AI 视频】Pika 更新 Pikaffects,新增多款变身特效;Freepik 与 Fal 平台引入 Topaz AI 的提升“FPS 和视频分辨率”能力;Krea 上线 Veo 2 模型,支持图生视频功能,但生成成本较高。 【AI 绘图】LBM 用于快速图像到图像转换的潜在桥匹配方法,支持可控图像重新照明、角色去除和图像修复。 【AI 语音】Sesame 开源 TTS 语音模型 CSM1B。
2025-04-08
有AI+游戏的最新案例吗
以下是一些 AI+游戏的最新案例: 由 5 人独立游戏工作室 Proxima 开发的 AI 冒险独立游戏 Suck Up!上线三周油管播放超千万。这是一款沙盒社交冒险游戏,团队尝试加入了名为 Nemo 的 AI NPC,基于 LLM 驱动,Nemo 能在接收到用户命令或其他线索后,调动感知、记忆,并转化为可执行的游戏行动。去年上半年,该工作室因获得 160 万美元投资引起轰动,上线后也受到资本关注。玩家对其玩法和模式提出了很多创意想法,如设计成就系统、上线多人模式等。 开发者正在使用 AI 生成音乐来填充游戏过程与游戏 UI 中需要使用到的各类音效、不同游戏场景中用以渲染氛围的各种音乐。像 MusicLM 等模型已经支持生成多音轨的作品。 2023 年 Genfun.ai 和 Meshy 联合制作的游戏《Soul Chronicle》,是首款实时 3D+AIGC+UGC 的 MMO 手游,最大突破是制作出了与游戏完美融合的 3D AIGC 技术,可在游戏中实时生成角色皮肤。 2024 年 Bitmagic 释出的《Roleverse》平台,可在平台内使用提示在游戏内定制角色,对角色进行缩放、挤压和拉伸,也能轻松对游戏世界进行编辑。 AI 技术在游戏行业的应用由来已久,且不断发展。从最初的简单内容和随机元素生成,到辅助游戏设计,再到如今能够生成更复杂的游戏内容,如动态场景、智能 NPC 行为等。AI 对游戏创作的影响包括美术与风格、剧情与叙事、关卡与玩法、音效与音乐、测试与优化等方面。同时,AI 能基于玩家游戏行为评估玩家技能水平和游戏风格,动态调整游戏难度等,提升玩家体验。此外,游戏还能成为 AI 模型能力的最佳试验场。
2025-04-01
3月最新的文章创作提示词
以下是 3 月最新的文章创作提示词相关内容: 云舒的文章总结卡 2.0 提示词:全面支持 DeepseekV3,效果媲美 Claude3.7,新增竖版卡片方便手机阅读。支持 Claude3.7 及 DeepseekV3,V3 需要为 0324 更新的版本,DS 官网及 API 已更新,如调用其它平台 API 需要查看 DS 版本号。提示词复制链接:。包括横版(1080 x 800 卡片提示词)和竖版(750 x 不限高卡片提示词)。抽卡平台方面,各平台均需下载 html 文件,打开后才能查看真实效果,平台自带预览因兼容性问题无法正常展示效果。Claude 使用平台包括 Claude3.7 官网、API、Cursor,使用时需要下载为 HTML 文件打开查看效果,Claude 的预览暂时无法支持查看真实效果。Deepseek 使用平台包括 Deepseek 官网、API(V3 需要为 0324 更新的版本,DS 官网及 API 已更新,如调用其它平台 API 需要查看 DS 版本号),Deepseek 需要复制代码到 html 文件里,然后保存进行查看。Cursor 微调增加图片时,将下载的 html 文件及图片放到同一个文件夹即可。 2025 年 3 月 12 日的更新:《》归藏的这篇文章介绍了一套简单易用的提示词,可以将任何文档快速转化为精美的网页杂志,适合各行各业。只需复制文本并添加图片、视频链接,即可轻松生成视觉吸引力强的作品。无论是旅行攻略、求职简历还是明星介绍,这些网页都能让信息更直观、条理更清晰。 韦恩用 DeepSeek V3 做的实验:作者好奇 DeepSeek V3 能否很好地遵循设计,输出确定性的内容,于是做了一个企业交付相关的实验。创作过程包括想法到动手、改变策略、寻求建议、基本满意了等阶段。开始效果不稳定,下载封面图片会变形,后来改为 HTML 转图片,效果比较稳定,并在公众号里测试效果良好,解决了公众号水印影响美观的问题。
2025-03-31
多模态Agent最新动态
以下是关于多模态 Agent 的最新动态: 《质朴发言:视觉语言理解模型的当前技术边界与未来应用想象|Z 研究第 2 期》 近期,生成式 AI 领域的浪潮催化了多模态模型的探索,研究人员不断尝试使用更多模态数据的编码,以训练出能够理解和处理多种类型数据的模型。本份研究报告集中讨论了基于 Transformer 架构的视觉语言模型,报告范围专注于视觉和语言之间的交互,不考虑单纯的视觉到视觉的计算机视觉任务。 从 2022 年 11 月 18 日到 2023 年 7 月 26 日,多模态 Agents 迅速增长。 LLM 多模态 agent 是将现有技术融合的新尝试,是一种集成了多种模态数据处理能力的 AI 技术。 优点:高度的灵活性和扩展性,可根据不同任务需求调用最合适的模型处理任务,适应多样化任务和数据类型,优化资源使用,提升效率;无需训练,系统开发周期快,成本低。 局限性:调试和工程化难度较高,维护和升级成本高;多个组件紧密耦合,单点故障可能导致整个系统风险增加;没有涌现出新的能力。 适用场景:需要综合处理视频、语音和文本等多种信息的复杂环境,如自动驾驶汽车;高度交互和灵活的用户界面,如客户服务机器人或交互式娱乐应用。 《2024 年度 AI 十大趋势报告》 随着大模型对图像和视频信息的处理能力快速提升,预计 2025 年将开始出现更为综合性的多模态交互,AI 能够通过物联网、特定信息等多种感知通道进行协同。 多模态输入和输出使 AI 交互性更强、交互频次更高,适用场景也更加丰富,AI 产品整体水平显著提升。 Agent 作为融合感知、分析、决策和执行能力的智能体,能够根据用户历史行为和偏好,主动提供建议、提醒并个性化执行能力,为用户提供高度个性化的任务。从 2025 年开始,AI Agent 即将广泛投入使用。 从个性化推荐到直接生成个性化内容,AIGC 能够使用户体验的个性化程度有明显提升,这将帮助产品进一步完善用户体验,并通过提高用户忠诚度和迁移成本,实现差异化定价和进一步的服务增值,对产品的差异化竞争有重大意义。目前,基于 AIGC 的高度个性化已经在 AI 教育、AI 陪伴、AI 营销领域有明显进展。在硬件端搭载的多款 AI 智能助手也已开始以高度个性的个人助理作为宣传重点。
2025-03-31
我是一名大一学生,我想创业,我有创业点子,我需要自己利用ai来开发app。我刚刚加入这个社群,我没有编程基础,也不怎么擅长用ai,并且我得不到ai创投圈以及科技发展的最新消息,不会用飞书,不会用这个社群。以利用ai开发app为最终目的的导向,我应该怎么做
以下是为您提供的建议,以帮助您利用 AI 开发 APP 并实现创业目标: 1. 了解有趣的产品案例:例如对话情绪感知助手,它能帮助用户理解社交场景并提供合适话术;剧本杀创作平台,具备剧本润色和 AI 测本功能;插件图标生成器,解决了开发插件时的图标制作难题。 2. 学习优秀作品:像插图神器、拍个明白、3 秒变现想法落地等,部分有公开网页和开源代码,可供试用和借鉴。 3. 掌握工具使用方法:例如 tree 等 AI 编程工具,即使不会编程也能通过自然语言交互生成代码和解决问题。 4. 借鉴学生经验:湖南大学齐国皓分享了用 tree 工具带领非技术专业同学做案例的经验。 5. 关注产品规划和愿景:如 CubeOne 会尽快上线手动编辑功能,其 AI 能力也将在月底有大更新,团队愿景是为人们带来世界上最好的做演讲的体验。 6. 参考创业实践:有大四学生在湖南大学利用 AI 编程工具进行 AI 加金融交易方面的创业。 7. 积极参与案例分享与交流:在飞书群等平台分享和获取更多案例链接。 总之,您需要多学习成功案例和工具使用方法,借鉴他人经验,明确产品规划和愿景,积极参与交流,逐步实现利用 AI 开发 APP 的创业目标。
2025-03-27
北大清华伯克利等知名高校最新AI研究成果
以下是北大清华伯克利等知名高校的最新 AI 研究成果: 国内方面: 清华大学的自然语言处理实验室资助了 OpenBMB 项目,催生了 MiniCPM 项目,这是可以在设备上运行的小型<2.5B 参数模型,其 2.8B 视觉模型在某些指标上仅略低于 GPT4V。 阿里巴巴最近发布了 Qwen2 系列,社区对其视觉能力印象深刻,能完成从具有挑战性的 OCR 任务到分析复杂的艺术作品等。 国外方面: Stability AI 发布的 Stable Video Diffusion 是第一个能够从文本提示生成高质量、真实视频的模型之一,并且在定制化方面取得了显著的进步。今年 3 月,他们推出了 Stable Video 3D,该模型经过第三个对象数据集的微调,可以预测三维轨道。 OpenAI 的 Sora 能够生成长达一分钟的视频,同时保持三维一致性、物体持久性和高分辨率。它使用时空补丁,类似于在变压器模型中使用的令牌,但用于视觉内容,以高效地从大量视频数据集中学习。此外,Sora 还使用了其原始大小和纵横比的视觉数据进行训练,从而消除了通常会降低质量的裁剪和缩放。 Google DeepMind 的 Veo 将文本和可选图像提示与嘈杂压缩视频输入相结合,通过编码器和潜在扩散模型处理它们,以创建独特的压缩视频表示。然后系统将此表示解码为最终的高分辨率视频。 此外,Geoffrey Hinton 让“深度学习”从边缘课题变成 Google 等网络巨头仰赖的核心技术。Hinton 和他的团队让 CIFAR 获得丰厚回报,深度学习也成为目前的主流。Hinton 冷静、谦逊与公平的态度为 NCAP 建立了良好的开放合作氛围,推进了世界的 AI 研究工作。 关于未来研究方向的参考资料包括: 人工智能技术与安全研究:DeepMind、OpenAI、MIT、Stanford、Berkeley 等机构的论文,“AI Index”(斯坦福大学发布)、OpenAI 技术博客、Google AI Blog 等技术报告,专家著作如 Nick Bostrom《Superintelligence》、Stuart Russell《Human Compatible》等。 经济与社会变迁:IMF、世界银行、OECD、WEF(世界经济论坛)的未来就业与技术报告,未来学与社会预测如 Herman Kahn、Ray Kurzweil《The Singularity is Near》等,科技史与社会影响方面如 Joseph Schumpeter(创新与经济周期)、Carlota Perez(技术革命与金融资本),以及经济学者对产业革命的历史演化研究。 政治与国际关系:联合国关于 AI 和数字治理的政策文件、欧盟 AI Act 的立法草案与相关研究,前沿智库与研究中心如 Future of Humanity Institute、Brookings、RAND Corporation 等,军事与国防方面如美国国防部和 NATO 对 AI 的战略规划,中国、欧盟、日本等国家的 AI 国家政策及军民融合案例。
2025-03-24