Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

视频分析

Answer

以下是关于视频分析的相关内容:

使用 Gemini 进行视频分析:

  • 可以放入自己的案例,文档可编辑。
  • 思路:如拿库布里克的电影来分析,学习大师手法;b 站大学复习有帮助;可用于影视二创长剪短、警察查监控等场景,替代 Opus 等长剪短工具。
  • 测试者阿强的体验:好用,准确度高,对功夫熊猫版-如来神掌的分析效果好,能准确认出“如来神掌”。
  • 测试者 PeacePower 的结论:Gemini API 不支持原生的视频分析,UI 提现的视频分析是通过按 frame rate 提取关键帧分析,可能出现丢帧情况。可设置条件提供采样率,默认条件识别次数不准确。

宝玉日报 2 月 10 日提到:

  • 选对模型是关键,GPT-4o 目前无法直接解析视频,Gemini 2.0 Flash Thinking 是解析视频的最佳选择。
  • AIStudio 免费可用,需海外 IP,上传视频即可解析。并提供了视频解析示例及相关链接。
Content generated by AI large model, please carefully verify (powered by aily)

References

用 Gemini 拆解视频

大家可以放自己的案例,本文档可编辑使用Gemini 1.5 Pro,做视频分析和拆解能力了https://aistudio.google.com/[heading2]思路:[content]郑跃葵:拿个库布里克的电影来分析,连大师手法都学会了大峰AI绘画:太酷啦又多了一个AI视频创作助手Jones:b站大学复习有救了对!:拉片太方便了Shock:而且可以干掉人工标注了,安徽那边数据标注众包要失业了清慎:1.影视二创长剪短,一键生成小帅、小美、大壮、丧彪的故事2.警察叔叔查监控,一句话找出监控中的可疑现象3.替代Opus等长剪短工具[heading2]测试者:阿强[content]拆解作品[阿强:功夫熊猫版-如来神掌的完整复盘](https://waytoagi.feishu.cn/wiki/T6bFwVlppipd4ZkoddfcGbebnvd)好用,准确度很高,我把前几天用AI做的功夫熊猫-之离谱村版丢进去分析,效果很好拆解结果prompt:请你用极致详细的言语描述其中的每个镜头,包括其中有什么物体,在执行什么动作,产生什么形变,为什么这样设计分镜等等。感动,它竟然准确的认出了“如来神掌”Gemini 1.5 Pro给出的全文如下:[heading2]测试者:张余[content]拆解结果Gemini 1.5 Pro给出的全文如下:[heading2]测试者:Ling[content][heading2]测试者:洋洋[content]拆解结果

用 Gemini 拆解视频

结论:Gemini API不支持原生的视频分析。UI提现的视频分析是通过按照frame rate提取关键帧分析。可能出现丢帧的情况。API测试测试脚本https://github.com/google-gemini/cookbook/blob/main/quickstarts/Video.ipynb测试视频https://www.youtube.com/watch?v=vJG698U2Mvo一群人传球,正确答案是15次可以设置if int(count/fps)==frame_count:高亮条件来提供采样率。默认条件只能识别出4次参考视频https://www.youtube.com/watch?v=5QzMjfMrQKQUI测试:显示16次,但是无法回答后续问题

宝玉 日报

🫧宝玉日报「2月10日」✨✨✨✨✨✨✨✨1⃣️🎬如何让AI解析视频?选对模型是关键:GPT-4o目前无法直接解析视频,而Gemini 2.0 Flash Thinking是解析视频的最佳选择。AIStudio免费可用:访问[aistudio.google.com](https://aistudio.google.com)(需海外IP),上传视频即可解析。视频解析示例:OpenAI最新广告“What do you want to create next?”,用Gemini解析出完整画面、音频及寓意。🔗Multimodal Large Language Models(MLLMs)transforming Computer Vision原文:[https://tenyks.ai/blog/multimodal-large-language-models-mllms-transforming-computer-vision](https://tenyks.ai/blog/multimodal-large-language-models-mllms-transforming-computer-vision)🔗译文:[https://baoyu.io/translations/multimodal-large-language-models-mllms-transforming-computer-vision#google_vignette](https://baoyu.io/translations/multimodal-large-language-models-mllms-transforming-computer-vision#google_vignette)🔗推文:[https://x.com/dotey/status/1888781864866836533](https://x.com/dotey/status/1888781864866836533)2⃣️📖为什么要写博客,即使没人看?写作是思考的出口:博客就像摄影,记录的是自己的观察与思考,而非取悦他人。长期价值:未来的自己、某个特定的读者,或者深度积累的作品,才是写作真正的回报。写作是费曼学习法的最佳实践:坚持下来,收益最大的是自己,流量只是额外奖励。

Others are asking
有没有输入点子可以生成视频文案的多维表格模板
以下是关于输入点子生成视频文案的多维表格模板的相关信息: 概述: 基于其他博主开源的视频生成工作流进行功能优化,实现视频全自动创建。感谢开源,现提供教程参考。 先看效果: 功能: 通过表单输入主题观点,提交后自动创建文案短视频,创建完成后推送视频链接到飞书消息。 涉及工具: 1. Coze 平台(工作流、DeepSeek R1、文生图、画板、文生音频、图+音频合成视频、多视频合成) 2. 飞书(消息) 3. 飞书多维表格(字段捷径、自动化流程) 大体路径: 1. 通过 coze 创建智能体,创建工作流,使用 DeepSeek R1 根据用户观点创建文案,再创建视频。 2. 发布 coze 智能体到飞书多维表格。 3. 在多维表格中使用字段捷径,引用该智能体。 4. 在多维表格中创建自动化流程,推送消息给指定飞书用户。 获取字节火山 DeepSeek 系列 API 完整教程及使用方法: 邀请可拿 3000 万 tokens,附上宝藏飞书多维表格模板,包括营销类、投资和电商、工具论文效率类、有趣类等,如: 智能体发布到飞书多维表格: 1. 工作流调试完成后,加入到智能体中。可以选择工作流绑定卡片数据,智能体通过卡片回复。 2. 发布时选择需要的发布渠道,重点讲飞书多维表格。记得智能体提示词的 4 个变量,发布时会自动出现,目的是为了在多维表格中选择关联字段。填写上架信息(为快速审核,选择仅自己可用),确认发布等待审核,审核通过后即可在多维表格中使用。 多维表格的字段捷径使用: 1. 创建飞书多维表格,添加相关字段,配置后使用字段捷径功能,使用自己创建的 Coze 智能体。选择“自动更新”,输入 4 个字段后,“文案视频自动化”字段捷径会自动调用工作流,生成视频。 2. 表单分享,实现填写表单自动创建文案短视频。 自动化推送: 点击多维表格右上角的“自动化”,创建想要的自动化流程。
2025-02-24
短视频 提示词
以下是关于短视频提示词的相关内容: Pikadditions 功能 1. 上传基础视频 点击页面下方的【Pikaddition】按钮。 拖拽或点击上传本地视频。 若自己没有视频,可在“templates”板块使用官方示例视频做测试。 2. 添加主角图片 点击【Upload Image】上传角色图片文件。 3. 编写视频提示词 若需要参考角色在视频里的相关互动,需在输入框用英文描述期望效果(支持 Emoji 辅助),然后点击生成按钮。 Pika 会提供一段默认 prompt,若没有特殊想法,可以直接使用。 建议在自己的提示词尾部加入官方提供的默认提示词,效果会更好。 该功能提示词公式参考: 事件驱动句式:As... 空间锁定技巧:使用场景物体作坐标轴:on the.../behind the.../from the... 动态呼应原则:角色动作与视频元素联动:swaying with.../reacting to.../matching... Coze 智能体创建 1. “开始”节点 共有 4 个输入变量,分别为:idea_txt(主题观点)、left_to_txt(画面左上角的文字)、right_to_txt(画面右上角的文字)、img_prmpot(画面中间图片生成提示词)。 注意:这 4 个变量名称要和智能体中提示词的变量对应一致,方便接收用户传入的参数。 2. “大模型”节点 使用 DeepSeek R1 模型,提示词要求不复杂,说出需求即可,格式可用大白话说出来。 3. “文本”节点 为将文案分句,每一句要生图、配音。选择按“句号”分句,具体可根据文案格式选择不同方式。 4. “图像生成”节点 使用官方插件,模型选“LOGO 设计”。若要生成全景图,此插件效果欠佳,建议选其它插件。 5. “抠图节点” 将上个节点生成的图片进行抠图。 编剧提示词 默认适合大框架的故事结构。若做短视频,在提交创作偏好时标注片长,比如:这是个 3 分钟的短视频。输出是分阶段的,几个来回就可以搞定剧本。
2025-02-24
抓取视频文字的浏览器插件
以下是为您找到的与抓取视频文字的浏览器插件相关的信息: 视频内容分析模型,上传视频后可以生成视频内容的文本描述。来源: 一个浏览器插件,可以用 AI 读取您的邮件内容并帮您生成回复。来源: 此外,还有关于其他插件的相关内容: 适用于 Google 表格的无代码机器学习插件。来源: 对 Chat GPT 二次封装的产品,可以访问互联网数据以及支持直接生成图片。来源: Luma Imagine 3D 一种用文本创建 3D 的新方法。来源: RF Diffusion 模型,帮助设计蛋白质结构的扩散模型。来源: PubMed GPT:生物医学文本的特定领域大型语言模型。来源: 还有关于制作插件的一些信息: 如果报错、解析结果不对,可以点击 Raw Response,会看到报错或者返回值,再根据返回值调整配置输出参数。 复制对应的链接到浏览器地址栏,打开查看。 有些文字显示不出来,是因为字体包中没有这个字,所以就会导致显示不出来。这个暂时没什么办法。除非找到更加全面的字体包。 点击完成,就成功的创建了一个插件。 另外,有一款 AI 浏览器插件,目标是实现输入任意文章链接后,AI 自动生成适合微信分享的文章推荐卡片。为了达到这一效果,大模型对话产品需要完成以下关键步骤: 1. 网页爬取:自行访问链接,解析网页内容。 2. 内容总结:根据提示词要求,提炼标题、摘要、要点等信息。 3. 二维码生成:利用 qrcode.js 库,将 URL 转换为二维码图片。 4. 卡片样式生成:基于特定模板设计要求(暂不考虑自适应样式主题),将卡片内容、二维码组合为精美的分享卡片。 值得一提的是,通过实践探索,发现了新的词生卡 Prompt 组织方法:把设计要求拆分为“设计规范”和“内容结构”,再细分为“布局与尺寸”、“字体规范”、“颜色规范”的独立模块,并结合“内容结构”进行要求提示。这种提示词组织方式有 3 个显著优势: 1. 模型通用性:采用纯 Markdown 格式编写,不依赖特定模型的特性,可以适配不同的大语言模型。 2. 提示简易性:提示词结构清晰易读,便于自然语言编写,降低使用门槛。 3. 生成稳定性:通过清晰的模块划分和自然语言描述,避免了指令间的相互干扰,提高了 AI 生成样式代码的准确性和一致性。
2025-02-24
视频分析工具有哪些
以下是一些常见的视频分析工具: 1. Roboflow 的开源计算机视觉工具库 Supervision: 具有视频跟踪器,可追踪物体移动,例如在足球比赛录像中追踪球员移动并分析表现。 区域工具,能选择视频特定区域进行分析,如观察商店货架商品销售情况。 注释器,可在视频上添加文字、标签等信息,例如在烹饪教程视频中添加食材名称和烹饪时间。 是全方位的计算机视觉平台,支持多种注释和图像格式,提供过滤、标签、分割、预处理和增强图像数据等功能,还集成了 OpenAI、Meta AI 等的模型,并提供一系列工具来组织视觉数据、自动化标签和部署基础模型。 官方网站: Github: 2. videoanalyzer: 结合了 Llama3.2 Vision 与 Whisper,通过获取关键帧并将其输入到视觉模型以获取详细信息来创建描述。 支持本地运行。 智能提取视频关键帧。 自动处理质量较差的音频。 分析结果的详细 JSON 输出。 官方网站:
2025-02-24
我是一位短视频AI博主,您能够为我提供哪些帮助呢?
以下是我能为您这位短视频 AI 博主提供的帮助: 1. 为您介绍根据视频脚本生成短视频的工具,例如: ChatGPT 结合剪映:ChatGPT 生成视频小说脚本,剪映根据脚本自动分析并生成素材和文本框架,实现从文字到画面的快速转化。 PixVerse AI:在线 AI 视频生成工具,支持多模态输入转化为视频。 Pictory:允许用户通过提供文本描述轻松创建和编辑高质量视频。 VEED.IO:提供 AI 图像和脚本生成器,帮助规划视频内容。 Runway:能将文本转化为风格化视频内容。 艺映 AI:提供文生视频、图生视频、视频转漫等服务。 2. 为您介绍北京分队中与短视频 AI 相关的人员信息,他们在不同领域具有丰富的经验和技能,可能为您的创作提供灵感或合作机会。例如: wb:对 AI 视频感兴趣,运营私域资源讨论群,关注 AI 前沿动态。 祖海:拥有编导和操盘手资源,从事个人 IP 咨询和陪跑以及 Ai 数字人获客。 宇竹:在多个领域有成功的 IP 操盘经验。 U:业余配音演员和歌手,擅长音频和简单视频剪辑。 萝卜:具备生图和生视频剪辑经验。 李先森:星动 AI 联合创始人,致力于 AI 教育培训和商业应用。 Lucky:在信息技术领域有丰富经验,能提供多种 AI 相关项目服务。 粉仔:抖音上的 AIGC 博主,熟悉主流 AIGC 工具。 sam:热爱互联网和 AI 技术。 海地老师:AI 影视共创社北京分社的负责人。 张帆:产品经理,正在学习 AI,尝试做知识分享。 请注意,以上内容由 AI 大模型生成,请仔细甄别。
2025-02-24
推荐一个能读取视频并总结出视频内容的ai
以下为您推荐能读取视频并总结视频内容的 AI 工具及方法: 1. GPT 系列: 对于 B 站等有字幕的视频,若视频栏下有字幕按钮,可通过安装油猴脚本获取字幕,将字幕复制发送给 GPT 进行总结。 有开发者利用 OpenAI 升级的 API 对足球比赛视频进行全 AI 解说,具体步骤包括提取视频帧(如使用 OpenCV 初始化视频文件读取,遍历视频逐帧处理并编码为 base64 格式)、构建描述提示(创建结构化提示,定义 GPT 请求参数)、发送 GPT 请求。 2. 视频内容分析模型:可在上传视频后生成视频内容的文本描述。 您可以根据实际需求选择使用。
2025-02-24
有没有帮助数据分析的agi
ChatGPT 可以助力数据分析,主要有以下两种方式: 1. SQL 分析:用户描述想分析的内容,后台连接数据库,附带表结构信息让 AI 输出 SQL 语句,校验为 SELECT 类型的 SQL 后执行,返回结果数据给 GPT(附带上下文),让其学习并分析数据,最后输出分析结论和建议,与结果数据一起返回给前端页面渲染图表、展示分析结论。目前已实现两张表关联查询。 2. 个性化分析:用户上传文件,如有需要可简单描述数据、字段意义或作用辅助分析。前端解析用户上传的文件,再传给 GPT 分析数据,后续步骤与 SQL 分析一致。 个性化分析示例中,上传的数据均为假数据,包括游戏 A 流水数据、游戏产品数据、页面事件统计和用户行为数据等。有时 AI 会误将数据项作为维度分析,可输入提示告诉它用哪个字段作为维度,或描述其他数据信息使分析更准确。 总结和展望:ChatGPT 在数据分析领域具有广泛应用前景,能提高效率、降低技能门槛和支持决策过程。但本案例分析结果可能简单,真正接入业务可定制多种分析模板,增加分析多样性。实际业务中处理大量数据时,除文中提到长类型字段限制,还需指定允许查询或解析的字段给 ChatGPT,对结果数据进行两次校验。随着人工智能技术进步,相信 ChatGPT 及其他类似工具将为数据分析带来更多创新和突破,助力实现更高效、更智能的决策。 原文地址:https://mp.weixin.qq.com/s/Fld25MxyoFEnUbnDmGJNXg 本文作者:krryguo,腾讯 IEG 前端开发工程师。
2025-02-24
我有什么方法,能够让ai帮我分析我有几篇飞书文档的内容,然后行程一个分享的提纲
目前让 AI 直接分析您的多篇飞书文档内容并形成分享提纲可能具有一定的挑战。但您可以尝试以下方法: 1. 首先,将飞书文档中的关键内容提取出来,整理成较为清晰的文本格式。 2. 然后,使用具有文本分析能力的 AI 工具,如某些自然语言处理模型,输入整理后的文本,让其帮助您总结主要观点和关键信息。 3. 您还可以向 AI 提供一些关于分享提纲的格式和重点要求的提示,以便它能生成更符合您需求的提纲。 需要注意的是,AI 的分析结果可能需要您进一步的审查和调整,以确保准确性和完整性。
2025-02-24
有没有专业分析和修改简历的AI
以下是一些专业分析和修改简历的 AI 工具: 1. Kickresume 的 AI 简历写作器:使用 OpenAI 的 GPT4 语言模型自动生成简历,能为简历摘要、工作经验和教育等专业部分编写内容,并保持一致语调。 2. Rezi:受到超过 200 万用户信任的领先 AI 简历构建平台,使用先进的 AI 技术自动化创建可雇佣简历的每个方面,包括写作、编辑、格式化和优化。 3. Huntr 的 AI 简历构建器:提供免费的简历模板,以及 AI 生成的总结/技能/成就生成器和 AI 驱动的简历工作匹配。 此外,还有超级简历优化助手,能帮助用户优化简历提高求职成功率。您还可以查看这里获取更多 AI 简历产品:https://www.waytoagi.com/category/79 。 希望这些信息对您有所帮助,您可以根据自己的需要选择最适合您的工具。
2025-02-22
情绪分析
以下是关于情绪分析的相关信息: 中文数据集: RenCECPs:由 Fuji Ren 提供,标注的博客语料库,在文档级、段落级和句子级标注了 emotion 和 sentiment,包含 1500 个博客、11000 段落和 35000 句子。 weibo_senti_100k:带情感标注的新浪微博,正负向评论约各 5 万条。 BDCI2018 汽车行业用户观点主题及情感识别:汽车论坛中对汽车的评论,标注了汽车的多个主题及情感标签,情感分为中立、正向、负向 3 类。 微调(Finetuning)案例研究:假设想要了解特定推文的正面或负面程度,对模型进行微调后,可通过在 logprobs=2 完成请求上设置来取回第一个完成令牌的对数概率,正类别的概率越高,相对情绪就越高。 品牌舆论传播相关的关键词库包含情感分析,涉及舆论传播、数据分析、主题、事件等 25 个关键词。
2025-02-19
AI数据分析
以下是关于 AI 数据分析的相关内容: ChatGPT 助力数据分析: 本文重点介绍了 AI 与数据分析结合的应用,通过实际案例与相关技巧,描述了 ChatGPT 如何助力数据分析。 实现了两种方式支持多维数据分析: SQL 分析:分析平台自身使用情况,输入一句话可分析用户配置图表相关数据。用户描述想分析的内容,后台连接 DB,附带表结构信息让 AI 输出 SQL 语句,校验为 SELECT 类型后执行返回结果数据,再传给 GPT 分析,最后输出分析结论和建议并返回前端页面渲染图表。 个性化分析:平台支持上传数据,可提供数据信息辅助分析,前端解析文件后传给 GPT 分析,后续步骤与 SQL 分析一致。 分析完成后展示结果数据的图表和分析结论,图表支持折线图和柱状图可随意切换。 生成式 AI 季度数据报告 2024 月 1 3 月: 作者包括郎瀚威 Will、张蔚 WeitoAGI、江志桐 Clara 等。 报告涵盖总体流量概览、分类榜单、文字相关(个人生产力、营销、教育、社交)、创意相关(图像、视频)、音频大类、代码大类、Agent、B2B 垂类等方面。 涉及数据准备、分类标准图谱准备、赛道分析、竞争分析等内容。
2025-02-18