Chat with Wiki - 视频分析

Answer

以下是关于视频分析的相关内容：

使用 Gemini 进行视频分析：

可以放入自己的案例，文档可编辑。
思路：如拿库布里克的电影来分析，学习大师手法；b 站大学复习有帮助；可用于影视二创长剪短、警察查监控等场景，替代 Opus 等长剪短工具。
测试者阿强的体验：好用，准确度高，对功夫熊猫版-如来神掌的分析效果好，能准确认出“如来神掌”。
测试者 PeacePower 的结论：Gemini API 不支持原生的视频分析，UI 提现的视频分析是通过按 frame rate 提取关键帧分析，可能出现丢帧情况。可设置条件提供采样率，默认条件识别次数不准确。

宝玉日报 2 月 10 日提到：

选对模型是关键，GPT-4o 目前无法直接解析视频，Gemini 2.0 Flash Thinking 是解析视频的最佳选择。
AIStudio 免费可用，需海外 IP，上传视频即可解析。并提供了视频解析示例及相关链接。

Content generated by AI large model, please carefully verify (powered by aily)

References

用 Gemini 拆解视频

大家可以放自己的案例，本文档可编辑使用Gemini 1.5 Pro，做视频分析和拆解能力了https://aistudio.google.com/[heading2]思路：[content]郑跃葵：拿个库布里克的电影来分析，连大师手法都学会了大峰AI绘画：太酷啦又多了一个AI视频创作助手Jones：b站大学复习有救了对！：拉片太方便了Shock：而且可以干掉人工标注了，安徽那边数据标注众包要失业了清慎：1.影视二创长剪短，一键生成小帅、小美、大壮、丧彪的故事2.警察叔叔查监控，一句话找出监控中的可疑现象3.替代Opus等长剪短工具[heading2]测试者：阿强[content]拆解作品[阿强：功夫熊猫版-如来神掌的完整复盘](https://waytoagi.feishu.cn/wiki/T6bFwVlppipd4ZkoddfcGbebnvd)好用，准确度很高，我把前几天用AI做的功夫熊猫-之离谱村版丢进去分析，效果很好拆解结果prompt：请你用极致详细的言语描述其中的每个镜头，包括其中有什么物体，在执行什么动作，产生什么形变，为什么这样设计分镜等等。感动，它竟然准确的认出了“如来神掌”Gemini 1.5 Pro给出的全文如下：[heading2]测试者：张余[content]拆解结果Gemini 1.5 Pro给出的全文如下：[heading2]测试者：Ling[content][heading2]测试者：洋洋[content]拆解结果

用 Gemini 拆解视频

结论：Gemini API不支持原生的视频分析。UI提现的视频分析是通过按照frame rate提取关键帧分析。可能出现丢帧的情况。API测试测试脚本https://github.com/google-gemini/cookbook/blob/main/quickstarts/Video.ipynb测试视频https://www.youtube.com/watch?v=vJG698U2Mvo一群人传球，正确答案是15次可以设置if int(count/fps)==frame_count:高亮条件来提供采样率。默认条件只能识别出4次参考视频https://www.youtube.com/watch?v=5QzMjfMrQKQUI测试：显示16次，但是无法回答后续问题

宝玉日报

🫧宝玉日报「2月10日」✨✨✨✨✨✨✨✨1⃣️🎬如何让AI解析视频？选对模型是关键：GPT-4o目前无法直接解析视频，而Gemini 2.0 Flash Thinking是解析视频的最佳选择。AIStudio免费可用：访问[aistudio.google.com](https://aistudio.google.com)（需海外IP），上传视频即可解析。视频解析示例：OpenAI最新广告“What do you want to create next?”，用Gemini解析出完整画面、音频及寓意。🔗Multimodal Large Language Models(MLLMs)transforming Computer Vision原文:[https://tenyks.ai/blog/multimodal-large-language-models-mllms-transforming-computer-vision](https://tenyks.ai/blog/multimodal-large-language-models-mllms-transforming-computer-vision)🔗译文:[https://baoyu.io/translations/multimodal-large-language-models-mllms-transforming-computer-vision#google_vignette](https://baoyu.io/translations/multimodal-large-language-models-mllms-transforming-computer-vision#google_vignette)🔗推文:[https://x.com/dotey/status/1888781864866836533](https://x.com/dotey/status/1888781864866836533)2⃣️📖为什么要写博客，即使没人看？写作是思考的出口：博客就像摄影，记录的是自己的观察与思考，而非取悦他人。长期价值：未来的自己、某个特定的读者，或者深度积累的作品，才是写作真正的回报。写作是费曼学习法的最佳实践：坚持下来，收益最大的是自己，流量只是额外奖励。