以下是关于视频分析的相关内容:
使用 Gemini 进行视频分析:
宝玉日报 2 月 10 日提到:
大家可以放自己的案例,本文档可编辑使用Gemini 1.5 Pro,做视频分析和拆解能力了https://aistudio.google.com/[heading2]思路:[content]郑跃葵:拿个库布里克的电影来分析,连大师手法都学会了大峰AI绘画:太酷啦又多了一个AI视频创作助手Jones:b站大学复习有救了对!:拉片太方便了Shock:而且可以干掉人工标注了,安徽那边数据标注众包要失业了清慎:1.影视二创长剪短,一键生成小帅、小美、大壮、丧彪的故事2.警察叔叔查监控,一句话找出监控中的可疑现象3.替代Opus等长剪短工具[heading2]测试者:阿强[content]拆解作品[阿强:功夫熊猫版-如来神掌的完整复盘](https://waytoagi.feishu.cn/wiki/T6bFwVlppipd4ZkoddfcGbebnvd)好用,准确度很高,我把前几天用AI做的功夫熊猫-之离谱村版丢进去分析,效果很好拆解结果prompt:请你用极致详细的言语描述其中的每个镜头,包括其中有什么物体,在执行什么动作,产生什么形变,为什么这样设计分镜等等。感动,它竟然准确的认出了“如来神掌”Gemini 1.5 Pro给出的全文如下:[heading2]测试者:张余[content]拆解结果Gemini 1.5 Pro给出的全文如下:[heading2]测试者:Ling[content][heading2]测试者:洋洋[content]拆解结果
结论:Gemini API不支持原生的视频分析。UI提现的视频分析是通过按照frame rate提取关键帧分析。可能出现丢帧的情况。API测试测试脚本https://github.com/google-gemini/cookbook/blob/main/quickstarts/Video.ipynb测试视频https://www.youtube.com/watch?v=vJG698U2Mvo一群人传球,正确答案是15次可以设置if int(count/fps)==frame_count:高亮条件来提供采样率。默认条件只能识别出4次参考视频https://www.youtube.com/watch?v=5QzMjfMrQKQUI测试:显示16次,但是无法回答后续问题
🫧宝玉日报「2月10日」✨✨✨✨✨✨✨✨1⃣️🎬如何让AI解析视频?选对模型是关键:GPT-4o目前无法直接解析视频,而Gemini 2.0 Flash Thinking是解析视频的最佳选择。AIStudio免费可用:访问[aistudio.google.com](https://aistudio.google.com)(需海外IP),上传视频即可解析。视频解析示例:OpenAI最新广告“What do you want to create next?”,用Gemini解析出完整画面、音频及寓意。🔗Multimodal Large Language Models(MLLMs)transforming Computer Vision原文:[https://tenyks.ai/blog/multimodal-large-language-models-mllms-transforming-computer-vision](https://tenyks.ai/blog/multimodal-large-language-models-mllms-transforming-computer-vision)🔗译文:[https://baoyu.io/translations/multimodal-large-language-models-mllms-transforming-computer-vision#google_vignette](https://baoyu.io/translations/multimodal-large-language-models-mllms-transforming-computer-vision#google_vignette)🔗推文:[https://x.com/dotey/status/1888781864866836533](https://x.com/dotey/status/1888781864866836533)2⃣️📖为什么要写博客,即使没人看?写作是思考的出口:博客就像摄影,记录的是自己的观察与思考,而非取悦他人。长期价值:未来的自己、某个特定的读者,或者深度积累的作品,才是写作真正的回报。写作是费曼学习法的最佳实践:坚持下来,收益最大的是自己,流量只是额外奖励。