要使用 AI 精准且快速总结视频网站的视频,可参考以下步骤:
此外,通义千问的 Qwen2.5-VL 模型在视频理解方面也有出色表现,如支持最长 1 小时视频理解,具备秒级的事件定位能力,能够对视频的不同时间段进行要点总结等。
除了聊天内容之外,我们还能让AI总结整理各种文章(文章不超过2w字,否则就超出token了)例如,我复制了我的一篇文章给它总结:打开后直接全选复制全文,然后粘贴发送给GPTs,它就开始总结了,很方便,GPT4它能识别出哪些部分属于重点内容。[heading3]2、B站视频[content]你可能会疑惑,GPT不是无法处理视频内容吗,这是怎么做到的?答案是视频字幕。我用这个视频举例:https://www.bilibili.com/video/BV1VL411U7MU/?spm_id_from=333.337.search-card.all.click&vd_source=e05ea46c768d112737bc19e721da8967打开这个视频,如果你能在视频栏下面有一个字幕按钮,说明这个视频作者已经上传了字幕或者后台适配了AI字幕。那我们把这些字幕弄下来,再发给AI执行内容总结任务,是不是就达到了总结视频的效果?是的,目前大部分用AI总结视频的工具/插件/应用都是这么干的。那接下来的卡点就是,怎么把字幕文字内容给提取出来,用语音转文字?不,效率太低了。像这种有字幕的视频,我们可以装一个油猴脚本:[Bilibili CC字幕工具](https://greasyfork.org/zh-CN/scripts/378513-bilibili-cc%E5%AD%97%E5%B9%95%E5%B7%A5%E5%85%B7)安装之后,刷新浏览器,点击字幕,你会看到多出一个“下载”按钮点击下载按钮,会弹出下面这个窗口,你可以选择多种字幕格式,带时间的或者不带时间的:接下来,还是老办法,将字文字内容全选复制发送给GPTs即可。当然,总结完视频内容之后你继续向AI提问更多细节内容或者与它探讨视频内容。
,就比方说我是为了休闲的目的来听一个播客,那我用啥AI summary呢?我直接一边跑步一边听一下播客,是不其实很舒服?然后如果是我要解决手头上某一个编程问题,那肯定博客就不是一个足够合适的载体。乔向阳32:30但是如果是像嗯,编程或者是木工,就这样,大家知道手工梗对吧?嗯,那么这个是王刚他做的做菜的视频。嗯,那显然视频是一种更高效的,并且你能够直接学习的方式,而且你能够直接看到诶他是怎么操作的?你什么时候该放言,你什么时候该宽由,或者是你什么时候该?嗯,在你的代码中加入某个imports,就是某个语句,那这个时候视频会给你最直观的体验,并且他是为了你的目的服务的就是你看这个主营就是为了学会我应该怎么写这一行代码。乔向阳33:12所以我就经常会很喜欢看一些大佬在某些技术会议上面去现场演示一下代码。因为首先现场演示的话,他一定是对于自己的代码足够熟悉,并且对某些预期的情况有足够的了解,并且他敢于在技术大会上面首敲代码,那个他一定很厉害。就包括你在学习的同时并不只是在看他的所谓的代码怎么写的,你还会观察到他很多的编程细节,你说他是如何调用某个快捷键的,或者是如何使用工具的,其实你都能够潜移默化地去受到它的影响。所以这是一个我想抛出来的点,就是我们不管是学习任何的内容,就是从知识的这个角度来说,以前我们可能是先把知识就是学会了,得深化到,并且通过刻意练习的方式深化到自己的脑袋里面,诶,然后你再用自己的脑袋指挥你的手,指挥你的各种工具来完成某件事情。但现在可能有一些变化了,就是你可以直接基于某个视频来直接帮你干活。嗯,这是要解决AI的能力的,比方说我现在的目的就是为了写一篇文章,那么我就可以而我b站做好的视频直接通过AI的方式,直接把书口语化的表达转成了书面化的表达。乔向阳34:45或者是我们就是为了做一个比如说某一个乔布斯或者是马斯克的访谈的一个媒体,那么我们就可以通过assummary
在Qwen2.5-VL中,我们在设计了一种更全面的文档解析格式,称为QwenVL HTML格式,它既可以将文档中的文本精准地识别出来,也能够提取文档元素(如图片、表格等)的位置信息,从而准确地将文档中的版面布局进行精准还原。基于精心构建的海量数据,QwenVL HTML可以对广泛的场景进行鲁棒的文档解析,比如杂志、论文、网页、甚至手机截屏等等。[heading2]增强的视频理解[content]可以支持最长1小时视频理解Qwen2.5-VL的视频理解能力经过全面升级,在时间处理上,我们引入了动态帧率(FPS)训练和绝对时间编码技术。这样一来,模型不仅能够支持小时级别的超长视频理解,还具备秒级的事件定位能力。它不仅能够准确地理解小时级别的长视频内容,还可以在视频中搜索具体事件,并对视频的不同时间段进行要点总结,从而快速、高效地帮助用户提取视频中蕴藏的关键信息。对视频中的画面秒级定位[heading2]能够操作电脑和手机的视觉Agent[content]通过利用内在的感知、解析和推理能力,Qwen2.5-VL展现出了不错的设备操作能力。这包括在手机、网络平台和电脑上执行任务,为创建真正的视觉代理提供了有价值的参考点。视频详情Prompt:Please help me book a one-way ticket in the bookings app.The starting point is Chongqing Jiangbei Airport and the ending point is Beijing Capital Airport on January 28th.