大模型包括文生图、图生图、图生视频、文生视频等多模态内容。多模态模型的底层逻辑通常先从生图片这一源头开始,因为视频也是由若干帧的图片组成。例如,目前比较火的 StableDiffusion 所使用的扩散模型,其训练过程是先把海量带有标注文字描述的图片逐渐加满噪点,模型学习每一步图片向量值和文字向量值的数据分布演变规律,沉淀下来完成训练。后续输入文字后,模型根据输入文字转化的向量指导充满噪点的图片减噪点生成最终图片。
腾讯的混元 AI 视频模型目前只支持文生视频,但图生视频也即将上线。
唱衰大模型的人认为大模型仅能实现如 ChatBox、文生图、图生图、生视频、生音频等功能,难以找到可商用场景,且存在算力成本等问题。但实际上,关于算力成本已有许多解决方案,而且大模型的应用并非仅限于上述提到的功能。
ok讲完了LLm,我们来看多模态是怎么实现的多模态模型目前基本就是文生图、图生图、图生视频、文生视频这些,其底层逻辑其实还是先从生图片这一源头。因为毕竟视频也是若干帧的图片组成。所以在生图片的这个环节上,我们把比较火的这个stablediffusion用的这个diffusion扩散模型理解掉,也就差不多够了。那么什么是扩散模型呢,这里我拿论文中的两张图帮助理解一张是前向的,在图片上加噪点,最终生成一张无意义的噪点图,一个是后向的,从一个无意义的噪点图上消除噪点,最终得到一张有意义的实际图片。其实扩散模型训练的就是这个加减噪点的过程:先把海量的带有标注文字描述的图片,例如“一只白色的小猫”,逐渐加满噪点。在这个过程中,模型会把每一步的图片向量值,和文字的向量值的数据分布的演变规律,进行系统学习并沉淀下来,这就完成了模型的训练。在后续我们输入文字后,模型就可以根据输入的文字转化为的向量,去指导一个充满噪点的图片每一步减噪点的过程,生成最终的图片。这里其实有两个点一个是diffusion模型中加减噪点的方式,其实也与我们大脑中去构思一张图片的方式有些类似,我们去想像一张图片的时候,不也是从一片模糊中逐渐想清楚一张图片嘛第二个是多模态模型会把文字的向量值和图片的rgb像素点的向量值进行关联,这个也像极了我们大脑中的一个思考过程。
AI视频这个行业,我一直觉得对于创业者或者小公司来说,不是特别友好。不友好的点在于,获取高质量数据的难度,相比于文本、图像啥的,太高了。大厂啊,护城河还是太高、太深了。最关键的是,腾讯用这个自己深厚的家底,先把这个模型的v1版本做完了,然后,直接开源,免费送。这尼玛,谁顶得住。目前混元AI视频模型,只支持文生视频,不过他们说图生视频也很快就会上线了,马上就做完了。文本大模型、AI绘图大模型、3D生成大模型,再加上这次的AI视频大模型。如果再来一个AI声音模型,腾讯就是,真正的全系开源了。只能说,腾讯对于自己的市场定位和核心竞争优势,也有着极度明确的认知。腾讯的城堡,还在向天空挺进。以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。>/作者:卡兹克>/投稿或爆料,请联系邮箱:wzglyay@gmail.com
[heading2]一、写在前面[content]写这篇文章的初衷,源于近期涌起的唱衰AI大模型的风潮。不少人在对大模型的机制及当下的商业形态进行了初步了解后,便断言大模型是一场“骗局”,是资本操控的闹剧。同时,近来不管是投资领域还是各大厂,似乎都开始谨慎衡量做大模型这件事的投资回报率(ROI)。难道大模型当真不像去年众人所认定的那样,是一场所谓的“革命”吗?唱衰大模型的人,大多持有这样的观点:他们觉得大模型仅能实现像chatbox、文生图、图生图、生视频、生音频之类的功能,难以找到可商用的场景,更别说其中部分功能还可能存在幻觉问题。同时,大模型的算力也是有成本的,而且价格不低。所以问题就出现了,即我们做出了一个个看似出色的ai产品,用户日活量或许也很高,但高日活带来的是高机器算力费用,而这笔费用又无法从活跃用户身上获取,所以这个商业模式就难以形成闭环了。所以这种理解倒不能说是错误的,但这是建立在两个前提之上的。第一,大模型确实后续也仅能用在聊天以及生成图片、文字、视频了;第二,算力的费用会持续居高不下。但在我看来,这两点都是不成立的。首先关于第二点的算力的问题,已经有许多解决方案了,不论是模型蒸馏,还是苹果的端云方案等等,我认为今年内算力成本问题将不再是难题。那么第一点,其实也是今日的重点。而要知晓一个新事物究竟能够带来什么样的改变,我认为首先是先需要明晰其运作原理究竟是怎样的。实际上,我也看过市面上很多有关大模型的科普文章,坦白讲,对于非技术人员而言,理解起来颇具难度。所以,我期望这篇文章能通过最为直白、最为简单的描述,帮助各位产品同学,理解何为大模型,大模型是如何运作的,大模型究竟带来了什么,以及我们究竟该去怎么看待这次大模型的浪潮。