在视频领域搭建 AI 模型的成本因多种因素而异。对于创业者或小公司来说,这个领域存在一定的挑战。
腾讯的混元 AI 视频模型目前只支持文生视频,且已开源免费。
在模型供应商方面,不同供应商的特点和成本有所不同:
此外,获取高质量数据的难度较高,大厂在该领域的护城河深厚。大公司在争取大模型 API 客户方面更具优势,且开源大模型的发展可能会影响创业公司的业务。去年为大客户定制一个大模型的最高订单额可达 1000 万元,而今年则快速降到了百万元级别乃至更低。
AI视频这个行业,我一直觉得对于创业者或者小公司来说,不是特别友好。不友好的点在于,获取高质量数据的难度,相比于文本、图像啥的,太高了。大厂啊,护城河还是太高、太深了。最关键的是,腾讯用这个自己深厚的家底,先把这个模型的v1版本做完了,然后,直接开源,免费送。这尼玛,谁顶得住。目前混元AI视频模型,只支持文生视频,不过他们说图生视频也很快就会上线了,马上就做完了。文本大模型、AI绘图大模型、3D生成大模型,再加上这次的AI视频大模型。如果再来一个AI声音模型,腾讯就是,真正的全系开源了。只能说,腾讯对于自己的市场定位和核心竞争优势,也有着极度明确的认知。腾讯的城堡,还在向天空挺进。以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。>/作者:卡兹克>/投稿或爆料,请联系邮箱:wzglyay@gmail.com
据QuestMobile数据,今年9月,豆包App的30日留存率[1]达到34.5%,而Kimi智能助手和MiniMax的海螺AI都是约28%。一位月之暗面人士告诉我们,他们在9月逐一列出了豆包有,而Kimi没有的功能点,开始仔细分析去年还不被视为对手的豆包。大公司也在更强势地争取大模型API客户。AI儿童玩具公司Haivivi CEO李勇告诉我们,此前他们一直用MiniMax的语音模型,而当其产品在抖音热卖后,字节联系到他们,称可提供优惠价的豆包大模型API,还承诺升级抖音店铺。李勇说,现在Haivivi会同时调用MiniMax和豆包的语音模型。几乎投了所有头部大模型公司的阿里,也是创业公司的API和To B业务潜在对手。阿里是中国最积极做开源大模型的公司。到今年9月,其Qwen系列开源大模型的总下载量已超4000万次,衍生出了5万个大模型,仅次于Meta的Llama系列。这可能会让本想购买创业公司大模型API,或让创业公司定制模型的客户转而投向开源生态。我们了解到,去年为大客户定制一个大模型,最高订单额可达1000万元,而今年则快速降到了百万元级别,乃至更低。在更底层的模型研发上,字节也展现出“饱和”进攻的姿态。视频生成模型是一个缩影。据了解,月之暗面从去年10月就开始做视频模型,起步很早;而在去年四季度朱文佳的OKR中,尚看不到视频模型的相关描述。
用成本相对较高,大家可以选择以下供应商中|模型厂商|类型|特点|成本|网址/文档||-|-|-|-|-||智谱<br>GLM-4V|通用视觉类大模型|拍立得最早使用的模型<br>接口响应速度快<br>指令灵活性差一些<br>一个接口支持图片/视频/文本,视频和图片类型不能同时输入|调用:0.05元/千tokens|[智谱接口调用示例](https://bigmodel.cn/dev/api/normal-model/glm-4v)||阿里云百炼<br>qwen-vl-plus|通用视觉类大模型|拍立得目前使用的模型<br>指令灵活性比较丰富<br>接口调用入门流程长一些,密钥安全性更高|调用:¥0.008/千tokens<br>训练:¥0.03/千tokens|[通义千问接口调用示例](https://bailian.console.aliyun.com/?spm=5176.21213303.J_qCOwPWspKEuWcmp8qiZNQ.33.14162f3drQWnj1&scm=20140722.S_card@@%E4%BA%A7%E5%93%81@@2983180._.ID_card@@%E4%BA%A7%E5%93%81@@2983180-RL_%E7%99%BE%E7%82%BC%E5%A4%A7%E6%A8%A1%E5%9E%8B-LOC_search~UND~card~UND~item-OR_ser-V_3-RE_cardNew-P0_0#/model-market/detail/qwen-vl-plus?tabKey=sdk)||阶跃星辰|通用视觉类大模型|响应速度快<br>支持视频理解|输入:¥0.005~0.015/千tokens<br>输出:¥0.02~0.07/千tokens|[阶跃星辰接口调用示例](https://platform.stepfun.com/docs/guide/image_chat)||百度PaddlePaddle|OCR,垂直小模型|文本识别能力补齐增强|私有化部署服务费<br>API调用在¥0.05~0.1/次|[Paddle OCR开源地址](https://github.com/PaddlePaddle/PaddleOCR)|