Chat with Wiki - 我想创业，花多少钱，能够搭建一个视频领域的AI模型

Answer

在视频领域搭建 AI 模型的成本因多种因素而异。对于创业者或小公司来说，这个领域存在一定的挑战。

腾讯的混元 AI 视频模型目前只支持文生视频，且已开源免费。

在模型供应商方面，不同供应商的特点和成本有所不同：

智谱 GLM-4V 是通用视觉类大模型，为拍立得最早使用的模型，接口响应速度快，指令灵活性差一些，调用成本为 0.05 元/千 tokens。
阿里云百炼 qwen-vl-plus 也是通用视觉类大模型，是拍立得目前使用的模型，指令灵活性比较丰富，接口调用入门流程长一些，密钥安全性更高，调用成本为 0.008 元/千 tokens，训练成本为 0.03 元/千 tokens。
阶跃星辰是通用视觉类大模型，响应速度快，支持视频理解，输入成本为 0.005 - 0.015 元/千 tokens，输出成本为 0.02 - 0.07 元/千 tokens。
百度 PaddlePaddle 是 OCR 垂直小模型，文本识别能力补齐增强，私有化部署有服务费，API 调用在 0.05 - 0.1 元/次。

此外，获取高质量数据的难度较高，大厂在该领域的护城河深厚。大公司在争取大模型 API 客户方面更具优势，且开源大模型的发展可能会影响创业公司的业务。去年为大客户定制一个大模型的最高订单额可达 1000 万元，而今年则快速降到了百万元级别乃至更低。

Content generated by AI large model, please carefully verify (powered by aily)

References

混元：腾讯视频模型

AI视频这个行业，我一直觉得对于创业者或者小公司来说，不是特别友好。不友好的点在于，获取高质量数据的难度，相比于文本、图像啥的，太高了。大厂啊，护城河还是太高、太深了。最关键的是，腾讯用这个自己深厚的家底，先把这个模型的v1版本做完了，然后，直接开源，免费送。这尼玛，谁顶得住。目前混元AI视频模型，只支持文生视频，不过他们说图生视频也很快就会上线了，马上就做完了。文本大模型、AI绘图大模型、3D生成大模型，再加上这次的AI视频大模型。如果再来一个AI声音模型，腾讯就是，真正的全系开源了。只能说，腾讯对于自己的市场定位和核心竞争优势，也有着极度明确的认知。腾讯的城堡，还在向天空挺进。以上，既然看到这里了，如果觉得不错，随手点个赞、在看、转发三连吧，如果想第一时间收到推送，也可以给我个星标⭐～谢谢你看我的文章，我们，下次再见。>/作者：卡兹克>/投稿或爆料，请联系邮箱：wzglyay@gmail.com

中国大模型生存战：巨头围剿，创业难熬

据QuestMobile数据，今年9月，豆包App的30日留存率[1]达到34.5%，而Kimi智能助手和MiniMax的海螺AI都是约28%。一位月之暗面人士告诉我们，他们在9月逐一列出了豆包有，而Kimi没有的功能点，开始仔细分析去年还不被视为对手的豆包。大公司也在更强势地争取大模型API客户。AI儿童玩具公司Haivivi CEO李勇告诉我们，此前他们一直用MiniMax的语音模型，而当其产品在抖音热卖后，字节联系到他们，称可提供优惠价的豆包大模型API，还承诺升级抖音店铺。李勇说，现在Haivivi会同时调用MiniMax和豆包的语音模型。几乎投了所有头部大模型公司的阿里，也是创业公司的API和To B业务潜在对手。阿里是中国最积极做开源大模型的公司。到今年9月，其Qwen系列开源大模型的总下载量已超4000万次，衍生出了5万个大模型，仅次于Meta的Llama系列。这可能会让本想购买创业公司大模型API，或让创业公司定制模型的客户转而投向开源生态。我们了解到，去年为大客户定制一个大模型，最高订单额可达1000万元，而今年则快速降到了百万元级别，乃至更低。在更底层的模型研发上，字节也展现出“饱和”进攻的姿态。视频生成模型是一个缩影。据了解，月之暗面从去年10月就开始做视频模型，起步很早；而在去年四季度朱文佳的OKR中，尚看不到视频模型的相关描述。

0基础手搓AI拍立得

用成本相对较高，大家可以选择以下供应商中|模型厂商|类型|特点|成本|网址/文档||-|-|-|-|-||智谱 GLM-4V|通用视觉类大模型|拍立得最早使用的模型 接口响应速度快 指令灵活性差一些 一个接口支持图片/视频/文本，视频和图片类型不能同时输入|调用：0.05元/千tokens|[智谱接口调用示例](https://bigmodel.cn/dev/api/normal-model/glm-4v)||阿里云百炼 qwen-vl-plus|通用视觉类大模型|拍立得目前使用的模型 指令灵活性比较丰富 接口调用入门流程长一些，密钥安全性更高|调用：¥0.008/千tokens 训练：¥0.03/千tokens|[通义千问接口调用示例](https://bailian.console.aliyun.com/?spm=5176.21213303.J_qCOwPWspKEuWcmp8qiZNQ.33.14162f3drQWnj1&scm=20140722.S_card@@%E4%BA%A7%E5%93%81@@2983180._.ID_card@@%E4%BA%A7%E5%93%81@@2983180-RL_%E7%99%BE%E7%82%BC%E5%A4%A7%E6%A8%A1%E5%9E%8B-LOC_search~UND~card~UND~item-OR_ser-V_3-RE_cardNew-P0_0#/model-market/detail/qwen-vl-plus?tabKey=sdk)||阶跃星辰|通用视觉类大模型|响应速度快 支持视频理解|输入：¥0.005～0.015/千tokens 输出：¥0.02～0.07/千tokens|[阶跃星辰接口调用示例](https://platform.stepfun.com/docs/guide/image_chat)||百度PaddlePaddle|OCR，垂直小模型|文本识别能力补齐增强|私有化部署服务费 API调用在¥0.05～0.1/次|[Paddle OCR开源地址](https://github.com/PaddlePaddle/PaddleOCR)|