Chat with Wiki - 有什么支持多模态输入和输出的C端产品

Answer

以下是一些支持多模态输入和输出的 C 端产品：

宝玉日报：支持文本或音频输入，输出可为文本、音频或混合数据。价格方面，1 小时音频输入成本为$12.8，输出为$25.6。相关链接：https://platform.openai.com/docs/guides/audio 、https://x.com/dotey/status/1847100400664494186
Imagic 发布的 AI 驱动的无代码应用构建工具：支持多模态输入输出，包括文本、图片、3D 和视频。创建出来的应用立刻就能使用和发布。相关链接：https://get.imagica.ai/s
面壁智能推出的 MiniCPM-o 2.6：具有多模态能力，如 OCR、视频理解、连续视频与音频流处理，实时直播与多模态上下文理解，支持 30 多种语言的文本和语音输入输出。资源链接：原推文、GitHub 、在线体验、模型下载
世界首个支持手持产品展示的 AI 数字人 Product Avatar：上传产品图片，数字人即可手持产品进行口播展示，支持多语言，覆盖 28 种语言，可快速生成产品宣传视频。相关链接：在线体验、原推文

Content generated by AI large model, please carefully verify (powered by aily)

References

多模态支持：文本或音频输入，输出可为文本、音频或混合数据。异步语音交互：适合不需要实时反馈的场景，支持情感分析及语调识别。价格说明：1小时音频输入成本为$12.8，输出为$25.6。🔗[https://platform.openai.com/docs/guides/audio](https://platform.openai.com/docs/guides/audio)🔗[https://x.com/dotey/status/1847100400664494186](https://x.com/dotey/status/1847100400664494186)4⃣️🚀Colibri火箭成功飞行至105米，学生项目挑战太空边界Gruyère Space Program(GSP)完成欧洲首个学生自主研发的可重复使用火箭自由飞行。火箭采用双组元推进剂发动机，实现垂直起飞和降落（VTVL）。该项目在25万瑞士法郎的预算内完成，展示了学生团队的创新和合作能力。🔗[https://gruyerespaceprogram.ch](https://gruyerespaceprogram.ch)🔗[https://x.com/dotey/status/1847096363571728654](https://x.com/dotey/status/1847096363571728654)5⃣️🛠️LangChain团队推出Open Canvas：开源版Canvas工具

AIGC Weekly #16

这个产品有点离谱的。宣传视频和官网太好看了。用自然语言快速生成可以使用的应用程序。支持Airtable等产品直接当作数据库使用。支持多模态输入输出，包括文本、图片3D和视频。创建出来的应用立刻就能使用和发布。宣传视频演示了比如股票应用和一些企业B端后台等。[heading2][Create：在几分钟内获得自动设计、构建和部署的Web应用程序](https://www.[content]在20周内完成10周的项目，以便更快地进入市场。与没有代码或低代码不同，创作者构建自定义用户体验，您拥有最终代码库。快速生成产品的第一个版本。然后，由创建者加速路线图的其余部分，为所有常见功能请求（如UI组件、GraphQL解析器等）提供生成器。[heading2][月维推出的提示词生成工具](https://github.com/Moonvy/OpenPromp[content]一个开源的AIGC（Midjourney）提示词可视化编辑小工具支持：显示英文提示词的中文翻译、输入中文提示词翻译到英文、为提示词进行分类（普通、样式、质量、命令）、轻松的排序、隐藏提示词、把提示词可视化结果导出为图片、常用提示词词典。[heading2][Apollo：一款基于ChatGPT的实时知识应用程序](https://twitter.co[content]通过耳机整天与它交谈。如果增强现实是对世界的叠加，这就是增强智能——对你思想的叠加。

1月15日社区动态速览

1⃣️🤖面壁智能推出MiniCPM-o 2.6亮点：8B大小，性能媲美GPT-4o级别，可在移动设备上运行。视觉能力：超越GPT-4o-202405、Gemini 1.5 Pro和Claude 3.5 Sonnet。功能：中英双语实时语音对话，支持情感、速度、风格控制，端到端语音克隆与角色扮演。多模态能力：OCR、视频理解、连续视频与音频流处理，实时直播与多模态上下文理解。多语言支持：覆盖30+种语言的文本和语音输入输出。资源链接：[原推文](https://x.com/imxiaohu/status/1879164082223534430)[GitHub](https://github.com/OpenBMB/MiniCPM-o)[在线体验](https://minicpm-omni-webdemo-us.modelbest.cn/?type=0)[模型下载](https://huggingface.co/openbmb/MiniCPM-o-2_6)2⃣️🛍️世界首个支持手持产品展示的AI数字人：Product Avatar功能特点：无需真人模特：上传产品图片，数字人即可手持产品进行口播展示。细节定制：语音和口型同步，动作、姿势可定制，支持1000+多国家数字人模特。多语言支持：覆盖28+种语言，可快速生成产品宣传视频。测试效果：视频效果接近成熟，嘴型部分需进一步优化。资源链接：[在线体验](https://topview.ai/ai-product-avatar)[原推文](https://x.com/imxiaohu/status/1879146338144932195)