以下是一些类似 Dify 的工具:
此外,在开源社区中,还有像 fastgpt 等成熟的高质量 AI 编排框架。Dify 是一个开源的大模型应用开发平台,具有强大的工作流构建工具、广泛的模型集成、功能丰富的提示词 IDE 等特点,还允许定义 Agent 智能体并进行性能监控优化,提供云服务和本地部署选项。其官方手册:https://docs.dify.ai/v/zh-hans 。一般来说,个人研究推荐单独使用 Dify,企业级落地项目推荐多种框架结合。
Dify更新了开源的Agent+Tools的能力首发版本内置了12款第一方工具(包括DALL·E 3),并能通过扩展方式去集成自己的API工具(它完全兼容OpenAI的AI-Plugin规矩):https://dify.ai/blog/dify-ai-unveils-ai-agent-creating-gpts-and-assistants-with-various-llmsElevenLabs发布Dubbing Studio和8000万美元的B轮融资,Dubbing Studio可以自动识别视频中的每一个发言者并且可以手动调整每一句话的语气和具体的翻译,直到修改完成,也可以全部自动完成:https://x.com/elevenlabsio/status/1749863738570690692?s=20现在Poe的机器人创建者只要为Poe带来一个新用户就能获得高达50美元的收入:https://x.com/poe_platform/status/1749827431543050517?s=20HayGen发布可以实时对话的数字人产品:https://x.com/CoffeeVectors/status/1749308520636231824?s=20字节发布Depth Anything深度估计模型,零样本相对深度估计,优于MiDaS v3.1(BEiTL-512)零样本度量深度估计,优于ZoeDepth,Web UI COntrolnet插件已经支持:https://arxiv.org/abs/2401.10891
上述种种,如果都要自建代码实现各模块,开发工作量巨大,迭代难度也很高,对于个人开发者来讲不现实。因此我们推荐借助开源社区的力量,现在开源社区已经有了像dify、fastgpt等等成熟的高质量AI编排框架,它们有大量的开源工作者维护,集成各种主流的模型供应商、工具以及算法实现等等。我们可以通过这些框架快速编排出自己的AI Agent,赋予数字人灵魂。在笔者的开源项目中,使用了dify的框架,利用其编排和可视化交互任意修改流程,构造不同的AI Agent,并且实现相对复杂的功能,比如知识库的搭建、工具的使用等都无需任何的编码和重新部署工作。同时Dify的API暴露了audio-to-text和text-to-audio两个接口,基于这个两个接口就可以将数字人的语音识别和语音生成都交由Dify控制,从而低门槛做出来自己高度定制化的数字人(如下图),具体的部署过程参考B站视频:https://www.bilibili.com/video/BV1kZWvesE25。如果有更加高度定制的模型,也可以在Dify中接入XInference等模型管理平台,然后部署自己的模型。此外,数字人GUI工程中仍然保留了LLM、ASR、TTS、Agent等多个模块,能够保持更好的扩展,比如实现更加真实性感的语音转换、或者如果有更加Geek的Agent实现也可以选择直接后端编码扩展实现。
Dify是一个开源的大模型应用开发平台,它通过结合后端即服务和LLMOps的理念,为用户提供了一个直观的界面来快速构建和部署生产级别的生成式AI应用。该平台具备强大的工作流构建工具,支持广泛的模型集成,提供了一个功能丰富的提示词IDE,以及一个全面的RAG Pipeline,用于文档处理和检索。此外,Dify还允许用户定义Agent智能体,并通过LLMOps功能对应用程序的性能进行持续监控和优化。Dify提供云服务和本地部署选项,满足不同用户的需求,并且通过其开源特性,确保了对数据的完全控制和快速的产品迭代。Dify的设计理念注重简单性、克制和快速迭代,旨在帮助用户将AI应用的创意快速转化为现实,无论是创业团队构建MVP、企业集成LLM以增强现有应用的能力,还是技术爱好者探索LLM的潜力,Dify都提供了相应的支持和工具。Dify官方手册:https://docs.dify.ai/v/zh-hans一般地,如果是个人研究,推荐大家单独使用Dify,如果是企业级落地项目推荐大家使用多种框架结合,效果更好。