以下是一些支持处理流程搭建的 AI 工具,类似 Dify 那样:
上述种种,如果都要自建代码实现各模块,开发工作量巨大,迭代难度也很高,对于个人开发者来讲不现实。因此我们推荐借助开源社区的力量,现在开源社区已经有了像dify、fastgpt等等成熟的高质量AI编排框架,它们有大量的开源工作者维护,集成各种主流的模型供应商、工具以及算法实现等等。我们可以通过这些框架快速编排出自己的AI Agent,赋予数字人灵魂。在笔者的开源项目中,使用了dify的框架,利用其编排和可视化交互任意修改流程,构造不同的AI Agent,并且实现相对复杂的功能,比如知识库的搭建、工具的使用等都无需任何的编码和重新部署工作。同时Dify的API暴露了audio-to-text和text-to-audio两个接口,基于这个两个接口就可以将数字人的语音识别和语音生成都交由Dify控制,从而低门槛做出来自己高度定制化的数字人(如下图),具体的部署过程参考B站视频:https://www.bilibili.com/video/BV1kZWvesE25。如果有更加高度定制的模型,也可以在Dify中接入XInference等模型管理平台,然后部署自己的模型。此外,数字人GUI工程中仍然保留了LLM、ASR、TTS、Agent等多个模块,能够保持更好的扩展,比如实现更加真实性感的语音转换、或者如果有更加Geek的Agent实现也可以选择直接后端编码扩展实现。上述Dify接口使用注意事项:1.使必须在应用编排功能中打开文字转语音和语音转文字功能,否则接口会返回未使能的错误。2.只有接入了支持TTS和SPEECH2TEXT的模型供应商,才会在功能板块中展示出来,Dify的模型供应商图标下标签有展示该供应商支持哪些功能,这里可以自行选择自己方便使用的。对于TTS,不同的模型供应商支持的语音人物不同,可以根据个人喜好添加。
复杂的工作流搭建怎么会如此麻烦...这似乎跟我我理想中的Agentic Workflow并不太一样!有没有一种更加方便高效的方式,让我能够在短时间内创作一个符合我预期的Agentic Workflow原型?有了,通过自然语言来构建DSL并还原工作流。我在之前就比较喜欢使用自然语言描述,然后使用Mermaid语法进行创建流程图表,其实DSL也是可以遵循一套约定俗成的规范进行创作。我认为可以通过口喷需求的方式,在0-1的时候辅助我快速生成一个看上去还不错的工作流程,然后我再修修改改,这会降低用户上手的门槛。一个小思考题,Agentic Workflow该给谁用?之前在讨论Agentic Workflow的可用性观点,有人给我说了这么一句话:“研发看不上,产品看不懂,小白不知所云。”目前我觉得Agentic Workflow拿来做MVP的产品测试是非常好的一个途径,能够在短时间内通过低代码或者零代码的方式进行创作一个小而美的应用。我的AI-Native应用就是这么玩的。Pailido|AI拍立得这是一款文案快速生成的AI-Naitive产品,各个场景由AI Agent驱动,仅需选中场景后点击拍摄即可快速生成对应文案。它的服务端可以是使用类似Dify.AI、Coze这种在线编辑好一个Agent应用,然后再通过API的方式进行集成,你仅仅需要关心你的前端、用户输入、你的输出反馈就可以了,打磨好一款小而美的产品。使用多模态模型,理解图片特征和输出场景期待,搞定小红书文案、外卖点评写作、闲鱼商品发布文案...真的太快了!所以有个问题要问问诸位了:Reshape your workflow with AI?orReshape your AI workflow?
Dify是一个开源的大模型应用开发平台,它通过结合后端即服务和LLMOps的理念,为用户提供了一个直观的界面来快速构建和部署生产级别的生成式AI应用。该平台具备强大的工作流构建工具,支持广泛的模型集成,提供了一个功能丰富的提示词IDE,以及一个全面的RAG Pipeline,用于文档处理和检索。此外,Dify还允许用户定义Agent智能体,并通过LLMOps功能对应用程序的性能进行持续监控和优化。Dify提供云服务和本地部署选项,满足不同用户的需求,并且通过其开源特性,确保了对数据的完全控制和快速的产品迭代。Dify的设计理念注重简单性、克制和快速迭代,旨在帮助用户将AI应用的创意快速转化为现实,无论是创业团队构建MVP、企业集成LLM以增强现有应用的能力,还是技术爱好者探索LLM的潜力,Dify都提供了相应的支持和工具。Dify官方手册:https://docs.dify.ai/v/zh-hans一般地,如果是个人研究,推荐大家单独使用Dify,如果是企业级落地项目推荐大家使用多种框架结合,效果更好。