Dify 编排框架是一种在 AI 领域中应用的可视化编排框架,例如在 workflow 可视化编排页面中使用(框架:React Flow)。它具有以下特点和优势:
在使用 Dify 接口时,需要注意必须在应用编排功能中打开文字转语音和语音转文字功能,否则接口会返回未使能的错误。只有接入了支持 TTS 和 SPEECH2TEXT 的模型供应商,才会在功能板块中展示出来,Dify 的模型供应商图标下标签有展示该供应商支持哪些功能,可自行选择方便使用的。对于 TTS,不同的模型供应商支持的语音人物不同,可以根据个人喜好添加。
上图分别是Coze和Dify的workflow可视化编排页面(框架:React Flow),不得不说Coze的确不是最早做编排的,但是集各家之所长,在用户体验上做的的确得人心。再回过头对比一下上节中AutoGPT的实现,我们可能就发现了这个差异:AutoGPT的任务是大模型编排出来的,我们可以理解为自动编排;而Workflow里面的子任务,是我们人为编排的,我们就称为手动编排吧。由此带来的优化也非常明显:1.在流程中加入人类Knowhow,补足模型知识的不足;2.专家测试试跑,减少生产环境中的反复无效反思,至少不会让用户觉得你的Agent真蠢;3.引入图的概念,灵活组织节点,连接各类工具(让你的Agent看起来很牛逼)其实加入了图的概念之后,workflow的天花板也就变得非常高了。因为你可以在这个流程中去任意增加节点,增加各种类型的节点,不仅能套工具,还能套其它agent,你也可以写代码用硬逻辑去处理,你也可以接大模型,让它代替人类进进行判断。能力的上限,很大概率就是你想象力的上限。灵活和可控,把Agent能力的天花板往上顶了一大截。这就是workflow的功劳。我之前评价一个Agent平台好不好用:1看基座模型的function calling能力,2看workflow的灵活性,3看平台创作者的workflow写的牛逼不牛逼哈哈1、2看的是技术能力,其实也没啥门槛
上图分别是Coze和Dify的workflow可视化编排页面(框架:React Flow),不得不说Coze的确不是最早做编排的,但是集各家之所长,在用户体验上做的的确得人心。再回过头对比一下上节中AutoGPT的实现,我们可能就发现了这个差异:AutoGPT的任务是大模型编排出来的,我们可以理解为自动编排;而Workflow里面的子任务,是我们人为编排的,我们就称为手动编排吧。由此带来的优化也非常明显:1.在流程中加入人类Knowhow,补足模型知识的不足;2.专家测试试跑,减少生产环境中的反复无效反思,至少不会让用户觉得你的Agent真蠢;3.引入图的概念,灵活组织节点,连接各类工具(让你的Agent看起来很牛逼)其实加入了图的概念之后,workflow的天花板也就变得非常高了。因为你可以在这个流程中去任意增加节点,增加各种类型的节点,不仅能套工具,还能套其它agent,你也可以写代码用硬逻辑去处理,你也可以接大模型,让它代替人类进进行判断。能力的上限,很大概率就是你想象力的上限。灵活和可控,把Agent能力的天花板往上顶了一大截。这就是workflow的功劳。我之前评价一个Agent平台好不好用:1看基座模型的function calling能力,2看workflow的灵活性,3看平台创作者的workflow写的牛逼不牛逼哈哈1、2看的是技术能力,其实也没啥门槛
上述种种,如果都要自建代码实现各模块,开发工作量巨大,迭代难度也很高,对于个人开发者来讲不现实。因此我们推荐借助开源社区的力量,现在开源社区已经有了像dify、fastgpt等等成熟的高质量AI编排框架,它们有大量的开源工作者维护,集成各种主流的模型供应商、工具以及算法实现等等。我们可以通过这些框架快速编排出自己的AI Agent,赋予数字人灵魂。在笔者的开源项目中,使用了dify的框架,利用其编排和可视化交互任意修改流程,构造不同的AI Agent,并且实现相对复杂的功能,比如知识库的搭建、工具的使用等都无需任何的编码和重新部署工作。同时Dify的API暴露了audio-to-text和text-to-audio两个接口,基于这个两个接口就可以将数字人的语音识别和语音生成都交由Dify控制,从而低门槛做出来自己高度定制化的数字人(如下图),具体的部署过程参考B站视频:https://www.bilibili.com/video/BV1kZWvesE25。如果有更加高度定制的模型,也可以在Dify中接入XInference等模型管理平台,然后部署自己的模型。此外,数字人GUI工程中仍然保留了LLM、ASR、TTS、Agent等多个模块,能够保持更好的扩展,比如实现更加真实性感的语音转换、或者如果有更加Geek的Agent实现也可以选择直接后端编码扩展实现。上述Dify接口使用注意事项:1.使必须在应用编排功能中打开文字转语音和语音转文字功能,否则接口会返回未使能的错误。2.只有接入了支持TTS和SPEECH2TEXT的模型供应商,才会在功能板块中展示出来,Dify的模型供应商图标下标签有展示该供应商支持哪些功能,这里可以自行选择自己方便使用的。对于TTS,不同的模型供应商支持的语音人物不同,可以根据个人喜好添加。