Chat with Wiki - AI数字员工

Answer

AI 数字员工是为企业和个人提供数字劳动力，解决重复性、创意性工作难题的一种应用。以下是关于 AI 数字员工的一些详细信息：

摊位活动主题和内容：为企业和个人提供数字劳动力，解决重复性、创意性工作难题。体验 demo 包括抖音运营、AI 客服、智能问诊、企业定制员工、定制知识库等。
学习路径：结合“一人公司”的愿景，需要大量的智能体（数字员工）替我们打工。未来的 AI 数字员工会以大语言模型为大脑，串联所有已有的工具和新造的 AI 工具。创造者的学习方向是用大模型和 Agent 模式把工具串起来，着重关注在创造能落地 AI 的 agent 应用。Agent 工程（基础版）如同传统的软件工程学，有一个迭代的范式，包括梳理流程、“任务”工具化、建立规划、迭代优化。
数字人相关技术：
- 算法驱动的数字人：开源代码仓库包括 ASR 语音识别（如 openai 的 whisper、wenet、speech_recognition）、AI Agent（大模型如 ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等，Agent 部分可使用 LangChain 的模块自定义）、TTS（如微软的 edge-tts、VITS、so-vits-svc）。
- 人物建模模型：可以通过手动建模（音频驱动）或者 AIGC 的方式生成人物的动态效果。但简单的构建方式还存在一些问题，如如何生成指定人物的声音、TTS 生成的音频如何精确驱动数字人口型以及做出相应的动作、数字人如何使用知识库做出某个领域的专业性回答。

Content generated by AI large model, please carefully verify (powered by aily)

References

|你的摊位活动主题和内容|摊位区域|摊位编号|摊位类型||-|-|-|-||主题：AI数字员工 内容：为企业和个人提供数字劳动力，解决重复性、创意性工作难题。 体验demo：抖音运营、AI客服、智能问诊、企业定制员工、定制知识库。 另：我是黄诗程，也是大会志愿者，希望可以把杭州商场举办AI切磋大会的模式理念在深圳广州复制推广。|C|53|产品展示||AIGC数字艺术挂画|D|8|图画||数字生命赋予每个人的新生|C|80|照片||友链-王府井|C|81|现场分享||AI智能体应用|C|47|产品展示||当算命占卜这种古老智慧搭上AI快车，会擦出怎样的火花？本摊位结合AI技术进行易经六爻分层算卦解卦，多层次解读会有意想不到的效果呦|A|83|玄学||Ai心理疏导 |A|20|产品展示+心理疏导||AIGC(图生图)趣味定制；AI数字人定制|A|21|图画||低成本线下外语会议实时翻译+纪要|D|9|产品展示||照片风格转绘、宠物风格转绘、换脸、写真、图可以DIY制作拼图/照片+相框、转印到帆布袋/纯色长袖上，冰箱贴上等等|A|90|照片/冰箱贴|

0. 学习路径: 成为基于Agent的创造者

结合我们“一人公司”的愿景,我们需要大量的智能体(数字员工)替我们打工.而未来的AI数字员工,会以大语言模型为大脑,串联所有已有的工具和新造的AI工具.@罗文:数字员工(agent)=学历(大模型)+察言观色(观察)+逻辑思维(推理)+执行(SOP)创造者的学习也依照这个方向,用大模型和Agent模式把工具串起来,着重关注在创造能落地AI的agent应用.大模型的开发研究和演进,就交给学术界和大厂吧.😄[heading2]Agent工程(基础版)[content]如同传统的软件工程学,Agent工程也有一个迭代的范式:1.梳理流程:梳理工作流程SOP,并拆解成多个单一「任务」和多个「任务执行流程」.2.「任务」工具化:自动化每一个「任务」,形成一系列的小工具,让机器能完成每一个单一任务.3.建立规划:串联工具,基于agent框架让bot来规划「任务执行流程」.4.迭代优化:不停迭代优化「任务」工具和「任务执行流程」规划,造就能应对实际场景的Agent.[heading2]数字员工“进化论”[content]itao:《从copilot到Agent,从实习到转正,从副驾到主驾》--到底是固化流程,还是让AI自主思考,需要在对AI能力基础上作出妥协和平衡.

AI 数字人-定义数字世界中的你

上述算法开源的代码有很多，这里列出一些仓库供大家参考：ASR语音识别openai的whisper:https://github.com/openai/whisperwenet:https://github.com/wenet-e2e/wenetspeech_recognition(这是一个语音识别的接口集合，里面有不同实现的语音识别的接口):https://github.com/Uberi/speech_recognitionAI Agent大模型部分就比较多了，包括ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等等。Agent部分可以使用LangChain的模块去做自定义，里面基本包含了Agent实现的几个组件(https://www.langchain.com/)TTS微软的edge-tts：https://github.com/rany2/edge-tts，只能使用里面预设的人物声音，目前接口免费。VITS：https://github.com/jaywalnut310/vits，还有很多的分支版本，可以去搜索一下，vits系列可以自己训练出想要的人声。so-vits-svc:https://github.com/svc-develop-team/so-vits-svc，专注到唱歌上面，前段时间很火的AI孙燕姿。除了算法，人物建模模型可以通过手动建模(音频驱动)或者AIGC的方式生成人物的动态效果(例如wav2lip模型)实现，这样就完成了一个最简单的数字人。当然这种简单的构建方式还存在很多的问题，例如：如何生成指定人物的声音？TTS生成的音频如何精确驱动数字人口型以及做出相应的动作？数字人如何使用知识库，做出某个领域的专业性回答？