AI 数字员工是为企业和个人提供数字劳动力,解决重复性、创意性工作难题的一种应用。以下是关于 AI 数字员工的一些详细信息:
|你的摊位活动主题和内容|摊位区域|摊位编号|摊位类型||-|-|-|-||主题:AI数字员工<br>内容:为企业和个人提供数字劳动力,解决重复性、创意性工作难题。<br>体验demo:抖音运营、AI客服、智能问诊、企业定制员工、定制知识库。<br><br>另:我是黄诗程,也是大会志愿者,希望可以把杭州商场举办AI切磋大会的模式理念在深圳广州复制推广。|C|53|产品展示||AIGC数字艺术挂画|D|8|图画||数字生命赋予每个人的新生|C|80|照片||友链-王府井|C|81|现场分享||AI智能体应用|C|47|产品展示||当算命占卜这种古老智慧搭上AI快车,会擦出怎样的火花?本摊位结合AI技术进行易经六爻分层算卦解卦,多层次解读会有意想不到的效果呦|A|83|玄学||Ai心理疏导<br>|A|20|产品展示+心理疏导||AIGC(图生图)趣味定制;AI数字人定制|A|21|图画||低成本线下外语会议实时翻译+纪要|D|9|产品展示||照片风格转绘、宠物风格转绘、换脸、写真、图可以DIY制作拼图/照片+相框、转印到帆布袋/纯色长袖上,冰箱贴上等等|A|90|照片/冰箱贴|
结合我们“一人公司”的愿景,我们需要大量的智能体(数字员工)替我们打工.而未来的AI数字员工,会以大语言模型为大脑,串联所有已有的工具和新造的AI工具.@罗文:数字员工(agent)=学历(大模型)+察言观色(观察)+逻辑思维(推理)+执行(SOP)创造者的学习也依照这个方向,用大模型和Agent模式把工具串起来,着重关注在创造能落地AI的agent应用.大模型的开发研究和演进,就交给学术界和大厂吧.😄[heading2]Agent工程(基础版)[content]如同传统的软件工程学,Agent工程也有一个迭代的范式:1.梳理流程:梳理工作流程SOP,并拆解成多个单一「任务」和多个「任务执行流程」.2.「任务」工具化:自动化每一个「任务」,形成一系列的小工具,让机器能完成每一个单一任务.3.建立规划:串联工具,基于agent框架让bot来规划「任务执行流程」.4.迭代优化:不停迭代优化「任务」工具和「任务执行流程」规划,造就能应对实际场景的Agent.[heading2]数字员工“进化论”[content]itao:《从copilot到Agent,从实习到转正,从副驾到主驾》--到底是固化流程,还是让AI自主思考,需要在对AI能力基础上作出妥协和平衡.
上述算法开源的代码有很多,这里列出一些仓库供大家参考:ASR语音识别openai的whisper:https://github.com/openai/whisperwenet:https://github.com/wenet-e2e/wenetspeech_recognition(这是一个语音识别的接口集合,里面有不同实现的语音识别的接口):https://github.com/Uberi/speech_recognitionAI Agent大模型部分就比较多了,包括ChatGPT、Claude、ChatGLM、文星一言、千帆大模型、通义千问等等。Agent部分可以使用LangChain的模块去做自定义,里面基本包含了Agent实现的几个组件(https://www.langchain.com/)TTS微软的edge-tts:https://github.com/rany2/edge-tts,只能使用里面预设的人物声音,目前接口免费。VITS:https://github.com/jaywalnut310/vits,还有很多的分支版本,可以去搜索一下,vits系列可以自己训练出想要的人声。so-vits-svc:https://github.com/svc-develop-team/so-vits-svc,专注到唱歌上面,前段时间很火的AI孙燕姿。除了算法,人物建模模型可以通过手动建模(音频驱动)或者AIGC的方式生成人物的动态效果(例如wav2lip模型)实现,这样就完成了一个最简单的数字人。当然这种简单的构建方式还存在很多的问题,例如:如何生成指定人物的声音?TTS生成的音频如何精确驱动数字人口型以及做出相应的动作?数字人如何使用知识库,做出某个领域的专业性回答?