以下是关于基于 TTS + LLM 流式数字人的问答系统的相关信息:
数字人简介: 算法驱动的数字人强调自驱动,人为干预更少,技术实现更复杂。其最简单的大致流程包含三个核心算法:
这类数字人强调自驱动,人为干预更少,技术实现上更加复杂,一个最简单的算法驱动的数字人大致流程如下:其中三个核心算法分别是:1.ASR(Automatic Speech Recognition,语音识别):我们希望和数字人的交互跟人一样以对话为主,所以算法驱动的第一步就是语音识别,它能将用户的音频数据转化为文字,便于数字人理解和生成回应。2.AI Agent(人工智能体):充当数字人的大脑,可以直接接入大语言模型,强调Agent的概念是为了让数字人拥有记忆模块等更加真实。3.TTS(Text to Speech,文字转语音):数字人依靠LLM生成的输出是文字,为了保持语音交互一致性,需要将文字转换为语音,由数字人。