语音识别(Automatic Speech Recognition)是 AI 领域的一项重要技术,旨在让机器能够理解人类的语音。
技术原理包括:
在算法驱动的数字人中,语音识别也是核心算法之一。它能将用户的音频数据转化为文字,便于数字人理解和生成回应,从而实现和人类以对话为主的交互。
参考资料:
|术语ID|原文|译文|领域|易混淆|缩写|不需要提醒||-|-|-|-|-|-|-||ROW()-1|Spectral Clustering|谱聚类|AI|1||||ROW()-1|Spectral Radius|谱半径|AI|1||||ROW()-1|Speech Recognition|语音识别|AI|1||||ROW()-1|Sphering|Sphering|AI|1||||ROW()-1|Spike And Slab|尖峰和平板|AI|||||ROW()-1|Spike And Slab RBM|尖峰和平板RBM|AI|||||ROW()-1|Spiking Neural Nets|脉冲神经网络|AI|1||||ROW()-1|Splitting Point|切分点|AI|1||||ROW()-1|Splitting Variable|切分变量|AI|1||||ROW()-1|Spurious Modes|虚假模态(Spurious Modes)|AI|1||||ROW()-1|Square|方阵|AI|1||||ROW()-1|Square Loss|平方损失|AI|1|||
这类数字人强调自驱动,人为干预更少,技术实现上更加复杂,一个最简单的算法驱动的数字人大致流程如下:其中三个核心算法分别是:1.ASR(Automatic Speech Recognition,语音识别):我们希望和数字人的交互跟人一样以对话为主,所以算法驱动的第一步就是语音识别,它能将用户的音频数据转化为文字,便于数字人理解和生成回应。2.AI Agent(人工智能体):充当数字人的大脑,可以直接接入大语言模型,强调Agent的概念是为了让数字人拥有记忆模块等更加真实。3.TTS(Text to Speech,文字转语音):数字人依靠LLM生成的输出是文字,为了保持语音交互一致性,需要将文字转换为语音,由数字人。
机器要实现与人对话,就需要实现“听懂-理解-回答”三步,对应的便是“耳”、“脑”、“口”的职责。机器要听懂人类说话,就离不开语音识别技术(Automatic Speech Recognition)。[heading3]技术原理[content]1.输入:语音识别输入的是声音,声音是一种波,是计算机无法直接处理的模拟信号。2.编码:将模拟信号转变成数字信号,并提取其中的特征进行处理。2.1.声音分帧,通过移动窗函数把声音切开成一小段一小段,每一小段为一帧。帧与帧之间一般是有交叠的。2.2.特征向量,通过使用某种规则(如依照人耳听声特点提出的MFCC规则),将每一帧波形变成一个多维向量。3.解码3.1.把帧识别成状态。3.2.把状态组合成音素。3.3.把音素组合成单词。4.输出[heading3]参考资料[content][CUI三部曲之语音识别——机器如何听懂你的话?](https://mp.weixin.qq.com/s?__biz=MzI1NDY4NzUxNg%3D%3D&mid=2247483768&idx=1&sn=33777e5032567698f2b72930516704b5&scene=45#wechat_redirect)[语音识别的技术原理是什么?-张俊博的回答-知乎](https://www.zhihu.com/question/20398418/answer/18080841)