欢迎访问深圳唯创知音电子有限公司官网!| 全国统一服务热线:4008-122-919

ASR自动语音识别技术简介Automatic Speech Recognition

发布时间:2025-07-04 15:22 浏览次数:

  ASR(Automatic Speech Recognition)翻译成中文就是自动语音识别,这是一个把语音转化成机器识别文本的技术,主要功能就是充当人和机器之间的翻译,让机器能“听懂”人类说话。

WT2606外观图.jpg

  一、ASR自动语音识别技术简介


  1. 语音信号预处理


  对输入的语音信号进行滤波、降噪、分帧等方式进行处理,把连续的语音波形转换为离散的音频特征序列,比如说梅尔频率倒谱系数MFCC\线性预测倒谱系数 LPCC 等。


  2.声学模型


  通过学习语音特征与音素之间的映射关系,通过统计模型识别语音中的因素序列,统计模型有隐马尔可夫模型HMM,深度学习模型CNN/RNN/TransFormer等。


  3.语言模型


  基于语言学知识和大量文本数据,预测音素序列可能对应的词汇和句子结构,解决语音识别中的歧义问题(如 “shí wù” 可能是 “食物” 或 “实物”)。


  4.解码


  结合声学模型和语言模型,通过搜索算法(如维特比算法)找出最可能的文本序列,完成语音到文本的转换。


  二、ASR的发展历史


  早期阶段(1950s-1980s):模板匹配和规则方法:在计算能力有限的早期,研究者尝试用模板匹配的方法进行语音识别。当时的系统通常针对每个词预先录制一份语音模板,识别时通过动态时间规整(DTW)算法将输入语音与各模板进行对齐比对,选择最相似的模板。但这种方法严重依赖预存的模板库,难以扩展到大词汇量,通用性很差。早期系统往往只能识别不到百余词的限定词汇,并且需要训练说话人定制的模板。


  统计模型阶段(1990s-2010s):HMM-GMM 时代:随着计算机性能提升和概率模型理论的发展,基于统计学习的方法在 20 世纪 90 年代兴起。隐马尔可夫模型(HMM)为语音的序列建模提供了有力工具,高斯混合模型(GMM)则用于刻画每个 HMM 状态的观测概率分布。这一时期的 ASR 性能有了显著提升,多语种大词汇连续语音识别系统成为可能,代表系统有卡内基梅隆大学的 Sphinx、IBM 的 ViaVoice 等。然而,统计模型也存在瓶颈,GMM 为线性模型难以进一步提高精度,HMM 在遇到说话人变化、口音差异和噪声干扰时性能下降明显。


  深度学习阶段(2010s 至今):端到端范式崛起:2006 年前后,深度信念网络(DBN)的提出标志着深度学习浪潮的开始。2012 年,Hinton 等人成功将深度神经网络应用于语音识别声学模型,大幅度超过了原有 GMM-HMM 系统的性能。随后 DNN、CNN、RNN、LSTM 等模型纷纷被引入 ASR 领域,识别准确率屡创新高。2016 年左右,微软和 IBM 报告在英语电话语音转写上达到与人为校对者相当的错误率水平。2014-2016 年间,Graves 等提出 CTC 和序列到序列模型,百度发布基于 LSTM-CTC 的 DeepSpeech,实现了直接以语音输出文字的端到端训练。2020 年,Transformer 等新型架构全面渗透 ASR 领域,OpenAI 的 Whisper 模型展示了大规模多语言多任务端到端 ASR 的强大性能。


  三、应用场景


  目前ASR技术应用已经非常非常广泛,市面上很多端到端的语音识别芯片都是采用ASR语音识别技术,像智能家居,还有车上的AI对话等等都是ASR的应用厂家。


  四、搭载ASR技术的语音芯片有哪些


  唯创知音旗下搭载了ASR语音识别技术的有WT6900系列,还有WT2606系列,以及WT3000系列的模组,如果有需求的可以联系官网客服。


语音芯片_语音芯片厂家_录音IC_语音识别方案-唯创知音

Copyright (©) 2020 深圳唯创知音电子有限公司 版权所有 地址:深圳市宝安区福永街道大洋路90号中粮福安机器人智造产业园6栋2/3层 备案号:粤ICP备15026214号