语音识别技术：将人类的语音中的词汇转换为计算机可读输入

更新时间：2023-05-20 19:46

语音识别技术（Speech Recognition Technology），也称自动语音识别（Automatic Speech Recognition，ASR）是一种以语音为研究对象，通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言或者文字的技术，语音识别技术一般利用计算机程序，通过分析语音信号的频率、声调、语速、语调等特征，进一步进行声学建模、语言模型以及语音与自然语言之间的对齐、解码等技术处理，最终输出具有理解性的文本结果。

20世纪50年代，以贝尔实验室研制成功可以识别10个英文数字的实验系统为标志，语音技术研究工作正式进入起步阶段。

语音识别是一门涉及面很广的交叉学科，它与声学、语音学、语言学、信息理论、模式识别理论以及神经科学等学科都有非常密切的关系。正逐步成为信息技术中人机接口的关键技术，语音识别技术与语音合成技术结合使人们能够脱离键盘等输入工具，通过语音命令进行相应的操作。

语音识别目前是人工智能领域相对成熟的技术，已经广泛应用于智能助理、语音识别交互、智能家居、金融交易等领域。伴随着移动互联网的发展，基于Deep Peak2、Deep Fully等语言模型开发出来的的语音识别技术，也已经广泛地被应用于各类产品之上。

发展历史

20世纪50年代，贝尔（Bell）实验室实现了世界上第一台能识别10个英文数字的语音识别系统，即Audry System，标志着语音识别研究工作的开始。

到了20世纪60年代，随着计算机技术的发展，使用动态规划（DP，动态模拟 Programming）和线性预测分析技术(LP，Linear Prediction)分析语音信号的声学模型开始被创建，通过该模型，人们将语音信号转换成数字形式以便计算机进行处理。

1970年，来自前苏联的Velichko和Zagoruyko将模式识别的概念引入语音识别中。同年，Itakura提出了线性预测编码(LinearPredictiveCoding，LPC)技术，并将该技术应用于语音识别。1978年，日本人Sakoe和Chiba在前苏联科学家Vintsyuk的工作基础上，成功地使用动态规划算法将两段不同长度的语音在时间轴上进行了对齐，这就是我们现在经常提到的动态时间规整(DynamicTimeWarping，DTW)。该算法把时间规整和距离的计算有机地结合起来，解决了不同时长语音的匹配问题。

1970-1980年的这段时间，语音识别研究从特定人的小规模独立词语音识别转变为对说话人无关的连续语音识别。

IBM的工程师Jelinek和他的团队在80年代开发出了语音激活的打字机，一种名为Tangora的试验性语音识别系统采用 IBM PC AT识别语音，并打印在纸上。每个讲话人必须分别训练打字机，使其能够识别他或她的声音，并且在每两个字之间稍作停顿。到了20世纪80年代中期，Tangora识别的词汇量达到了 20000字，证明了统计方法的有效性。

1989年Rabiner提出了隐马尔科夫模型(Hidden Markov Model, HMM)，将语音识别研究从模版匹配方法转变为基于概率统计的统计建模系统化研究。

2000年以来，人机语音交互成为研究的焦点。研究重点包括即兴口语的识别和理解自然口语对话，以及多语种的语音同声翻译。

2011年美国苹果公司推出了智能语音系统Siri，可以通过语音的方式接收用户的需求，让用户跳过繁杂的操作步骤实现自己的要求，改变了人们与可计算设备的交流方式。

2012年，谷歌在语音识别领域首次使用了深度神经网络，取得了重大的突破。该技术可以大大提高语音识别的准确性和速度，使得语音识别可以广泛应用于物联网、智能家居、语音助手等领域。

2017年，百度集团提出了Deep Speech2和Deep Peak2等端到端模型，同年Google将机器翻译中使用的Seq-Seq方法应用于语音识别并提出了Self-Attention和Multi-head结构，取得了较好的识别效果，Google还于2018年的Interspeech会议上提出了 LAS (Listen Attend and Spell) 在线识别产品。。同年，中国的科大讯飞提出了深度全卷积神经网络模型 (Deep FullyConvolutional Neural Network, DFCNN)，以及阿里巴巴集团提出并开源了基于双向LSTM的深度前馈序列记忆网络 (Deep Feedforward Sequential Memory Network,DFSMN)，这些模型和技术都推动了语音识别技术的发展。

原理

语音识别的原理是将语音转换成用户能读懂的文字。其采用模式识别作为基本框架，分为数据预处理、特征提取、模型训练、测试应用四部分，其功能模块和原理如下图所示。

语音识别一般可分为两个模块，训练模块和识别模块。训练模块主要通过对声音的学习，将学习结果构成语音库并存储，在识别过程中将当前听到的声音在语音库中查找相应语义或词义。识别模块依据当前主流的语音识别算法，解析接收的声音信号特征参数（即特征提取），按照既定的判断条件和准则与语音库的数据进行比较，最终通过对比得出语音识别结果。

分类

关键字识别（Keyword Spotting）

关键词识别是从连续无限制的语音中识别给定的若干个词。而这些话语可以包括许多其它的词和其他各种非语音现象，如，咳嗽声、呼吸声、咋舌声、音乐声、关门声、背景噪声和传输噪声等。

关键词识别包括两个方面的基本内容：关键词检出和关键词确认。关键词检出是鉴别输入的声音是否包含预先建立的关键词，关键词确认是要判断输入的声音是否是假设的关键词。

目前随着语音分析处理理论的进一步发展，关键字识别的应用领域越来越广泛，如声控电话交换、语音拨号系统、订票系统，医疗服务、搜索引擎等等。

声学模型识别（Acoustic Model-Based Recognition）

声学模型是使用机器学习算法，对音频进行处理，训练出语音特征和语音识别模型，从而识别输入的语音。声学模型将语音数据映射为一组概率分布，用于表示语音特征在语音信号中的出现概率。这些概率分布在语音识别时被用来计算语音信号所对应的文本。对于给定的语音信号，声学模型可以计算其与某个文本之间的相似度或距离度量，从而确定最可能对应的文本，也就是被识别的语音文本。

语言模型识别（Language Model-Based Recognition）

语言模型主要是基于统计模型、深度学习等算法，用于解决语音识别中潜在的歧义问题，提高语音识别的准确性。该技术主要分为两步：训练和分类。

在训练阶段，输入大量脚本和标注好的语言类型，让系统学会不同语言的特点以及在每种语言中出现的单词组合。通过计算每种语言的词频、序列频率等指标来进行建模。语言模型使用的是基于n元语法的统计模型，其中n表示利用前n-1个词预测下一个词的模型。

在分类阶段，给定一段文本，通过模型对其进行推理，计算出指定文本属于每一种语言的可能性。最后，选取概率最大的语言种类作为答案。可以通过计算给定文本与每种语言模型的相似度得到判定结果，通常使用的是余弦相似度等方法。

端到端语音识别（End-to-End Speech Recognition）

这类语音识别技术不需要将语音信号转化为小的声学特征，而是将整个语音信号直接输入到深度学习模型中，从而实现语音识别，它使用单个模型将音频直接映射到字符或单词，更易于构建和训练。

端到端模型的所有参数都可以随着训练的进行而同步调整优化，避免由于使用不同的损失函数而给各模块带来训练上的差异。

混合式语音识别（Hybrid Speech Recognition）

混合式语音识别结合声学模型和语言模型进行学习，同时也使用了HMM和DNN等混合算法模型，混合式语音识别主要包括两个阶段：前端音频处理和后端语音识别。在前端音频处理中，主要是对输入的音频信号进行预处理，将原始音频信号通过滤波、去噪等处理方式，提升录音的质量。在后端语音识别中，主要是采用两种或以上的语音识别技术结合使用，提高识别准确率和鲁棒性。

应用

语音助手

苹果公司与语音识别厂商合作后，手机就实现了语音识别功能，也就成为了今天为我们熟知的Siri。到2015年9月，Siri已经可以摆脱从前的手动开启模式，支持语音命令“hi Siri”开启，在一定程度上实现了解放双手。Siri发展得越来越智能化，甚至一度出现了“全民调戏”Siri的局面。可以为用户提供语音控制的操作方式，方便用户使用设备或获取信息。

语音搜索

用户通过语音的方式来搜索所需信息。比如基于Android系统作为应用开发平台，利用谷歌语音识别技术，实现了语音搜索以及语音打开手机软件的功能。

开发人员还实现了常用网站链接以及手机软件的列表展示，使用户能够更加方便地上网和娱乐。通过真机测试，语音搜索与语音打开手机软件的功能均已实现，性能稳定可靠，实用性强。

语音翻译

通过语音来输入需要翻译的文本，然后翻译软件通过语音识别技术识别用户的语音，将语音翻译成目标语言的文字。比如Google在2018年时，将机器中使用的Seq-Seq方法应用于语音识别并提出了Self-Attention和Multi-head的模型，取得了较好的识别和翻译效果。

语音识别密码

在银行、电子商务、社交媒体等领域中，用户可以通过语音进行认证或支付等操作。

比如采用基于统计模型的隐马尔可夫模型(hidden Markov model，HMM)来描述语音模型，进行语音模型库训练，并使用模板匹配的Viterbi算法进行语音识别，实现的语音密码锁系统的而设计出来的密码锁，可以将语音密码和键盘密码技术相结合以保证系统安全性，通过测试，系统对特定人语音识别率可以达到98％。

语音控制

在智能家居领域，让用户通过语音控制家电设备，打开电视、调节空调温度等操作。

阿里巴巴集团公司推出的天猫精灵智能音响，就可以通过“天猫精灵”的呼唤语唤醒后，说出相应的控制语句进行家电的动作控制。

医疗领域

通过智能语音识别技术与医疗场景的结合应用，辅助临床工作，提高工作效率，在医生和患者之间进行交流、实现语音识别病历输入和医嘱等操作。

例如，基于“语音云”开发出医疗语音输入助理，使医生在使用键盘书写病历时可一键开启语音输入，提高病历录入效率，针对识别过程中出现的多字、漏字、识别错误等问题建立各个科室的语料数据库，优化医疗语言模型并增加方言识别功能，解决医生录人慢、电子病历应用推广难的问题。

教育领域

语音识别技术在口语测评、学习记录、智能演讲台、多媒体信息检索等也有较多应用，语音技术的发展将进一步助力外语及语言教学，提高教学效率、改善教学效果，促进人工智能技术的整体发展。

利用语音识别开发出来的基于教育机器人的语音控制自动化编程系统，与传统化的图形化编程和文本编程相比，语音控制编程更加智能化、易操作、易学习，达到了寓教于乐的编程学习目的。

语音识别的缺陷

虽然语音识别技术在机器学习的推动下取得了一定的进步，但仍有欠缺。当前，绝大多数的语音识别软件的声学模型都是根据标准的发音建立的。但事实上，很多人都无法做到口音都与标准语音完全相同，导致有时软件识别出来的结果都可能与说话者想要的结果存在偏差。特别是对于方言，若是语音库中没有对特定的方言进行训练，没有建立方言的声学模型，那么软件对这种方言的识别效果可能降低。

此外，业内普遍认同的97％的语音识别精度只能在安静的室内环境中才可以实现。但是在实际情况中，诸如麦克风质量低和存在背景噪声等因素都会降低语音识别的准确性。

语音识别过程中，语言模型对于识别准确率的影响非常大，而现有的语言模型仍存在语法不完整、词汇数量少等问题，而且现实中的语音交互需要满足实时性要求，而语音识别系统需要花费较长时间来处理语音信号，如何提高系统的实时性能也是识别技术需要解决的问题。

今后展望

基于深度神经网络的语音识别系统进行网络模型压缩和加速，将是未来语音识别的研究方向之一。

在面对小样本数据或复杂问题时，迁移学习是一种有效的方式。在语音识别领域中，采用迁移学习的方式对小语种、方言口音或含噪语音进行识别也是未来的研究方向之一。

对于一些复杂的语音场景(高噪声、混响、多源干扰等)，可以利用语音信号和其他信号(如图像信号、振动信号等) 进行融合，以提高语音识别性能。

当前大多数语音识别算法只关注识别文字内容的正确性，然而，许多智能语音交互的应用(如QA 问答、多轮对话等) 还涉及到语义的理解，因此，将语音识别技术结合其他技术如自然语言处理(natural language processing, 失明) 相结合以提升识别性能也是未来学方向之一。

将语音识别和视觉识别结合在一起，即引入“基于模态注意力的端到端”方法，将语音和唇部动作信息有机地融合在一起，从而有效地改善语音识别的效果，人类今后会在在多模态识别领域取得了新的进展。

免责声明

隐私政策

用户协议

目录 22

0{{catalogNumber[index]}}. {{item.title}}