1. 扬声器
    +关注
    关注 0
    文章 172
    浏览量 20340
  2. 语音识别
    +关注
    关注 8
    文章 355
    浏览量 37425
  3. 家电遥控器
    +关注
    关注 0
    文章 2
    浏览量 4821

家电遥控器中的那些语音识别技术盘点

电子设计 2018-01-13 08:08 次阅读
介绍一种适合家电遥控器应用的语音识别算法,该算法使用双模块和两级端点检测方法,能有效地提高识别和稳健性;介绍利用该技术实现的一种新型学习型遥控器,展现了语音识别技术在家电领域的广阔前景。 关键词:语音识别 DTW FED FRED 学习型遥控器 家用电器发展的一个重要方面是让用户界面更加人性化,更加方便自然,做到老年人和残疾人可以无障碍地使用。利用语音识别技术实现语音控制是提高家电产品用户界面质量的一条重要途径。 本文以语音控制遥控器为例,说明语音识别技术如何应用在家电器领域。 适合家用电器应用的语音识别嵌入式系统结构如图1所示,它由四个部分组成。第一部分为模/数转换部分,其输入端接收输入的语音信号,并将其转化成数字芯片可处理的数字采集信号;在输出端将解码后的语音数字信号转换为音频模拟信号,通过扬声器放声。第二部分为语音识别部分,它的作用是对输入的数字语音词条信号进行分析,识别出词条信号所代表的命令,一般由DSP完成。第三部分语音提示和语音回放部分,它一般也是在DSP中完成的,其核心是对语音信号进行数字压缩编码和解码,目的是提示用户操作并对识别语音的响应,完成人机的语音交互。第四部分是系统控制部分,它将语音识别结果转换成相应的控制信号,并将其输出转换成物理层操作,完成具体功能。语音识别与系统控制的有机结合是完成声控交互的关键,下面将对语音识别算法及遥控系统控制部分作详细的讨论。 1 语音识别算法 目前,常以单片机(MCU)或DSP作炎硬件平台的实现消费类电子产品中的语音识别。这类语音识别主要为孤立词识别,它有两种实现方案:一种是基于隐含马尔科夫统计模型(HMM)框架的非特定人识别;另一种是基于动态规划(DP)原理的特定人识别。它们在应用上各有优缺点。HMM非特定人员的优点是用户无需经过训练,可以直接使用;并且具良好的稳定性(即对使用者而言,语音识别性能不会随着时间的延长而降低)。但非特定人语音识别也有其很难克服的缺陷。首先,使用该方法需要预先采集大量的语料库,以便训练出相应的识别模型,这就大大提高了应用此技术的前期成本;其次,非特定人语音识别很难解决汉语中不同方言的问题,限制了它的使用区域;另外还有一个因素也应予以考虑,家电中用于控制的具体命令词语最好不要完全固定,应当根据的用户的习惯而改变,这一点在非特定人识别中几乎不可能实现。因此大多数家电遥控器不适合采用此方案。 DP特定人识别的优点是方法简单,对硬件资源要求较低;此外,这一方法中的训练过程也很简单,不需预先采集过多的样本,不仅降低了前期成本,而且可以根据用户习惯,由用户任意定义控制项目的具体命令语句,因而适合大多数家电遥控器的应用。DP特定识别的严重缺点是它的稳健性不理想,对有些人的语音识别率高,有的人识别率却不高;刚训练完时识别率较高,但随着时间的推迟而识别率降低。些缺点往往给用户带来不便。为克服这些缺陷,对传统方法作为改进,使识别性能和稳健性都有显著的提高,取得令人满意的结果。 1.1 端点检测方法 影响孤立词识别性能的一个重要因素是端点检测准确性。在10个英语数字的识别测试中,60毫秒的端点误差就使识别率下降3%。 对于面向消费类应用的语音识别芯片系统,各种干扰因素更加复杂,使精确检测端点问题更加困难。为此,提出了称为FRED(Frame-based Readl_time Endpoint Detection)算法[3]的两级端点检测方案,提高端点检测的精度。第一级对输入语音信号,根据其能量和过零率的变化,进行一次简单的实时端点检测,以便去掉静音得到输入语音的时域范围,并且在此基础上进行频谱特征提取工作。第二级根据输入语音频谱的FFT分析结果,分别计算出高频、中频和低频段的能量分布特性,用来判别轻辅音、浊辅音和元音;在确定了元音、浊音段后,再向前后两端扩展搜索包含语音端点的帧。FRED端点检测算法根据语音的本质特征进行端点检测,可以更好地适应环境的干扰和变化,提高端点检测的精度。 在特定人识别中,比较了常用的FED(Fast Endpoint Detection)[5]和FRED两种端点检测算法的性能。两种算法测试使用相同的数据库,包括7个人的录音,每个人说100个人名,每个人名读3遍。测试中的DP模板训练和识别算法为传统的固定端点动态时间伸缩(DTW)模板匹配算法[4]。两种端点检测算法的识别率测试结果列在表1中。 表1 比较FED和FRED端点检测算法对DTW模板匹配识别率的影响 端点检测算法第1人第2人第3人第4人第5人第6人第7人平均 FED 92.5% 87% 92.6% 95.6% 96.2% 96.8% 100% 94.4% FRED 94.3% 89.9% 93.2% 99.4% 99.4% 98.8% 100% 96.4% 测试结果说明:使用FRED端点检测算法,所有说话人的识别率都有了不同程度的提高。因此,本系统采用这种两级端点检测方案。 1.2 模拟匹配算法 DTW是典型的DP特定人算法,为了克服自然语速的差异,用动态时间规整方法将模板特征序列和语音特征序列进行匹配,比较两者之间的失真,得出识别判决的依据。 假设存储的一个词条模板包括M帧倒谱特征R={r(m);m=1,2,∧,M};识别特征序列包括N帧倒谱特征T={t(n);n=1,2, ∧,N}。在r(i)和t(i)之间定义帧局部失真D(i,j),D(i,j)=|r(i)-t(i)| 2,通过动态规划过程,在搜索路径中找到累积失真最小的路径,即最优的匹配结果。采用对称形式DTW: 其中S(i,j)是累积失真,D(i,j)是局部失真。 当动态规划过程计算到固定结点(N,M)时,可以计算出该模板动态匹配的归一化距离,识别结果即该归一化距离最小的模板词条:x=argmin{S(N,Mx)}。 为了提高DTW识别算法的识别性能和模板的稳健性,提出了双模板策略,即x=argmin{S(N,M2x)}。第一次输入的训练词条存储为第一个模板,第二次输入的相同训练词条存储为第二个模板,希望每个词条通过两个较稳健的模板来保持较高的识别性能。与上面测试相同,也利用7个人说的100个人名,每个人名含3遍的数据库,比较DTW单模板和双模板的性能差别,结果更在表2中。 表2 DTW不同模板数的识别率比较 DTW 第1人第2人第3人第4人第5人第6人第7人平均 单模板 94.3% 89.9% 93.2% 99.4% 99.4% 98.8% 100% 96.4% 双模板 99.4% 96.6% 98.5% 100% 100% 98.8% 100% 99.0% 测试结果说明:通过存储两个模板,相当大地提高了DTW识别的性能,其稳健性也有很大的提高。因此,对特定人识别系统,采用DTW双模板是简单有效的策略。 综上所述,该嵌入式语音识别芯片系统采用了改进端点检测性能的FRED算法,12阶Mel频标倒谱参数(MFCC)作为特征参数,使用双模板训练识别策略。通过一系列测试,证明该系统对特定人的识别达到了很好的识别性能,完全可以满足家用电器中声控应用的要求。 2 语音控制遥控器设计 目前家用遥控器主要为按键式,并有两种类型:一种是固定码型,每个键对应一种或几种码型,都是生产厂家预先设定好的,用户不能更改;另一种是学习型,具有自我学习遥控码的功能,可由用户定义遥控器的每个键对应的码型,它能够将多种遥控器集于一身,用一个遥控器就可控制多个 家电,又可以作为原配遥控器的备份。由于现代家电功能不断增加,上述两种遥控器都有按键过多,用户不易记住每个键的含义等问题。将语音识别技术应用于学习型遥控器,利用语音命令代替按者对命令的记忆和使用,同时省去了大量按键,缩小了遥控器的体积。 语音控制遥控器的硬件框图如图2所示,它由两个独立的模块组成:语音信号处理模块和系统控制模块。 语音信号算是模块由DSP、快闪存储器(FLASH)、编解码器(CODEC)组成。其中DSP是整个语音识别模块的核心,负责语音识别、语音编解码,以及FLASH的读写控制。DSP的优点是运算速度快、内存空间大、数据交换速度快,可用来实现复杂的算法,提高识别率,减小反应延时,得到较高的识别性能。DSP芯片选用Analog Devices公司的AD2186L,它具有如下特点:①运算速度达40MIPS,且均为高效的单调周期指令;②提供了40K字节的片内RAM,其中8K字(16Bit/字)为数据RAM,8K字(24Bit/字)为程序RAM,最大可达4兆字节的存储区,用于存储数据或程序;③3.3V工作电压,具有多种省电模式。AD2186L既能完成与语音信号算是相关的算法,又适合使用电池作能源的遥控器。FLASH和CODEC也都选用3.3V工作电压的芯片。 FLASH为美国ATMEL公司的AT29LV040A(4M Bit),它作为系统的存储器,主要用于存放以下内容:提示语音合成所需的参数,特定人训练后的码本数据,DSP系统的应用程序和学习和遥控码数据。CODEC选用美国TI公司的TLV320AC37,用来进行A/D、D/A变换、编码和解码。 系统控制模块由单片机、红外接收发送器、电源管理电路组成。单片机负责整个遥控器的系统控制。单片机作为主控芯片,进行键盘扫描,根据用户通过键盘输入的指令,分别完成学习遥控码;控制DSP进行语音训练、回放、识别;将识别结果转换成相应的遥控码,通过红外发光管发射出去。单片机与DSP之间通过标准的RS232串行协议通讯。 系统的控制软件流程图如图3所示。在使用前,按“学习键”进入学习状态,用户先对学习型遥控器训练语音命令,并使其学习与各语音命令相对应的原理控码型。使用时按“识别键”,进入语音识别状态,等待语音处理模块返回结果,若返回正确的识别结果,则把相应的遥控码发射出去。例如,原电视遥控器数字键“1”对应中央1台,用户的训练命令为“中央1台”,学习了原遥控器的数字键“1”的遥控码,并使其与训练命令“中央1台”对应起来。于是使用时只需对着学习型遥控器的麦克风说出“中央1台”,电视就会切换到中央1台。 这样用户不需要记住每个电视台与台号的对应关系,相对于枯燥的频道数字,用户自定义的命令更容易记住。 若连续的30秒无正确的命令则遥控器进入休眠状态,单片机控制电源管理电路切换DSP和FLASH电源,单片机本身也进入休眠状态,直至用户按键,唤醒单片机,再由单片机控制恢复DSP和FLASH供电,重新开始工作。这是因为整个系统中,DSP的功耗最大,长时间不用时,关闭语音信号处理模块,可以显著地降低整个系统的功耗。 从实验室走向市场的过程中,可靠性与成本是遇到的最大挑战。采用双模板的DTW和两组端点检测FRED算法,可在系统资源和反应延时增加极小的情况下,有效地提高识别率和稳健性。该项技术成功地运用在学习型遥控器上,展现了语音识别技术在家电领域的广阔前景。

电子设计 技术专区

  1. 经典的运用PIC单片机实现LED点阵手写屏设计方案
  2. 详细解析ESP中传感器及接口技术的电路
  3. 实现智能家电控制系统设计方案的几大关键点
  4. 一款实用的基于iOS的智能家居安防系统移动端方案
  5. 一文读懂无线传感器网络标准化与协议
关注88lifa利发国际娱乐微信
有趣有料的资讯及技术干货
下载发烧友APP
打造属于您的人脉电子圈
关注发烧友课堂
锁定最新课程活动及技术直播
收藏 人收藏
分享:

评论

相关推荐

MEMS扬声器首次亮相CES 2018,并回访USound了解其最新发展现状

麦姆斯咨询:USound的MEMS扬声器的带宽优势能够带来更好的音频体验,另外还拥有更大的成本优势。
的头像 MEMS 发表于 01-16 18:21 次阅读 0条评论
MEMS扬声器首次亮相CES 2018,并回访USound了解其最新发展现状

人机交互的方式有哪些_未来的人机交互方式浅谈

本文主要介绍了人机交互的方式有哪些_未来的人机交互方式浅谈。人机交互技术是指通过计算机输入、输出设备....
发表于 01-12 16:50 次阅读 0条评论
人机交互的方式有哪些_未来的人机交互方式浅谈

Synaptics AudioSmart远场语音技术支持哈曼卡顿 Allure智能音箱

Synaptics AudioSmart远场语音技术将带来性能无与伦比的两麦克风和四麦克风支持亚马逊....
的头像 人间烟火123 发表于 01-10 14:47 次阅读 0条评论
Synaptics AudioSmart远场语音技术支持哈曼卡顿 Allure智能音箱

2017中国生物识别行业发展盘点回顾

(1)人脸及姿态、车牌车型、人车行为模式等数据的大规模网络采集; (2)深度学习训练CV算法; ....
的头像 汽车工程师 发表于 01-05 11:24 次阅读 0条评论
2017中国生物识别行业发展盘点回顾

怎样才算好音响?挑选音响应该注意什么?

音响作为传递音乐的媒介,它的质量或者性能十分重要,家庭音响分为两类,hifi和AV两种,选择2.1的....
发表于 01-04 15:36 次阅读 0条评论
怎样才算好音响?挑选音响应该注意什么?

智能硬件需要哪些技术?学智能硬件必须掌握什么技能?

智能硬件需要哪些技术?学智能硬件必须掌握什么技能?在铺天盖地的“互联网+”潜移默化影响下,越来越多的....
发表于 01-03 16:04 次阅读 0条评论
智能硬件需要哪些技术?学智能硬件必须掌握什么技能?

基于模糊神经网络的语音识别系统

语音识别技术是近年来高速发展的一项技术,由于其重要的理论价值与广阔的应用前景,受到人们的广泛重视。语....
发表于 12-31 12:13 次阅读 0条评论
基于模糊神经网络的语音识别系统

对于谷歌应用传统的自动语音识别(ASR)系统的解析

目前,谷歌的各种语音搜索应用还在使用传统的自动语音识别(ASR)系统,它包括一个包括声学模型(AM ....
的头像 论智 发表于 12-31 01:22 次阅读 0条评论
对于谷歌应用传统的自动语音识别(ASR)系统的解析

什么是智能音箱_ai音箱都有什么功能

本文主要介绍了智能音箱是什么?智能音箱究竟都有些什么功能呢?智能音箱的语音交互精准性,响应速度,复杂....
发表于 12-29 13:48 次阅读 0条评论
什么是智能音箱_ai音箱都有什么功能

几款智能音箱价格及性能对比_天猫精灵_京东叮咚

本文主要对几款智能音箱价格及性能进行了对比,智能语音音箱作为智能家庭中一个新的选择,新的接入口,各个....
发表于 12-29 11:56 次阅读 0条评论
几款智能音箱价格及性能对比_天猫精灵_京东叮咚

叮咚智能音箱哪款性价比高_叮咚智能音箱几款价格及性能对比

本文主要介绍了叮咚智能音箱哪款性价比高_叮咚智能音箱几款价格及性能对比,叮咚A3灵动版智能音箱;叮咚....
发表于 12-29 11:38 次阅读 0条评论
叮咚智能音箱哪款性价比高_叮咚智能音箱几款价格及性能对比

科大讯飞的叮咚智能音箱结构组成_DingDong智能音箱大拆解

本文介绍了科大讯飞的叮咚智能音箱结构组成_DingDong智能音箱大拆解。东芝THGBMBG5D1K....
发表于 12-29 10:44 次阅读 0条评论
科大讯飞的叮咚智能音箱结构组成_DingDong智能音箱大拆解

叮咚TOP智能音箱开箱评测_用语音完成交互,这是一台有生命的音响

本文对叮咚TOP智能音箱开箱进行了评测,外观评测:简洁、创意,光圈增添了生命力;交互&APP:语音识....
发表于 12-29 10:11 次阅读 0条评论
叮咚TOP智能音箱开箱评测_用语音完成交互,这是一台有生命的音响

叮咚智能音箱联网教程_叮咚智能音箱联不上网解决办法

本文主要介绍了叮咚智能音箱联网教程_叮咚智能音箱联不上网解决办法。DingDong是一款智能wifi....
发表于 12-29 09:42 次阅读 0条评论
叮咚智能音箱联网教程_叮咚智能音箱联不上网解决办法

长虹发布AI 3.0 引领电视行业跨入AI3.0时代

人工智能电视自诞生业界就存在这很大的争议,人工智能电视这词还只是一个很模糊的概念,范畴还无法确定。据....
发表于 12-26 16:02 次阅读 0条评论
长虹发布AI 3.0  引领电视行业跨入AI3.0时代

终端应用提速 进一步提升智能语音交互能力

为了提升未来的产业竞争力和话语权,国家将大力支持新一代口语化语音识别框架的创新技术,其中语音识别为代....
发表于 12-21 16:33 次阅读 0条评论
终端应用提速 进一步提升智能语音交互能力

基于LD3220的语音识别的模块进行DIY的小车

基于LD3220的语音识别小车。
的头像 面包板社区 发表于 12-19 17:03 次阅读 0条评论
基于LD3220的语音识别的模块进行DIY的小车

听筒和扬声器的区别

听筒是电话、对讲机、手机等通讯工具传送声音的一种配件,是扬声器的一种,但一般不叫扬声器。扬声器又称“....
发表于 12-19 09:09 次阅读 0条评论
听筒和扬声器的区别

全球轿车扬声器品牌排行榜_扬声器原理(基本特征及性能指标)

扬声器又称“喇叭”。是一种十分常用的电声换能器件,目前在我们生活中随处可见。本文只要介绍了扬声器的基....
发表于 12-19 08:36 次阅读 0条评论
全球轿车扬声器品牌排行榜_扬声器原理(基本特征及性能指标)

语音识别发展的下一个蓝海市场:语义识别

在AI技术发展的过程中自然语言处理技术已经成了最重要的一大体系,随着年代的定义越加细分化语言识别逐渐....
发表于 12-16 08:53 次阅读 0条评论
语音识别发展的下一个蓝海市场:语义识别

88lifa利发国际娱乐

百度360搜索搜狗搜索