基于 Python 的智能语音识别系统设计
引言
语言是人类最原始直接的一种交流方式,通俗易懂、便于理解。随着科技的发展,语言交流不再只存在于人与人之间,如何让机器“听懂”人类的语言并做出反应成为人工智能的重要课题,语音智能交互技术应运而生。作为其中重要一环的语音识别技术近年来不断发展,走出了实验室,随着人工智能进入人们的日常生活中。当今市场上语音识别技术相关的软件、商品涉及人类生活的方方面面,语音识别的实用性已经得到充分的印证。如今语音识别技术已经成为人类社会智能化的关键一步,能够极大提高人们生活的便捷度。
近年随着互联网的快速兴起和飞速发展,人们的生活也日新月异,高科技的进步伴随着种种问题同时也给人们和社会带来了切实的便捷与利处。各种各样随着计算机发展而贴近人们生活的好用软件出现,随着技术的发展进步,多种多样让人眼花缭乱的功能一一呈现在大众眼前。在这样一个时代,语音识别系统也在各种各样的领域中与人们相伴为人们服务,小到手机中的语音翻译功能,大到智能家居领域中的语音命令功能。在人工智能领域中,语音识别技术已经成为其中不可或缺的一部分,而且渐渐成为AI智能产品中非常重要的环节。
随着科学技术的进步,智能语音识别技术也在不断发展着。从20世纪50年代Audrey被开发出来,到70年代,隐马尔科夫模型(HMM)在语音识别技术中得到应用,但此后的语音识别技术发展并没有脱离HMM框架。而在2011年,国内的科大讯飞第一次将深度神经网络(DNN)技术运用到语音云平台中,与传统的HMM产生了碰撞。
通过在网络上查阅相关资料,阅读相关文献,进一步学习到了相关知识,对设计智能语音识别系统打好了牢固的地基,提供了科学系统的知识,从盲目毫无章法的进行到有规划有目标的进行。对HMM,DNN等技术参考相关的设计思路和实现方法进行了细致的研究。
关键词 智能语音识别;HMM;DNN
正文
早在计算机发明之前,自动语音识别的设想就已经被提上了议事日程,早期的声码器可被视作语音识别及合成的雏形。而1920年代生产的“Radio Rex”玩具狗可能是最早的语音识别器,当这只狗的名字被呼唤的时候,它就能够从底座上弹出来。最早的基于电子计算机的语音识别系统是由AT&T贝尔实验室开发的Audrey语音识别系统,它能够识别10个英文数字。其识别方法是跟踪语音中的共振峰。该系统得到了98%的正确率。到1950年代末,伦敦学院(Colledge of London)的Denes已经将语法概率加入语音识别中。
1960年代,人工神经网络被引入了语音识别。这一时代的两大突破是线性预测编码技术(LPC)及动态时间规整技术(DTW)。而语音识别技术的最重大突破是70 年代隐含马尔科夫模型(HMM)的应用。从Baum提出相关数学推理,经过Labiner等人的研究,卡内基梅隆大学的李开复最终实现了第一个基于隐马尔科夫模型的大词汇量语音识别系统Sphinx。此后HMM技术的应用一直占据语音识别系统的主流地位。
目前智能语音识别系统面临着环境中的噪声干扰问题、方言识别问题以及容错率问题的挑战。而DNN等新技术的应用是否能相对于传统的HMM框架的语音识别系统更加优秀则需要更多的探索与研究。
通过检索关键词“智能语音识别”查阅相关资料和老师沟通后,从由房爱东作为第一作者发表的《基于人工智能的语音识别系统及应用研究》中学习到了智能语音识别系统的设计思路与流程。从由孙可作为第一作者发表的《基于Python的深度学习语音识别》中学习到了语音识别系统的DNN技术。在对人工神经网络(ANN)的研究中,深度学习的概念被提出,计算机是否也能模拟人脑中的神经元进行学习,人工神经网络就成为模拟动物神经网络特征的数学模型,2006年深度学习教父Hinton等人提出深度置信网络(DBN)。在DNN运用于图片识别后并取得成功后,逐渐被研究人员运用于语音识别等领域。从杨毯毯发表的《基于HMM与改进的神经网络语音识别》中学习到了语音识别系统中的HMM技术,该技术是一个双重随机的数理统计处理过程,基本上无法观察其所处的具体状态,但是矢量序列却表征着其相关特征。每一观察矢量都借助于其相应的概率密度函数的分布状况来反映其各个状态,此外,每个观察矢量又是由相应概率密度分布的状态序列产生。与此同时,语音信号的特性恰巧与之相吻合,因此可以运用HMM来刻画语音信号的特征。
总结
根据上述文献的相关学习,了解到对智能语音识别系统性能和结构的研究一直是热点,该技术也不断成为人们生活的一部分。目前智能语音识别系统依然面临着环境中的噪声干扰问题、方言识别问题以及容错率问题的挑战。在智能语音识别系统的设计上,可以利用DNN技术对传统的HMM框架进行改进或建立更好的全新框架,能有效提高语音识别系统的效率和性能,以及改善其方言识别能力以及容错率的处理能力。语音识别系统的发展已经从GMM-HMM到DNN-HMM,再到其现在以CTC,RNN-T等技术为代表的端到端技术。语音识别中的特征提取是其中的重要步骤,通过与MFCC、FBank、LPC等特征提取技术结合以提升语音识别系统的性能,进一步解决语音识别系统中存在的问题。
参考文献
[1]范宝荣,薛金珍,张天航.语音识别技术综述[J].数码世界,2019(02):49.
[2]郝欧亚,吴璇,刘荣凯.智能语音识别技术的发展现状与应用前景[J].电声技术,2020,44(03):24-26.DOI:10.16311/j.audioe.2020.03.007.
[3]房爱东,张志伟,崔琳,谢士春.基于人工智能的语音识别系统及应用研究[J].宿州学院学报,2019,34(08):62-65.
[4]孙可,刘忠武,吴雨洽,郭东旭.基于Python的深度学习语音识别[J].沈阳师范大学学报(自然科学版),2019,37(03):274-277.
[5]李姝仪,李云洁,蒋昊轩,郭宗昱,吴可欣,刘博.语音识别实现方法[J].科技风,2021,No.475(35):69-71.DOI:10.19392/j.cnki.1671-7341.202135021.
[6]杨毯毯. 基于HMM与改进的神经网络语音识别[D].山东科技大学,2019.DOI:10.27275/d.cnki.gsdku.2019.001094.
[7]林坤辉,息晓静,周昌乐.基于HMM与神经网络的声学模型研究[J].厦门大学学报(自然科学版),2006(01):44-46.
[8]贾嘉敏,程振,潘文林,王欣.基于DNN-HMM的佤语语音声学建模[J].计算机时代,2022,No.362(08):61-64+68.DOI:10.16644/j.cnki.cn33-1094/tp.2022.08.014.
[9]林坤辉,息晓静,周昌乐.基于HMM与神经网络的声学模型研究[J].厦门大学学报(自然科学版),2006(01):44-46.
[10]王奇. 基于深度学习的中文语音识别系统的研究[D].沈阳工业大学,2022.DOI:10.27322/d.cnki.gsgyu.2022.000669.
[11]顾亚文.人工智能深度学习背景下语音识别方法研究[J].软件,2022,43(05):122-124.
[12]房敏.基于HMM的语音识别技术[J].计算机产品与流通,2018(03):91.
[13]Aldarmaki Hanan,Ullah Asad,Ram Sreepratha,Zaki Nazar. Unsupervised Automatic Speech Recognition: A review[J]. Speech Communication,2022(prepublish).
[14]Trabelsi Asma,Warichet Sébastien,Aajaoun Yassine,Soussilane Séverine. Evaluation of the efficiency of state-of-the-art Speech Recognition engines[J]. Procedia Computer Science,2022,207.
[15]Gupta Shrurti,Shabeeb Kashif,Singh Sonika,Sharma Sandeep. Adaptive HMM based Speech Recognition to Recognize Multi-lingual Sentence[J]. International Journal of Computer Applications,2015,115(7).
推荐阅读
-
基于 STM32+4G 模块设计的智能灌溉系统
-
基于SSM的面向过程考核的高校课程实验系统-00941(免费领取源码+数据库) 可做计算机毕业设计 JAVA、PHP、爬虫、APP、小程序、C#、C++、python、数据可视化、大数据、全套文案等
-
基于 Python 的智能语音识别系统设计
-
人工智能讲师叶子,大模型训练师:基于大型语言模型的自主智能:架构设计与应用前景
-
基于 STM32 设计的智能家居系统(使用 ESP8266+OneNet 云平台)
-
机器人/车] 基于中明 E2RCU 设计的智能轮式巡线避障机器人(文末完整工程信息源代码 PPT 等)
-
NeurIPS 2022 | 最强斗地主AI!网易互娱AI Lab提出基于完美信息蒸馏的方法-完美信息蒸馏(PTIE) 在斗地主游戏中,非完美信息的引入主要是由于三位玩家均不能看到别人的手牌,对于任意一位玩家而言,仅可知道其余两位玩家当前手牌的并集,而难于精准判断每位玩家当前手牌。完美信息蒸馏的思路是针对这种非完美问题,构建一个第三方角色,该角色可以看到三位玩家的手牌,该角色在不告知每位玩家完美信息的情况下通过信息蒸馏的方式引导玩家打出当前情况下合理的出牌。 以强化学习常用的 Actor-Critic 算法为例,PTIE 在 Actor-Critic 算法的应用中可以利用 Critic 的 Value 输出作为蒸馏手段来提升 Actor 的表现。具体而言即在训练中 Critic 的输入为完美信息(包含所有玩家的手牌信息),Actor 的输入为非完美信息(仅包含自己手牌信息),此种情况下 Critic 给予的 Value 值包含了完美信息,可以更好地帮助 Actor 学习到更好的策略。 从更新公式上来看,正常的 Actor-Critic 算法 Actor 更新的方式如下: 在 PTIE 模式下,对于每个非完美信息状态 h,我们可以在 Critic 中构建对应的完美信息状态 D(h),并用 Critic 的输出来更新 Actor 的策略梯度,从而达到完美信息蒸馏的效果。 PTIE 框架的整体结构如下图所示: 无论是训练还是执行过程中智能体都不会直接使用完美信息,在训练中通过蒸馏将完美信息用于提升策略,从而帮助智能体达到一个更高的强度。 PTIE 的另一种蒸馏方式是将完美信息奖励引入到奖励值函数的训练中,PerfectDou 提出了基于阵营设计的完美信息奖励 node reward,以引导智能体学习到斗地主游戏中的合作策略,其定义如下: 如上所示,完美信息部分 代表 t 时刻地主手牌最少几步可以出完,在斗地主游戏中可以近似理解为是距游戏获胜的距离, 代表 t 时刻地主阵营和农民阵营距游戏获胜的距离之差, 为调节系数。通过此种奖励设计,在训练时既可以一定程度地引入各玩家的手牌信息(出完的步数需要知道具体手牌才能计算),同时也鼓励农民以阵营的角度做出决策,提升农民的合作性。 特征构建: PerfectDou 针对牌类游戏的特点主要构建了两部分特征:牌局状态特征和动作特征。其中牌局状态特征主要包括当前玩家手牌牌型特征、当前玩家打出的卡牌牌型特征、玩家角色、玩家手牌数目等常用特征,动作特征主要用于刻画当前状态下玩家的所有可能出牌,包括了每种出牌动作的牌型特征、动作的卡牌数目、是否为最大动作等特征。 牌型特征为 12 * 15 的矩阵,如下图所示: 该矩阵前 4 行代表对应每种卡牌的张数,5-12 行代表该种卡牌的种类和对应位置。 网络结构和动作空间设计 针对斗地主游戏出牌组合数较多的问题,PerfectDou 基于 RLCard 的工作上对动作空间进行了简化,对占比最大的两个出牌牌型:飞机带翅膀和四带二进行了动作压缩,将整体动作空间由 27472 种缩减到 621 种。 PerfectDou 策略网络结构如下图所示: 策略网络结构同样分为两部分:状态特征部分和动作特征部分。 在状态特征部分,LSTM 网络用于提取玩家的历史行为特征,当前牌局状态特征和提取后的行为特征会再通过多层的 MLP 网络输出当前的状态信息 embedding。 在动作特征部分,每个可行动作同样会经过多层 MLP 网络进行编码,编码后的动作特征会与其对应的状态信息 embedding 经过一层 MLP 网络计算两者间的相似度,并经由 softmax 函数输出对应的动作概率。 实验结果
-
基于javaWeb的长安智能医疗管理系统的设计与实现 - 致谢
-
基于 Springboot 计算机毕业设计源码 88160 的智能公园管理系统的设计与实现
-
基于 R、Python 的 Copula 变量相关性分析和人工智能大模型应用