返回首页  设为首页  加入收藏  今天是:
网站首页人工智能商业智能智能家居智能手表智能手机智能通信智能电视智能汽车智能机器人
相关文章
 人工智能系列(六)——语音
 网站推荐商业数据与资讯
 老品牌也是新国货重要的是:…
 价格战火愈燃愈烈国货品牌再…
 第一财经
 电竞首入亚运背后透露哪些体…
 Vidda双11开门红战报:85英寸…
 智能电视卡顿原因大揭秘!快…
 Redmi智能电视X2022款50寸开…
 2023年电视机满意度排行榜出…
 Vidda双十一开门红!智能投影…
 国防军工:卫星相控阵天线应…
 普天科技(002544)公司信息更…
 ICD文件约束北斗卫星和地面终…
 泰安:全省首个应用北斗卫星…
 速览 华为Mate50北斗卫星消息…
 2022-2026年智能汽车市场现状…
 学汽车智能网联专业好找工作…
 海南在武汉高校举办校招活动…
 2018年新能源汽车行业技术现…
 2018汽车行业发展趋势分析-智…
 中概股扫描:隔夜美股共134只…
 发布家用及商用清洁机器人新…
 萤石网络发布家用及商用清洁…
 总投资58亿 九牧智能家用机器…
 让平衡车成为儿童玩具:九号…
 智能家居第一步USB快充插座曼…
 2023年中国智能家居品牌前10…
 智能家居哪个品牌比较好?摩…
 智能家居市场竞争激烈 黑马品…
 德国AXO家庭智能摄像头在今年…
 智能翻译机就选讯飞双屏翻译…
 科大讯飞翻译机30换新升级功…
 小米澎湃 OS 要来了MIUI 十三…
 沃尔沃中国公开赛有哪些有趣…
 iPhone 15来了全系灵动岛599…
 三星高端智能手表将配备Micr…
 黑鲨S1系列智能手表预热 S1 …
 定州市西市邑村为老人发放智…
 普元信息获39家机构调研:公…
 智能服装的未来:超越智能手…
 美图设计室上线张海报
 LinkedIn 推出人工智能聊天机…
 【视频海报】船歌鱼水饺联合…
 我们用AIGC做了一套2023T-ED…
 《造物主》曝海报 人类与人工…
 纳芯微出席2023全球新能源与…
 2023 供应链大会探讨汽车供应…
 百人会成立汽车产业供应链协…
 探讨汽车供应链健康可持续发…
专题栏目
网络
您现在的位置: 智能制造网 >> 人工智能 >> 正文
高级搜索
人工智能系列(六)——语音
作者:佚名 文章来源:本站原创 点击数: 更新时间:2023/11/6 22:32:57 | 【字体:

  小沈阳拍的电影无法探究人工智能技术究竟在哪些行业能得到应用,但可以确认的是,目前人工智能效果最好的行业之一,肯定就是语音。语音是实现人与机器以语言为纽带的通信。人类大脑皮层每天处理的信息中,声音信息占20%,它是沟通最重要的纽带,人机对话将方便人们的工作与生活。完整的人机对话包括声音信号的前端处理、将声音转为文字供机器处理、在机器生成语言之后,用语音合成技术将文本语言转化为声波,从而形成完整的人机语音交互。这个过程中主要涉及 3 种技术,即自动语音识别(automatic speech recognition,ASR);自然语言处理(natural language processing,NLP),目的是让机器能理解人的意图;语音合成(speech synthesis,SS),目的是让机器能说话。本节即以语音为方向介绍相关的技术和行业情况,在智能语音发展过程中经历了3个阶段,一是孤立词识别,二是连接词识别,如连续数字或连续单词,三是大词汇量下连续语音识别。

  自上世纪50年代开始,学界着手于最简单的数字识别任务。到了80年代,研究思路发生了重大变化,语音识别技术已经从孤立词识别发展到连续词识别,当时出现了两项非常重要的技术,即隐马尔科夫模型(HMM)、N-gram语言模型。其中以隐马尔可夫模型为代表的基于统计模型方法逐渐在语音识别研究中占据了主导地位。HMM模型能够很好地描述语音信号的短时平稳特性,并且将声学、语言学、句法等知识集成到统一框架中。此后,HMM的研究和应用逐渐成为了主流。进入21世纪,深度学习的发展极大促进了语音识别技术。2006年,Hinton提出使用受限波尔兹曼机(restrictedBoltzmannmachine,RBM)对神经网络的节点做初始化,即深度置信网络(deepbeliefnetwork,DBN)。DBN解决了深度神经网络训练过程中容易陷入局部最优的问题,自此深度学习的大潮正式拉开。2009年,Hinton和他的学生Mohamed将DBN应用在语音识别声学建模中,并且在TIMIT这样的小词汇量连续语音识别数据库上获得成功。2011年DNN在大词汇量连续语音识别上获得成功,语音识别效果取得了近10年来最大的突破。从此,基于深度神经网络的建模方式正式取代GMM-HMM,成为主流的语音识别建模方式。

  国内的线年,科大讯飞提出全序列卷积神经网络(DFCNN),使用大量的卷积直接对整句语音信号进行建模,应用于语音识别,准确率达97%。2018年,阿里提出LFR-DFSMN模型,将低帧率算法和DFSMN算法进行融合,语音识别错误率相比上一代技术降低20%,解码速度提升3倍。2019年,百度提出了流式多级的截断注意力模型SMLTA,该模型在LSTM和CTC的基础上引入了注意力机制来获取更大范围和更有层次的上下文信息。在线语音识别率上,该模型比百度上一代Deep Peak2模型提升相对15%的性能。

  一、技术从语音识别算法的发展来看,语音识别技术主要分为三大类:第一类是模型匹配法,包括矢量量化(VQ)、动态时间规整(DTW)等;第二类是概率统计方法,包括高斯混合模型(GMM)、隐马尔科夫模型(HMM)等;第三类是辨别器分类方法,如支持向量机(SVM)、人工神经网络(ANN)和深度神经网络(DNN)等,以及多种组合方法。接下来首先介绍语音识别的过程,再对部分主流的基础识别技术进行简单介绍。

  1、语音识别过程首先是确定文件格式。常见的声音格式MP3、WMA等都是压缩格式,要进行语音识别须采用未经压缩的。然后把声音分帧,即把声音分成一系列的小段,每小段称为一帧,分帧的操作不是简单切割,而是通过移动窗函数来实现,帧与帧之间一般是有交叠的。接着,再进行声学特征提取。语音分成小段后,再做波形变换。常见的一种变换方法是提取MFCC特征,根据人耳的生理特性,把每一帧波形变成一个多维向量,可以简单地理解为这个向量包含了这帧语音的内容信息。声音就成了一个M行N列的矩阵,称之为观察序列。接着就是把矩阵变成文本的过程。把帧识别成状态,把状态组合成音素,把音素组合成单词。“音素”是构成单词发音的基本单元,英语常用的音素集是由卡内基梅隆大学设计的一套由39个音素构成的音素集,汉语一般直接用全部声母和韵母作为音素集,另外汉语识别还需分声调。“状态”可以理解为比音素更细分的语音单位,通常把一个音素划分为3个“状态”。

  图中每个小竖条代表一帧,若干帧语音对应一个状态,每三个状态组合成一个音素,若干个音素组合成一个单词。所以只要知道每帧语音对应哪个状态,语音识别的工作就完成了。帧对应的状态寻找是根据对应状态的概率大小来进行的,概率大小的数据来源于“声学模型”,这个模型里存了很多参数,通过这些参数就可以知道帧和状态对应的概率。获取这些参数的方法叫做“训练”,这就需要使用大量语音数据。因为每帧都会得到一个状态号,所以结果会是非常多的杂乱无章的状态号。实际上一段语音不会有太多的音素,最常用的方法是使用隐马尔可夫模型(HMM)。这个模型通过构建一个状态网络,从中寻找与声音最匹配的路径。总的来说,语音识别的过程其实就是在状态网络中搜索一条最佳路径。

  2、DTWDTW动态时间规整(Dynamic Time Warping)由日本学者Itakura提出,是一种衡量两个长度不同的时间序列的相似度的方法。其应用也比较广,主要是用在模板匹配中,如用在孤立词语音识别(识别两段语音是否表示同一个单词)、手势识别、数据挖掘和信息检索中等。在语音识别中,由于语音信号的随机性,如即使同一个人发的同一个音,只要说话环境和情绪不同,时间长度也不尽相同,因此时间规整是必不可少的。

  DTW是一种将时间规整与距离测度有机结合的非线性规整技术,在语音识别时,需要把测试模板与参考模板进行实际比对和非线性伸缩,并依照某种距离测度选取距离最小的模板作为识别结果输出。动态时间规整技术的引入,将测试语音映射到标准语音时间轴上,使长短不等的两个信号最后通过时间轴弯折达到一样的时间长度,进而使得匹配差别最小,结合距离测度,得到测试语音与标准语音之间的距离。在实现小词汇表孤立词识别系统时,DTW识别率及其他指标与HMM算法实现几乎等同。又由于HMM算法复杂,在训练阶段需要提供大量的语音数据通过反复计算才能得到模型参数,而DTW算法本身既简单又有效,因此DTW算法在特定的场合下获得了广泛的应用。

  3、GMMGMM高斯混合模型(GaussianMixed Model)指的是多个高斯分布函数的线性组合,理论上GMM可以拟合出任意类型的分布,通常用于解决同一集合下的数据包含多个不同的分布的情况。高斯混合模型种类有单高斯模型(SingleGaussian Model,SGM)和高斯混合模型(Gaussian MixtureModel,GMM)两类。类似于聚类,根据高斯概率密度函数(ProbabilityDensity Function, PDF)参数不同,每一个高斯模型可以看作一种类别,输入一个样本x,即可通过PDF计算其值,然后通过一个阈值来判断该样本是否属于高斯模型。

  4、HMMHMM隐马尔科夫模型(Hidden Markov Model)是一种统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数,然后利用这些参数来做进一步的分析,目前多应用于语音信号处理领域。在该模型中,马尔科夫(Markov)链中的一个状态是否转移到另一个状态取决于状态转移概率,而某一状态产生的观察值取决于状态生成概率。

  在进行语音识别时,HMM首先为每个识别单元建立发声模型,通过长时间训练得到状态转移概率矩阵和输出概率矩阵,在识别时根据状态转移过程中的最大概率进行判决。HMM模型能够很好地描述语音信号的短时平稳特性,并且将声学、语言学、句法等知识集成到统一框架中。20世纪80年代后,HMM的研究和应用逐渐成为了主流。例如,第一个“非特定人连续语音识别系统”是当时还在卡耐基梅隆大学读书的李开复研发的SPHINX系统,其核心框架就是GMM-HMM框架。

  GMM-HMM是最为常见的一种声学模型,其中GMM用来对语音的观察概率进行建模,HMM则对语音的时序进行建模。该模型利用HMM对时间序列的建模能力,描述语音如何从一个短时平稳段过渡到下一个短时平稳段;此外,HMM的隐藏状态和观测状态的数目互不相干,可以解决语音识别中输入输出不等长的问题.该声学模型中的每个HMM都涉及到3个参数:初始状态概率、状态转移概率和观测概率,其中观测概率依赖于特征向量的概率分布,采用高斯混合模型GMM进行建模。GMM-HMM声学模型在语音识别领域有很重要的地位,其结构简单且区分度训练成熟,训练速度也相对较快.然而该模型中的GMM忽略时序信息,每帧之间相对孤立,对上下文信息利用并不充分.且随着数据量的上升,GMM需要优化的参数急剧增加,这给声学模型带来了很大的计算负担,浅层模型也难以学习非线年代后期,人工神经网络成为了语音识别研究的一个方向,但这种浅层神经网络在语音识别任务上的效果一般,表现并不如GMM-HMM模型。浅层结构与深层算法相比存在局限,尤其当样本数据有限时,它们表征复杂函数的能力明显不足。深度学习可通过学习深层非线性网络结构,实现复杂函数逼近,表征输入数据分布式,并展现从少数样本集中学习本质特征的强大能力。

  采用DNN替换GMM模型来建模语音观察概率,是其和传统的GMM-HMM语音识别系统最大的不同,由其得到了DNN-HMM语音识别系统,其结构如图所示。DNN-HMM采用DNN的每个输出节点来估计给定声学特征的条件下HMM某个状态的后验概率。DNN模型的训练阶段大致分为两个步骤:第1步是预训练,利用无监督学习的算法训练受限波尔兹曼机RBM,RBM算法通过逐层训练并堆叠成深层置信网络DBN;第2步是区分性调整,在DBN的最后一层上面增加一层Softmax层,将其用于初始化DNN的模型参数,然后使用带标注的数据,利用传统神经网络的学习算法(如BP算法)学习DNN的模型参数。

  相比于GMM-HMM,DNN-HMM具有更好的泛化能力,擅长举一反三,帧与帧之间可以进行拼接输入,特征参数也更加多样化,且对所有状态只需训练一个神经网络,在大词汇量语音识别领域的出色表现。2012年深度神经网络与HMM相结合的声学模型DNN-HMM在大词汇量连续语音识别中取得成功,掀起利用深度学习进行语音识别的浪潮。此后,以卷积神经网络CNN、循环神经网络RNN等常见网络为基础的混合识别系统和端到端识别系统都获得了不错的识别结果和系统稳定性。迄今为止,以神经网络为基础的语音识别系统仍旧是国内外学者的研究热点。6、端到端

  传统的语音识别由多个模块组成,彼此独立训练,但各个子模块的训练目标不一致,容易产生误差累积,使得子模块的最优解并不一定是全局最优解。针对这个问题,学者们提出了端到端的语音识别系统,直接将输入的语音波形(或特征矢量序列)转换成单词、字符序列。端到端的语音识别将声学模型、语言模型、发音词典等模块被容纳至一个系统,通过训练直接优化最终目标,如词错误率(WER)、字错误率(CER),极大地简化了整个建模过程。目前端到端的语音识别方法主要有基于连接时序分类(CTC)和基于注意力机制(attention model)两类方法及其改进方法。

  1987年,国家“863计划”智能计算机专家组为语音识别技术研究专门立项,国内语音识别研究开始起步。2002年,中国科学院自动化研究所及其所属模识科技(Pattek)公司发布“天语”中文语音系列产品Pattek ASR,结束了中文语音识别产品自1998年以来一直由国外公司垄断的历史。>

  从2000年开始,国内语音识别技术专利合作逐渐增多,并在2008年、2011年和2015年增速进一步加快。从专利申请人的变化能分析出,智能语音技术由以高校、科研院所为主向以高校、科研院所和企业“三足鼎立”的协同创新局面演化。在初期,高校和科研院所占据核心位置,是国内语音识别技术知识创新的发源地,如清华大学、中山大学、上海交通大学、广东外语外贸大学和中国科学院声学研究所、自动化研究所等。

  2016年后,越来越多的高科技公司开始进入行业核心位置,而这一阶段正是语音识别技术由知识创新向技术应用转化的阶段。例如,中国移动、腾讯、乐视和科大讯飞,这些企业的崛起恰好表明这一阶段国内语音识别技术已经进入到孵化高新技术企业和企业采用高新技术的过程。其中有代表性的是:安徽省政府依托中国科学院、中国科学技术大学和科大讯飞打造的“中国声谷”智能语音产业园已经发展为全国智能语音领域产业发展高地。

  在国际方面,语音识别技术的累计专利申请大部分来自于美国和中国,其中美国专利权人占比32.5%,中国占比24.3%。其次是日本、韩国,两国在语音识别技术方面相关专利分别占22.1%和8.1%。美国在语音识别技术出现的早期处于垄断地位,因为最早研究语音识别技术的贝尔实验室、卡梅隆大学等都位于美国,同时美国的经济和硬件基础也使得美国在语音识别技术发展前期占据明显优势。近些年来,中国在政府和市场资本的推进下,紧跟语音识别技术的最新发展方向,核心算法不断改进、硬件基础不断完善、产业链不断升级,在科大讯飞、百度、思必驰等科技公司的带头引领下,语音识别技术在迅猛发展。

  2、从产业看语音智能语音技术可通过声音信号的前端处理、语音识别(ASR)、自然语言处理(NLP)、语音合成(TTS)等形成完整的人机语音交互。智能语音技术落地分为三类应用场景,首先为以语音识别、语音合成和语音转写为主的垂类应用,随着疫情催化和产业的数智化转型加速,该类语音应用在教育、公安和医疗等领域加速场景落地;其次为消费级智能硬件中加载的语音助手,语音交互入口带来的功能性定位让其随着智能终端的规模扩大具备强需求增长动能;第三类为对话机器人产品,形式可为文本机器人、语音机器人和多模态数字人。

  随着对话机器人产品客服功能的丰富,以及向营销和企业信息服务场景的应用渗透,在“降本”基础上实现“增效”,对话式AI的场景变现能力正在逐步增强。疫情加速了智能语音的技术落地与场景融合。“非接触”需求给语音领域及对话式AI产品带来了新的机遇与增长动能。在后疫情时代下,基于对话机器人实现意图理解并做出回答或执行相应任务的产品形式将会被更加广泛应用在服务、营销等交互场景,并可作为疫情防控机器人,助力于政府、社区防疫的通知与排查。据艾瑞咨询测算,2021年我国对话式AI产品的市场规模达到80亿元,带动相关产业经济规模达728亿元。除典型的对线年智能语音技术在教育、医疗、司法、公安、互联网等垂直行业应用的核心产品规模达到79亿元,带动相关产业经济规模达448亿元。>

  当前,我国智能语音企业持续推进“平台+赛道”发展模式,一方面通过开放平台为开发者提供场景创新的技术支持(比如百度开放语音技术平台、华为HiAI平台、科大讯飞的讯飞开放平台等),另一方面凭借自身优势持续拓展赛道。人工智能与应用场景的深度结合,产生了巨大商业价值。在教育领域,智能语音可应用于课堂管理、线上教学、口语测评等,推动教育行业智慧化转型加速。智能家居是另一个智能语音落地场景。智能家居的最终目的是实现全屋产品智能化。在灯光、空调、电视、窗帘、门窗、背景音乐、安防、监控等方面均有应用。智能音箱为语音交互“蓝图”铺路,是智能家居的“入口”。精准的语音交互能力。比如讯飞依托远、近场拾音和多模态融合等技术,提供全链路人机交互解决方案,包含语义理解、人机对话、自由定制等能力,能充分理解用户自然语言表达的意图,实现智能家居场景化语音控制。智慧医疗领域,语音电子病历系统需求正在释放。通过语音输入的方式生成结构化病例、执行病例检索,节约医师输入病历的时间。此外,智能语音需求还向导诊机器人、问诊小程序、诊后随访系统、住院病房管理系统、临床决策支持系统等各个应用领域扩散。智能汽车领域,搭载基于智能语音的车载交互系统已经成为主流。根据佐思汽研发布的研究报告显示,2021年我国自主品牌车载智能语音装配量超过550万辆,同比增长40.4%。其中,上汽集团与阿里合作,通过阿里达摩院IDST语音资源自建技术框架,同时引入思必驰、科大讯飞等供应商,打造斑马智能出行系统,除了应用于上汽自主品牌汽车,还延伸至福特、雪铁龙、斯柯达等品牌。4、从企业看语音

  >

  据艾瑞咨询统计,我国人工智能创业项目中处于语音识别和语义分析赛道的共有252家,占比10.6%。同时,根据国家工业信息安全发展研究中心数据,截至2018年底,我国人工智能领域合计申请专利44.4万件,而语音识别与自然语言处理技术则合计申请专利6.1万件,占比达到13.6%,反映出智能语音领域单位技术产出情况高于行业整体,且发展也更倚重技术要素。目前国内不少公司在语音领域有所投入,既有一直专注该领域的科大讯飞、思必驰、捷通华声、依图科技等,也有中途入局的知名科技企业,如BAT、小米等。目前的市场格局越来越向头部厂商聚集。2021年,仅科大讯飞一家就占据了超过60%的市场份额。阿里、百度等为代表的互联网巨头占据约20%市场份额,其他智能语音企业如捷通华声、云知声等,总体份额小于20%,但近年来凭借技术和产品创新、以垂直领域和细分场景为突破口,实现了快速增长。

  在未来很长一段时间内,基于深度神经网络的语音识别仍是主流,面向不同应用场景,根据语音信号特点对现有神经网络结构进行改进仍是未来研究重点。智能语音下一步发展的关键创新点是无监督学习、多模态融合、脑科学交叉融合创新和系统性创新等。同时,还应聚焦开源算法平台构建和重点领域创新的科技攻关,着力提升用户隐私的安全性。大体上,未来语音识别领域的研究方向可大致归纳如下:

  (2)数据迁移。在面对小样本数据或复杂问题时,迁移学习是一种有效的方式.在语音识别领域中,采用迁移学习的方式对小语种、方言口音或含噪语音进行识别也是未来的研究方向之一。(3)多模态数据融合。对于一些复杂的语音场景(高噪声、混响、多源干扰等),可以利用语音信号和其他信号(如图像信号、振动信号等)进行融合,以提高语音识别性能,也是未来研究研究方向之一。(4)多技术融合,提高认知智能。当前大多数语音识别算法只关注识别文字内容的正确性;然而,许多智能语音交互的应用(如QA问答、多轮对话等)还涉及到语义的理解.因此,将语音识别技术结合其他技术如自然语言处理相结合以提升识别性能也是未来研究方向之一。部分内容来自:《带你了解语音识别技术》邵建勋,倪俊杰《基于端到端的多语种语音识别研究》胡文轩,王秋林,李松,洪青阳,李琳《基于专利发展路径的颠覆性技术识别:以智能语音领域为例》王海军,于佳文《专利合作视角下技术创新合作网络演化分析—以国内语音识别技术领域为例》关鹏,王曰芬,靳嘉林,傅柱《语音识别实现方法》李姝仪,李云洁,蒋昊轩,郭宗昱,吴可欣,刘博《语音识别研究综述》马晗,唐柔冰,张义,张巧灵《语音识别专利技术综述》谢赛赛《语音识别技术的研究进展与展望》王海坤,潘嘉,刘聪《语音识别技术全球专利布局趋势》杜灵君,武晓岛《语音识别及端到端技术现状及展望》鱼昆,张绍阳,侯佳正,张少博《语音识别系统对抗样本攻击及防御综述》台建玮,李亚凯,贾晓启,黄庆佳《智慧语音,智联万物》丁毓《智能语音交互技术进展》王斌,王育军,崔建伟,孟二利《智能语音技术端到端框架模型分析和趋势研究》李荪,曹峰《凝望璀璨星河:中国智能语音行业研究报告》艾瑞咨询《关键核心技术突破与国产替代路径及机制—科大讯飞智能语音技术纵向案例研究》胡登峰,黄紫微,冯楠,梁中,沈鹤

人工智能录入:admin    责任编辑:admin 
  • 上一个人工智能:

  • 下一个人工智能: 没有了
  •  
     栏目文章
    普通人工智能 人工智能系列(六)——语音 (11-06)
    普通人工智能 美图设计室上线张海报 (11-06)
    普通人工智能 LinkedIn 推出人工智能聊天机器人可帮用户找到… (11-06)
    普通人工智能 【视频海报】船歌鱼水饺联合创始人陈国平:人… (11-06)
    普通人工智能 我们用AIGC做了一套2023T-EDGE海报果然很上头 (11-06)
    普通人工智能 《造物主》曝海报 人类与人工智能之战即将打响 (11-06)
    普通人工智能 《生成式人工智能服务管理暂行办法》中所称生… (11-05)
    普通人工智能 AI时代 重磅研判! (11-05)
    普通人工智能 加拿大工程院院士于非:2030年将有70%企业使用… (11-05)
    普通人工智能 安徽人工智能产业发展指数全国第六 (11-05)
    普通人工智能 人工智能是什么技术 (11-05)
    普通人工智能 一款名为Avatarify的AI换脸APP迅速走红 (11-05)
    普通人工智能 关于 ModelScope 的视频 “AI 换脸” 优化方案 (11-05)
    普通人工智能 AI换脸用于诈骗 真假难辨怎么办? (11-05)
    普通人工智能 为“AI换脸”戴上紧箍 (11-05)
    普通人工智能 视频“变脸”相似度达80%!“AI换脸诈骗”如何… (11-05)
    普通人工智能 SAP 让每位开发者都能成为生成式人工智能开发… (11-04)
    普通人工智能 苹果公司 CEO 库克再谈生成式人工智能:「我们… (11-04)
    普通人工智能 IAC警告监管机构:生成式人工智能可能毁掉互联… (11-04)
    普通人工智能 华信永道与智谱AI签署战略合作协议 致力创新数… (11-04)