期刊文献+
共找到270篇文章
< 1 2 14 >
每页显示 20 50 100
一种改进的DNN-HMM的语音识别方法 预览
1
作者 李云红 梁思程 +5 位作者 贾凯莉 张秋铭 宋鹏 何琛 王刚毅 李禹萱 《应用声学》 CSCD 北大核心 2019年第3期371-377,共7页
针对深度神经网络与隐马尔可夫模型(DNN-HMM)结合的声学模型在语音识别过程中建模能力有限等问题,提出了一种改进的DNN-HMM模型语音识别算法.首先根据深度置信网络(DBN)结合深度玻尔兹曼机(DBM),建立深度神经网络声学模型,然后提取梅尔... 针对深度神经网络与隐马尔可夫模型(DNN-HMM)结合的声学模型在语音识别过程中建模能力有限等问题,提出了一种改进的DNN-HMM模型语音识别算法.首先根据深度置信网络(DBN)结合深度玻尔兹曼机(DBM),建立深度神经网络声学模型,然后提取梅尔频率倒谱系数(MFCC)和对数域的Mel滤波器组系数(Fbank)作为声学特征参数,通过TIMIT语音数据集进行实验.实验结果表明:结合了DBM的DNN-HMM模型相比DNN-HMM模型更具优势,其中,使用MFCC声学特征在词错误率与句错误率方面分别下降了1.26% 和0.20%.此外,使用默认滤波器组的Fbank特征在词错误率与句错误率方面分别下降了0.48% 和0.82%,并且适量增加滤波器组可以降低错误率.总之,研究取得句错误率与词错误率分别降低到21.06% 和3.12% 的好成绩. 展开更多
关键词 语音识别 深度神经网络 声学模型 声学特征
在线阅读 下载PDF
结合瓶颈特征的注意力声学模型 预览
2
作者 龙星延 屈丹 张文林 《计算机科学》 CSCD 北大核心 2019年第1期260-264,共5页
目前基于注意力机制的序列到序列声学模型成为语音识别领域的研究热点。针对该模型训练耗时长和鲁棒性差等问题,提出一种结合瓶颈特征的注意力声学模型。该模型由基于深度置信网络(Deep Belief Network,DBN)的瓶颈特征提取网络和基于注... 目前基于注意力机制的序列到序列声学模型成为语音识别领域的研究热点。针对该模型训练耗时长和鲁棒性差等问题,提出一种结合瓶颈特征的注意力声学模型。该模型由基于深度置信网络(Deep Belief Network,DBN)的瓶颈特征提取网络和基于注意力的序列到序列模型两部分组成:DBN能够引入传统声学模型的先验信息来加快模型的收敛速度,同时增强瓶颈特征的鲁棒性和区分性;注意力模型利用语音特征序列的时序信息计算音素序列的后验概率。在基线系统的基础上,通过减少注意力模型中循环神经网络的层数来减少训练的时间,通过改变瓶颈特征提取网络的输入层单元数和瓶颈层单元数来优化识别准确率。在TIMIT数据库上的实验表明,该模型在测试集上的音素错误率降低至了17.80%,训练的平均迭代周期缩短了52%,训练迭代次数由139减少至89。 展开更多
关键词 声学模型 注意力模型 瓶颈特征 深度置信网络
在线阅读 免费下载
基于关键词识别的“黑广播”识别方法研究 预览 被引量:1
3
作者 徐磊 魏来 宋丽娟 《中国无线电》 2019年第2期39-40,共2页
由于无线电广播技术自身的开放性,时常有出于不同目的的用户,在批准发射的频率之外,擅自占据频段进行广播发射(俗称'黑广播',即非法广播)。在这之中,出于经济目的进行非法广播发射的行为占多数,其内容以售卖假冒伪劣产品居多,... 由于无线电广播技术自身的开放性,时常有出于不同目的的用户,在批准发射的频率之外,擅自占据频段进行广播发射(俗称'黑广播',即非法广播)。在这之中,出于经济目的进行非法广播发射的行为占多数,其内容以售卖假冒伪劣产品居多,严重扰乱经济秩序。另外,即便是一些非主观恶意的私占频段发射(如无线电爱好者自行搭建平台),也会扰乱正常电子通信的运转,在某些情况下甚至会干扰关键性通信设备(如飞机飞航通信频段),存在严重的安全隐患。 展开更多
关键词 无线电广播 关键词识别 声学模型 高斯混合 马尔可夫链 语言模型 最大后验概率 文本文件 描述文件
在线阅读 下载PDF
基于GRU-HMM声学模型的湖南方言辨识 预览
4
作者 谢可欣 董胡 +2 位作者 邹孝 汤琛 钱盛友 《计算机与数字工程》 2019年第3期493-496,538共5页
建立了一种基于门控循环单元(GRU)神经网络和隐马尔科夫模型(HMM)结合的声学模型。采用梅尔倒谱系数(MFCC)作为该声学模型的输入,利用GRU神经网络能够对时间序列的实时记忆能力来对语音数据进行概率统计,所得概率值通过HMM模型进行统计... 建立了一种基于门控循环单元(GRU)神经网络和隐马尔科夫模型(HMM)结合的声学模型。采用梅尔倒谱系数(MFCC)作为该声学模型的输入,利用GRU神经网络能够对时间序列的实时记忆能力来对语音数据进行概率统计,所得概率值通过HMM模型进行统计和重新评估,最终得到辨识结果。用该方法对湖南方言进行了辨识研究,实验证明,此声学模型与传统声学模型相比具有更好的辨识效率。 展开更多
关键词 门控循环单元(GRU) 隐马尔科夫模型(HMM) 声学模型 梅尔倒谱系数(MFCC) 湖南方言辨识
在线阅读 下载PDF
基于连续语音识别技术的猪连续咳嗽声识别 预览
5
作者 黎煊 赵建 +3 位作者 高云 刘望宏 雷明刚 谭鹤群 《农业工程学报》 EI CAS CSCD 北大核心 2019年第6期174-180,共7页
针对现有基于孤立词识别技术的猪咳嗽声识别存在识别声音种类有限,无法反映实际患病猪连续咳嗽的问题,该文提出了基于双向长短时记忆网络-连接时序分类模型(birectional long short-term memory-connectionist temporalclassification,B... 针对现有基于孤立词识别技术的猪咳嗽声识别存在识别声音种类有限,无法反映实际患病猪连续咳嗽的问题,该文提出了基于双向长短时记忆网络-连接时序分类模型(birectional long short-term memory-connectionist temporalclassification,BLSTM-CTC)构建猪声音声学模型,进行猪场环境猪连续咳嗽声识别的方法,以此进行猪早期呼吸道疾病的预警和判断。研究了体质量为75 kg左右长白猪单个咳嗽声样本的持续时间长度和能量大小的时域特征,构建了声音样本持续时间在0.24~0.74 s和能量大于40.15 V2 s的阈值范围。在此阈值范围内,利用单参数双门限端点检测算法对基于多窗谱的心理声学语音增强算法处理后的30 h猪场声音进行检测,得到222段试验语料。将猪场环境下的声音分为猪咳嗽声和非猪咳嗽声,并以此作为声学模型建模单元,进行语料的标注。提取26维梅尔频率倒谱系数(Mel frequencycepstral coefficients,MFCC)作为试验语段特征参数。通过BLSTM网络学习猪连续声音的变化规律,并利用CTC实现了端到端的猪连续声音识别系统。5折交叉验证试验平均猪咳嗽声识别率达到92.40%,误识别率为3.55%,总识别率达到93.77%。同时,以数据集外1 h语料进行了算法应用测试,得到猪咳嗽声识别率为94.23%,误识别率为9.09%,总识别率为93.24%。表明基于连续语音识别技术的BLSTM-CTC猪咳嗽声识别模型是稳定可靠的。该研究可为生猪健康养殖过程中猪连续咳嗽声的识别和疾病判断提参考。 展开更多
关键词 信号处理 声音信号 识别 生猪产业 连续咳嗽声 双向长短时记忆网络-连接时序分类模型 声学模型
在线阅读 下载PDF
基于布谷鸟算法的吸声结构优化设计方法 预览
6
作者 白攀峰 张晓南 +1 位作者 安立周 何山 《山西化工》 2019年第3期12-15,共4页
提出了一种吸声结构的全新设计方法,首先基于吸声理论对结构性能进行理论建模,其次使用布谷鸟算法在约束条件下进行结构参数优化,然后通过有限元法对优化结构进行声学模拟仿真,最终进行试验验证。该方法可提高吸声结构设计效率,并得到... 提出了一种吸声结构的全新设计方法,首先基于吸声理论对结构性能进行理论建模,其次使用布谷鸟算法在约束条件下进行结构参数优化,然后通过有限元法对优化结构进行声学模拟仿真,最终进行试验验证。该方法可提高吸声结构设计效率,并得到最优结构参数。 展开更多
关键词 声学模型 布谷鸟算法 有限元仿真
在线阅读 下载PDF
换流站电力电容器塔的相干辐射声指向性算法研究 预览
7
作者 郑中原 魏浩征 +4 位作者 黄国兴 陆益民 印崧 聂京凯 于金山 《电力电容器与无功补偿》 北大核心 2019年第4期5-10,15,共7页
电力电容器是高压直流换流站中的重要噪声源。在换流站设计阶段,必须对电力电容器塔的噪声对周围环境造成的影响进行准确的预测计算。本文在相干声源的叠加原理和声波传播衰减分析的基础上,进行理论公式推导,提出一种计算电容器塔远场... 电力电容器是高压直流换流站中的重要噪声源。在换流站设计阶段,必须对电力电容器塔的噪声对周围环境造成的影响进行准确的预测计算。本文在相干声源的叠加原理和声波传播衰减分析的基础上,进行理论公式推导,提出一种计算电容器塔远场噪声辐射指向性的数值计算方法,并对典型的电容器塔模型进行了模拟计算。结果表明,使用简化的相干声源叠加公式进行计算得到的指向性可以很好地模拟计算电容器塔架装置的噪声辐射特性。 展开更多
关键词 电力电容器塔 声学模型 指向性 相干声
在线阅读 免费下载
基于DNN-HMM的陆空通话声学模型构建方法 预览
8
作者 杨金锋 李凯涛 +1 位作者 贾桂敏 师一华 《中国民航大学学报》 CAS 2019年第4期36-40,共5页
由于陆空通话特殊的语法结构与发音,通用语音识别声学模型不适用于陆空通话的声学建模。提出一种基于深度学习的民航陆空通话声学模型构建方法。基于建立的陆空通话语料库数据,利用DNN-HMM模型对陆空通话语音特征进行声学建模,并通过语... 由于陆空通话特殊的语法结构与发音,通用语音识别声学模型不适用于陆空通话的声学建模。提出一种基于深度学习的民航陆空通话声学模型构建方法。基于建立的陆空通话语料库数据,利用DNN-HMM模型对陆空通话语音特征进行声学建模,并通过语音特征增强方法提高模型输入特征的鲁棒性。通过实验对比分析不同语音特征、特征维数和连接帧数对陆空通话声学模型的影响。实验结果表明,提出的基于DNNHMM的陆空通话声学模型可使音素错误率降低至5.62%。 展开更多
关键词 陆空通话 声学模型 DNN-HMM 特征增强
在线阅读 下载PDF
混合单元选择语音合成系统的目标代价构建 预览
9
作者 蔡文彬 魏云龙 +1 位作者 徐海华 潘林 《计算机工程与应用》 CSCD 北大核心 2018年第24期20-25,共6页
合成语音的基元是通过最小化目标代价和拼接代价来选取。由于拼接基元涉及复杂的语言学、声学特性,如何选择能准确描述基元信息的声学特征(或语言学特征)并构建相应目标代价是提高合成语音质量的关键。从声学特征和声学模型两个方面... 合成语音的基元是通过最小化目标代价和拼接代价来选取。由于拼接基元涉及复杂的语言学、声学特性,如何选择能准确描述基元信息的声学特征(或语言学特征)并构建相应目标代价是提高合成语音质量的关键。从声学特征和声学模型两个方面对目标代价构建进行了探究。实验结果表明,经过相似语料训练后微调的深度声学网络模型,预测的瓶颈特征更能表征拼接基元特性,从而指导目标代价筛选理想候选单元,提高合成语音的质量。 展开更多
关键词 语音合成 目标代价 声学特征 声学模型 拼接基元
在线阅读 下载PDF
几种开源英语识别工具包的对比分析 预览
10
作者 刘琼 《计算技术与自动化》 2018年第4期123-127,共5页
对开源英语语音识别工具包在可用性和识别准确性方面进行了对比评价。所对比的语音工具包为HTK语音工具包、CMUSphinx系列语音处理系统和Kaldi语音工具包。通过对比分析发现,Kaldi语音工具包提供了最先进和全面的声学模型训练技术支持,... 对开源英语语音识别工具包在可用性和识别准确性方面进行了对比评价。所对比的语音工具包为HTK语音工具包、CMUSphinx系列语音处理系统和Kaldi语音工具包。通过对比分析发现,Kaldi语音工具包提供了最先进和全面的声学模型训练技术支持,具有最出色的识别正确率结果;CMUSphinx系列语音工具包在提供较为全面的声学模型训练基础上,具有最好的识别效率;而HTK语音识别工具包所提供的训练技术支持最少,并且需要自行开发训练脚本,因此使用难度最大。 展开更多
关键词 开源语音识别工具 HTK Spinx Kaldi 语言模型 声学模型
在线阅读 下载PDF
语音识别技术的研究进展与展望 预览 被引量:13
11
作者 王海坤 潘嘉 刘聪 《电信科学》 2018年第2期1-11,共11页
自动语音识别(ASR)技术的目的是让机器能够“听懂”人类的语音,将人类语音信息转化为可读的文字信息,是实现人机交互的关键技术,也是长期以来的研究热点。最近几年,随着深度神经网络的应用,加上海量大数据的使用和云计算的普及,语音... 自动语音识别(ASR)技术的目的是让机器能够“听懂”人类的语音,将人类语音信息转化为可读的文字信息,是实现人机交互的关键技术,也是长期以来的研究热点。最近几年,随着深度神经网络的应用,加上海量大数据的使用和云计算的普及,语音识别取得了突飞猛进的进展,在多个行业突破了实用化的门槛,越来越多的语音技术产品进入了人们的日常生活,包括苹果的Siri、亚马逊的Alexa、讯飞语音输入法、叮咚智能音箱等都是其中的典型代表。对语音识别技术的发展情况、最近几年的关键突破性技术进行了介绍,并对语音识别技术的发展趋势做了展望。 展开更多
关键词 自动语音识别 深度神经网络 声学模型 语言模型
在线阅读 下载PDF
基于后验知识监督的噪声鲁棒声学模型研究 预览
12
作者 赵峰 徐海青 +2 位作者 吴立刚 余江斌 黄影 《湘潭大学学报:自然科学版》 2018年第6期98-103,共6页
语音人机交互技术作为近几年的一个研究热点,市场需求逐步增长,但是人机交互系统在抗干扰能力上存在不足,系统性能易受环境噪声的影响,一定程度上限制了相关产品的应用推广.针对人机交互噪声鲁棒性问题,提出了一种基于后验知识监督的噪... 语音人机交互技术作为近几年的一个研究热点,市场需求逐步增长,但是人机交互系统在抗干扰能力上存在不足,系统性能易受环境噪声的影响,一定程度上限制了相关产品的应用推广.针对人机交互噪声鲁棒性问题,提出了一种基于后验知识监督的噪声鲁棒声学建模方法,类似于老师指导学生的方式,以老师模型的后验概率分布(软标注)作为指导知识对学生模型的训练进行监督,并设计出一种基于CNN-DNN混合网络的学生模型,通过对带噪语音的高层特征进行提炼,提升声学模型的抗噪性能.构建的学生模型在CHIME带噪数据集下进行了性能验证实验,实验结果显示三种老师模型监督下的学生模型词错误率与基线模型相比平均下降了5.21%、6.35%和7.83%,表明提出的后验知识监督方法对声学模型的鲁棒性具有很好的提升效果. 展开更多
关键词 噪声鲁棒性 声学模型 后验知识监督 CNN-DNN混合模型
在线阅读 免费下载
马来语语音合成系统的设计与实现 预览
13
作者 施梅芳 冯浩然 杨鉴 《计算机科学与应用》 2018年第7期1053-1064,共12页
马来语广泛使用于马来西亚、新加坡等东南亚国家,目前使用人数约有2亿多人。本文研究马来语语音合成系统的前端文本分析与处理方法、以及基于HMM的后端语音合成方法。在前端文本分析与处理环节,研究并实现了马来语语料的收集与挑选、文... 马来语广泛使用于马来西亚、新加坡等东南亚国家,目前使用人数约有2亿多人。本文研究马来语语音合成系统的前端文本分析与处理方法、以及基于HMM的后端语音合成方法。在前端文本分析与处理环节,研究并实现了马来语语料的收集与挑选、文本归一化、以及音节自动划分;在后端语音合成环节,研究并实现了马来语音子列表确定、文本标注、上下文属性和问题集设计、HMM声学模型训练、以及语音波形产生。实验结果表明:本文提出并实现的前端文本分析与处理方法可满足后端语音合成的要求,采用本文构建的后端语音合成系统可合成出完整的马来语语句。 展开更多
关键词 马来语 语音合成 隐马尔科夫模型 文本分析 声学模型
在线阅读 下载PDF
卷积神经网络声学模型的结构优化和加速计算 预览 被引量:1
14
作者 王智超 徐及 +1 位作者 张鹏远 颜永红 《重庆邮电大学学报:自然科学版》 CSCD 北大核心 2018年第3期416-422,共7页
将卷积神经网络(convolutional neural networks,CNN)声学模型应用于中文大词表连续电话语音识别任务中,分析了卷积层数、滤波器参数等变量对CNN模型性能的影响,最终在中文电话语音识别测试中,CNN模型相比传统的全连接神经网络模... 将卷积神经网络(convolutional neural networks,CNN)声学模型应用于中文大词表连续电话语音识别任务中,分析了卷积层数、滤波器参数等变量对CNN模型性能的影响,最终在中文电话语音识别测试中,CNN模型相比传统的全连接神经网络模型取得了识别字错误率1.2%的下降。由于卷积结构的复杂性,常规的神经网络加速方法如定点量化和SSE指令加速等方法对卷积运算的加速效率较低。针对这种情况,对卷积结构进行了优化,提出了2种卷积矢量化方法:权值矩阵矢量化和输入矩阵矢量化对卷积运算进行改善。结果表明,输入矩阵矢量化方法的加速效率更高,结合激活函数后移的策略,使得卷积运算速度提升了8.9倍。 展开更多
关键词 语音识别 声学模型 卷积神经网络 矢量化
在线阅读 免费下载
基于迁移学习的噪声鲁棒语音识别声学建模 被引量:1
15
作者 易江燕 陶建华 +1 位作者 刘斌 温正棋 《清华大学学报:自然科学版》 CSCD 北大核心 2018年第1期55-60,共6页
为了提高噪声环境下语音识别系统的鲁棒性,提出了一种基于迁移学习的声学建模方法。该方法用干净语音的声学模型(老师模型)指导带噪语音的声学模型(学生模型)进行训练。学生模型在训练过程中,尽量使其逼近老师模型的后验概率分布。... 为了提高噪声环境下语音识别系统的鲁棒性,提出了一种基于迁移学习的声学建模方法。该方法用干净语音的声学模型(老师模型)指导带噪语音的声学模型(学生模型)进行训练。学生模型在训练过程中,尽量使其逼近老师模型的后验概率分布。学生模型和老师模型间的后验概率分布差异通过相对熵(KL divergence)加以最小化。CHiME-2数据集上的实验结果表明,该方法的平均词错率(WER)比基线的绝对下降了7.29%,比CHiME-2竞赛第一名的绝对下降了3.92%。 展开更多
关键词 鲁棒语音识别 声学模型 神经网络 迁移学习
多噪声环境下的层级语音识别模型 预览 被引量:1
16
作者 曹晶晶 许洁萍 邵聖淇 《计算机应用》 CSCD 北大核心 2018年第6期1790-1794,共5页
针对多噪声环境下的语音识别问题,提出了将环境噪声作为语音识别上下文考虑的层级语音识别模型。该模型由含噪语音分类模型和特定噪声环境下的声学模型两层组成,通过含噪语音分类模型降低训练数据与测试数据的差异,消除了特征空间研究... 针对多噪声环境下的语音识别问题,提出了将环境噪声作为语音识别上下文考虑的层级语音识别模型。该模型由含噪语音分类模型和特定噪声环境下的声学模型两层组成,通过含噪语音分类模型降低训练数据与测试数据的差异,消除了特征空间研究对噪声稳定性的限制,并且克服了传统多类型训练在某些噪声环境下识别准确率低的弊端,又通过深度神经网络(DNN)进行声学模型建模,进一步增强声学模型分辨噪声的能力,从而提高模型空间语音识别的噪声鲁棒性。实验中将所提模型与多类型训练得到的基准模型进行对比,结果显示所提层级语音识别模型较该基准模型的词错率(WER)相对降低了20.3%,表明该层级语音识别模型有利于增强语音识别的噪声鲁棒性。 展开更多
关键词 语音识别 噪声鲁棒性 环境噪声 声学模型 深度神经网络
在线阅读 下载PDF
跨语言声学模型在维吾尔语语音识别中的应用 被引量:1
17
作者 努尔麦麦提·尤鲁瓦斯 刘俊华 +2 位作者 吾守尔·斯拉木 热依曼·吐尔逊 达吾勒·阿布都哈依尔 《清华大学学报:自然科学版》 CSCD 北大核心 2018年第4期342-346,共5页
对维吾尔语而言,由于数据采集和标注存在各种困难,用于训练声学模型的语音数据不够充分。为此,该文研究了基于长短期记忆网络的跨语言声学模型建模方法,利用汉语庞大的训练数据训练深度神经网络声学模型,然后将网络的输出层权重去掉,用... 对维吾尔语而言,由于数据采集和标注存在各种困难,用于训练声学模型的语音数据不够充分。为此,该文研究了基于长短期记忆网络的跨语言声学模型建模方法,利用汉语庞大的训练数据训练深度神经网络声学模型,然后将网络的输出层权重去掉,用随机化的方式产生与维吾尔语输出层对应的权重值,采用反向传播的方式,利用维吾尔语语音数据更新所有权重来训练维吾尔语声学模型。实验结果表明:该方法使维吾尔语转写和听写识别错误率分别比基线系统相对降低了20%和30%。该方法利用汉语大数据来训练神经网络的隐藏层,使维吾尔语声学模型能在一个较好的初始权重网络上进行训练,增强了网络的鲁棒性。 展开更多
关键词 声学模型 维吾尔语 跨语言 长短期记忆
基于深度神经网络的蒙古语声学模型建模研究 预览 被引量:1
18
作者 马志强 李图雅 +1 位作者 杨双涛 张力 《智能系统学报》 CSCD 北大核心 2018年第3期486-492,共7页
针对高斯混合模型在蒙古语语音识别声学建模中不能充分描述蒙古语声学特征之间相关性和独立性假设的问题,开展了使用深度神经网络模型进行蒙古语声学模型建模的研究。以深度神经网络为基础,将分类与语音特征内在结构的学习紧密结合进行... 针对高斯混合模型在蒙古语语音识别声学建模中不能充分描述蒙古语声学特征之间相关性和独立性假设的问题,开展了使用深度神经网络模型进行蒙古语声学模型建模的研究。以深度神经网络为基础,将分类与语音特征内在结构的学习紧密结合进行蒙古语声学特征的提取,构建了DNN-HMM蒙古语声学模型,结合无监督预训练与监督训练调优过程设计了训练算法,在DNN-HMM蒙古语声学模型训练中加入dropout技术避免过拟合现象。最后,在小规模语料库和Kaldi实验平台下,对GMM-HMM和DNN-HMM蒙古语声学模型进行了对比实验。实验结果表明,DNN-HMM蒙古语声学模型的词识别错误率降低了7.5%,句识别错误率降低了13.63%;同时,训练时加入dropout技术可以有效避免DNN-HMM蒙古语声学模型的过拟合现象。 展开更多
关键词 语音识别 声学模型 GMM-HMM DNN-HMM 监督学习 预训练 过拟合 DROPOUT
在线阅读 下载PDF
-种构建自适应蒙古语语音识别声学模型的方法 预览
19
作者 马志强 李图雅 +1 位作者 闫瑞 张力 《计算机应用与软件》 北大核心 2018年第2期167-171,234共6页
蒙古语语言中非词首音节短元音位置不确定产生了一词多音、 构词音变、 协同发音以及口语语流等现象, 导致声学模型自适应性差.通过使用小规模的自适应数据集, 结合 ML L R和 MA P建模方法, 从 τ值的选取和自适应声学模型建模的训练过... 蒙古语语言中非词首音节短元音位置不确定产生了一词多音、 构词音变、 协同发音以及口语语流等现象, 导致声学模型自适应性差.通过使用小规模的自适应数据集, 结合 ML L R和 MA P建模方法, 从 τ值的选取和自适应声学模型建模的训练过程两方面对基本蒙古语声学模型的自适应性开展研究, 给出了一种适合构建自适应蒙古语语音识别声学模型的 ML L R  MA P方法.在 S p h i n x 语音识别实验平台上进行建模实验, 使用声学模型识别率与系统识别率评价指标对 MA P 、 ML L R 、 MA P  ML L R和 ML L R  MA P等建模方法进行评价.实验结果表明, 在声学模型的总正确率、 错误率和准确率三个评价指标上都得到了提升, 明显优于基线模型. 展开更多
关键词 MLLRMAP 声学模型 自适应性 蒙古语 语音识别
在线阅读 下载PDF
基于迁移学习的低资源度维吾尔语语音识别 预览
20
作者 王俊超 黄浩 +1 位作者 徐海华 胡英 《计算机工程》 CSCD 北大核心 2018年第10期281-285,291共6页
语音识别中通常需要用较大的数据量来训练声学模型,而使用资源匮乏的维吾尔语数据训练的深度神经网络声学模型性能较差。针对该问题,根据深度神经网络模型能够进行迁移学习的特点,提出用少量维吾尔语数据重新训练由其他资源丰富语料训... 语音识别中通常需要用较大的数据量来训练声学模型,而使用资源匮乏的维吾尔语数据训练的深度神经网络声学模型性能较差。针对该问题,根据深度神经网络模型能够进行迁移学习的特点,提出用少量维吾尔语数据重新训练由其他资源丰富语料训练而成的基础声学模型,从而构建一个性能更好的维吾尔语声学模型。实验结果表明,相比于基线系统迁移学习的训练方法,该方法能够显著提高维吾尔语的语音识别率。 展开更多
关键词 语音识别 声学模型 维吾尔语 低资源度 深度神经网络 迁移学习
在线阅读 下载PDF
上一页 1 2 14 下一页 到第
使用帮助 返回顶部 意见反馈