期刊文献+
共找到101篇文章
< 1 2 6 >
每页显示 20 50 100
基于AlexNet模型的佤语语谱图识别 预览
1
作者 王翠 王璐 +2 位作者 解雪琴 和丽华 潘文林 《云南民族大学学报:自然科学版》 CAS 2019年第4期377-381,共5页
针对佤语语谱图的识别无需考虑清、浊音的影响这一特征.利用傅里叶变换将佤语转换为对应的语谱图信息,将深度卷积神经网络的AlexNet模型用于佤语语谱图识别.实验表明,语谱图识别可以有效解决语音识别过程中清、浊音对实验识别结果的干扰... 针对佤语语谱图的识别无需考虑清、浊音的影响这一特征.利用傅里叶变换将佤语转换为对应的语谱图信息,将深度卷积神经网络的AlexNet模型用于佤语语谱图识别.实验表明,语谱图识别可以有效解决语音识别过程中清、浊音对实验识别结果的干扰,实验准确率达到96%. 展开更多
关键词 卷积神经网络(CNN) AlexNet模型 识别
在线阅读 免费下载
连续汉语语音切分技术研究 预览
2
作者 曹冠彬 张二华 王凯龙 《计算机与数字工程》 2019年第7期1667-1671,1712共6页
连续语音识别技术融合了声学、语音学和语言学知识,是当前人工智能研究领域的热点之一。连续语音的切分是语音识别的重要基础。传统的双门限端点检测技术、基于模型的端点检测技术等方法在语音切分中的效果不尽如人意。论文针对该问题,... 连续语音识别技术融合了声学、语音学和语言学知识,是当前人工智能研究领域的热点之一。连续语音的切分是语音识别的重要基础。传统的双门限端点检测技术、基于模型的端点检测技术等方法在语音切分中的效果不尽如人意。论文针对该问题,分析了汉语的语音结构和发音特点,研究了连续汉语语音的多级切分方法,综合利用双门限端点检测技术、基于倒谱的端点检测技术和相干分析等技术,实现了汉语连续语音的切分。 展开更多
关键词 端点检测 相干分析
在线阅读 下载PDF
基于多核学习特征融合的语音情感识别方法 预览
3
作者 王忠民 刘戈 宋辉 《计算机工程》 CAS CSCD 北大核心 2019年第8期248-254,共7页
在语音情感识别中提取梅尔频率倒谱系数(MFCC)会丢失谱特征信息,导致情感识别准确率较低。为此,提出一种结合MFCC和语谱图特征的语音情感识别方法。从音频信号中提取MFCC特征,将信号转换为语谱图,利用卷积神经网络提取图像特征。在此基... 在语音情感识别中提取梅尔频率倒谱系数(MFCC)会丢失谱特征信息,导致情感识别准确率较低。为此,提出一种结合MFCC和语谱图特征的语音情感识别方法。从音频信号中提取MFCC特征,将信号转换为语谱图,利用卷积神经网络提取图像特征。在此基础上,使用多核学习算法融合音频特征,并将生成的核函数应用于支持向量机进行情感分类。在2种语音情感数据集上的实验结果表明,与单一特征的分类器相比,该方法的语音情感识别准确率高达96 %。 展开更多
关键词 音情感识别 多核学习 卷积神经网络 梅尔频率倒系数
在线阅读 下载PDF
HR-DCGAN方法的帕金森声纹样本扩充及识别研究
4
作者 王娟 徐志京 《小型微型计算机系统》 CSCD 北大核心 2019年第9期2026-2032,共7页
声纹作为人类重要的生物特征,可应用于帕金森等疾病的判别,但现存的患者声纹数据集及样本偏少,故提出HR-DCGAN(High Resolution Deep Convolutional Generative Adversarial Network)进行样本扩充,进而采用深度学习方法区分帕金森患者... 声纹作为人类重要的生物特征,可应用于帕金森等疾病的判别,但现存的患者声纹数据集及样本偏少,故提出HR-DCGAN(High Resolution Deep Convolutional Generative Adversarial Network)进行样本扩充,进而采用深度学习方法区分帕金森患者和健康人.HR-DCGAN通过增加网络层数并结合特征匹配方法生成高分辨的语谱图,依据结构相似度指标(Structural Similarity Index,SSIM)筛选出高相似度的语谱图以扩充样本.构建VGG16提取声纹特征并分类有效地提高识别准确率,使用Dropout方法抑制过拟合问题进而达到正则化效果.在Sakar数据集上进行了多种特征提取方法,多分类方法的对比实验,结果表明HR-DCGAN-VGG16混合模型能够获得最高声纹识别准确率90. 5%和特异性91%,能有效区分帕金森患者和健康人,解决了少量声纹数据下对帕金森患者的早期高效筛查问题. 展开更多
关键词 帕金森病 HR-DCGAN 样本扩充 VGG16
基于三维卷积神经网络的虫音特征识别方法 预览
5
作者 万永菁 王博玮 娄定风 《计算机应用》 CSCD 北大核心 2019年第9期2744-2748,共5页
进口木材蛀虫检疫是海关的一项重要工作,但其存在着虫声检测算法准确率低、鲁棒性差等问题。针对这些问题,提出了一种基于三维卷积神经网络(3D CNN)的虫音检测方法以实现虫音特征的识别。首先,对原始虫音音频进行交叠分帧预处理,并使用... 进口木材蛀虫检疫是海关的一项重要工作,但其存在着虫声检测算法准确率低、鲁棒性差等问题。针对这些问题,提出了一种基于三维卷积神经网络(3D CNN)的虫音检测方法以实现虫音特征的识别。首先,对原始虫音音频进行交叠分帧预处理,并使用短时傅里叶变换得到虫音音频的语谱图;然后,将语谱图作为3D CNN的输入,使其通过包含三层卷积层的3D CNN以判断音频中是否存在虫音特征。通过设置不同分帧长度下的输入进行网络训练及测试;最后以准确率、F 1分数以及ROC曲线作为评估指标进行性能分析。结果表明,在交叠分帧长度取5 s时,训练及测试效果最佳。此时,3D CNN模型在测试集上的准确率达到96.0%,F 1分数为0.96,且比二维卷积神经网络(2D CNN)模型准确率提高近18%。说明所提算法能准确地从音频信号中提取虫音特征并完成蛀虫识别任务,为海关检验检疫提供有力保障。 展开更多
关键词 三维卷积神经网络 短时傅里叶变换 虫音识别 声学信号处理
在线阅读 下载PDF
卷积神经网络在乐器板材优劣识别中的应用研究 预览
6
作者 黄英来 李晓霜 赵鹏 《计算机应用研究》 CSCD 北大核心 2019年第3期776-780,共5页
目前民族乐器板材振动信号识别算法存在特征提取复杂且耗时长等缺点,针对此问题,提出了一种基于卷积神经网络的木材振动信号分类识别算法,实现了乐器板材优劣的判别。卷积神经网络将特征提取和分类过程结合来进行神经网络的训练,具有识... 目前民族乐器板材振动信号识别算法存在特征提取复杂且耗时长等缺点,针对此问题,提出了一种基于卷积神经网络的木材振动信号分类识别算法,实现了乐器板材优劣的判别。卷积神经网络将特征提取和分类过程结合来进行神经网络的训练,具有识别度高、鲁棒性好等优点。首先重点分析和讨论了提取木材振动信号的语谱图特征,然后应用卷积神经网络结合网格搜索的方法进行参数调优。为了防止过拟合,还应用了Re LU和dropout等新技术,得到最终分类结果。实验证明,测试样本准确率达到96%,明显优于传统方法。该方法可减小人工测量的误差,加快板材的选取时间,为民族乐器制造领域的选材提供了一种更加实用的方法。 展开更多
关键词 卷积神经网络 网格搜索 木材振动信号
在线阅读 下载PDF
基于深度学习的音乐情感识别 预览
7
作者 唐霞 张晨曦 李江峰 《电脑知识与技术:学术版》 2019年第4Z期232-237,共6页
随着互联网多媒体技术的发展,越来越多的音乐歌曲通过网络发布并存储在大型数字音乐数据库中。针对传统音乐情感识别模型音乐情感识别率低的问题,本文提出一种基于深度学习的音乐情感识别模型。该模型使用音乐信号特征语谱图作为音乐特... 随着互联网多媒体技术的发展,越来越多的音乐歌曲通过网络发布并存储在大型数字音乐数据库中。针对传统音乐情感识别模型音乐情感识别率低的问题,本文提出一种基于深度学习的音乐情感识别模型。该模型使用音乐信号特征语谱图作为音乐特征输入,使用卷积神经网络和循环神经网络相结合的方法对语谱图进行特征提取和情感分类。实验表明,相比于单独使用CNN、RNN等情感识别模型,该模型对音乐情感识别率更高,对音乐情感识别的研究具有重大意义。 展开更多
关键词 音乐情感识别 深度学习 卷积神经网络 循环神经网络
在线阅读 下载PDF
残差网络在婴幼儿哭声识别中的应用 预览
8
作者 谢湘 张立强 王晶 《电子与信息学报》 EI CSCD 北大核心 2019年第1期233-239,共7页
该文使用语谱图结合残差网络的深度学习模型进行婴幼儿哭声的识别,使用婴幼儿哭声与非哭声样本比例均衡的语料库,经过五折交叉验证,与支持向量机(SVM),卷积神经网络(CNN),基于Gammatone滤波器的听觉谱残差网络(GT-Resnet)3种模型相比,... 该文使用语谱图结合残差网络的深度学习模型进行婴幼儿哭声的识别,使用婴幼儿哭声与非哭声样本比例均衡的语料库,经过五折交叉验证,与支持向量机(SVM),卷积神经网络(CNN),基于Gammatone滤波器的听觉谱残差网络(GT-Resnet)3种模型相比,基于语谱图的残差网络取得了最优结果,F1-score达到0.9965,满足实时性要求,证明了语谱图在婴幼儿哭声识别任务中能直观地反映声学特征,基于语谱图的残差网络是解决婴幼儿哭声识别任务的优秀方法。 展开更多
关键词 婴儿哭声识别 深度学习 残差网络
在线阅读 免费下载
基于MATLAB语谱图的声乐研究 预览
9
作者 白燕燕 胡晓霞 《软件工程》 2019年第9期1-4,共4页
语谱图是一种在语音分析以及语音合成中具有重要实用价值的时频图,能反映出语音信号动态频谱特征,被认定是语音信号的可视语言。横坐标代表时间大小,纵坐标代表频率大小,时间和频率所对应的像素点的值表示能量值的大小。本文对一小段语... 语谱图是一种在语音分析以及语音合成中具有重要实用价值的时频图,能反映出语音信号动态频谱特征,被认定是语音信号的可视语言。横坐标代表时间大小,纵坐标代表频率大小,时间和频率所对应的像素点的值表示能量值的大小。本文对一小段语音信号和音乐信号进行处理,最终以语谱图的形式展现出来,并通过对语谱图的分析来判断语音信号和音乐信号,检测语音是否开始和结束,效果良好。这种方法容易区分语音信号中的有用声段和噪声声段。实验证明,纯语音信号频域能量和过零率变化要大于音乐信号。音乐信号较语音信号能量谱稳定。 展开更多
关键词 音分析 音合成 短时能量 过零率
在线阅读 下载PDF
基于Matlab的藏语语音频谱仿真和分析 预览
10
作者 卓嘎 次仁尼玛 《电子设计工程》 2019年第19期170-173,共4页
语谱图是语音信号处理过程中的重要参数之一,直观地反映语音信号的动态频谱特征。语谱图是将语音的时域信号转换成二维和三维图像信号的重要方法。介绍了语谱图的算法原理、关键技术和仿真流程,阐述了藏语辅音发音特征和拼读规律;采集... 语谱图是语音信号处理过程中的重要参数之一,直观地反映语音信号的动态频谱特征。语谱图是将语音的时域信号转换成二维和三维图像信号的重要方法。介绍了语谱图的算法原理、关键技术和仿真流程,阐述了藏语辅音发音特征和拼读规律;采集了藏语拉萨语辅音真人录音数据、在Matlab环境下进行了预处理、分帧、加窗和语谱图的绘制;分析了频谱分布情况,提取了辅音的基音、共振峰等藏语语音参数。研究结果对藏语语音声学分析、藏语语音合成和识别的研究具有一定的参考价值。 展开更多
关键词 辅音 傅里叶变换 基音 共振峰
在线阅读 下载PDF
基于CNN-LSTM网络的声纹识别研究 预览 被引量:1
11
作者 闫河 董莺艳 +2 位作者 王鹏 罗成 李焕 《计算机应用与软件》 北大核心 2019年第4期166-170,共5页
传统声纹识别方法过程复杂,模型识别准确率低,是声纹识别应用发展的关键问题。利用深度学习具有自主特征提取及分类的特点,结合卷积神经网络(CNN)和长短期记忆网络(LSTM),提出一种结合的网络模型学习声纹识别特征及对其进行身份认证。... 传统声纹识别方法过程复杂,模型识别准确率低,是声纹识别应用发展的关键问题。利用深度学习具有自主特征提取及分类的特点,结合卷积神经网络(CNN)和长短期记忆网络(LSTM),提出一种结合的网络模型学习声纹识别特征及对其进行身份认证。将原始语音转换为固定长度语谱图,顺序进入CNN、LSTM,结合网络进行训练以及声纹特征学习。通过对比CNN、LSTM以及DNN网络,验证CNN-LSTM网络在声纹识别中具有较少迭代次数情况下高准确率的特性。经实验结果可以得出,语音空间特征及时序特征均是声纹识别中重要的影响因素,实验中的CNN-LSTM网络模型准确率达到95.42%,损失低值达到0.097 3。该方法有利于实际声纹识别的应用。 展开更多
关键词 声纹识别 CNN-LSTM网络 时序特征
在线阅读 下载PDF
基于参数迁移和卷积循环神经网络的语音情感识别 预览
12
作者 缪裕青 邹巍 +2 位作者 刘同来 周明 蔡国永 《计算机工程与应用》 CSCD 北大核心 2019年第10期135-140,198共7页
在语音情感识别研究中,已有基于深度学习的方法大多没有针对语音时频两域的特征进行建模,且存在网络模型训练时间长、识别准确性不高等问题。语谱图是语音信号转换后具有时频两域的特殊图像,为了充分提取语谱图时频两域的情感特征,提出... 在语音情感识别研究中,已有基于深度学习的方法大多没有针对语音时频两域的特征进行建模,且存在网络模型训练时间长、识别准确性不高等问题。语谱图是语音信号转换后具有时频两域的特殊图像,为了充分提取语谱图时频两域的情感特征,提出了一种基于参数迁移和卷积循环神经网络的语音情感识别模型。该模型把语谱图作为网络的输入,引入AlexNet网络模型并迁移其预训练的卷积层权重参数,将卷积神经网络输出的特征图重构后输入LSTM(Long Short-Term Memory)网络进行训练。实验结果表明,所提方法加快了网络训练的速度,并提高了情感识别的准确率。 展开更多
关键词 深度学习 参数迁移 卷积循环神经网络 音情感识别
在线阅读 下载PDF
基于免疫遗传优化支持向量机的普米语孤立词语谱图分类 预览 被引量:1
13
作者 董华珍 潘文林 +3 位作者 王翠 和丽华 杨建香 解学琴 《云南民族大学学报:自然科学版》 CAS 2019年第1期100-104,共5页
基于免疫遗传优化支持向量机的普米语孤立词语谱图分类方法,首先利用短时傅里叶变(STFT)生成普米语孤立词语谱图;其次,提取普米语孤立词语谱图的二值特征;最后,利用免疫遗传优化支持向量机实现语谱图的分类.实验结果表明:普米语孤立词... 基于免疫遗传优化支持向量机的普米语孤立词语谱图分类方法,首先利用短时傅里叶变(STFT)生成普米语孤立词语谱图;其次,提取普米语孤立词语谱图的二值特征;最后,利用免疫遗传优化支持向量机实现语谱图的分类.实验结果表明:普米语孤立词语谱图分类预测准确率为88%~91%.基于免疫遗传优化支持向量机的语谱图分类比基于语音信号分类效果更好. 展开更多
关键词 普米 支持向量机(SVM) 免疫遗传算法(IGA) 2值特征
在线阅读 免费下载
基于语谱图的改进型LBP肺音识别 预览
14
作者 曹春雷 王双维 +2 位作者 吴颜生 柴宗谦 梁士利 《东北师大学报:自然科学版》 CAS 北大核心 2019年第1期81-85,共5页
为了准确区分各种肺音信号,获得更理想的肺音识别效果,提出了一种基于语谱图的改进型LBP肺音识别方法.首先通过短时傅里叶变换将肺音信号转化为灰度语谱图;其次利用改进后LBP算法计算语谱图的局部纹理关系,将局部二值模式特征进行级联... 为了准确区分各种肺音信号,获得更理想的肺音识别效果,提出了一种基于语谱图的改进型LBP肺音识别方法.首先通过短时傅里叶变换将肺音信号转化为灰度语谱图;其次利用改进后LBP算法计算语谱图的局部纹理关系,将局部二值模式特征进行级联构成特征向量;最后利用支持向量机对正常肺音和三类异常肺音信号进行识别分类.结果表明,该方法对不同肺音信号的识别率可达92.59%,为肺部疾病的医疗诊断提供了新的思路. 展开更多
关键词 肺音识别 改进型LBP算法 支持向量机
在线阅读 下载PDF
基于Praat的藏语连续语音参数提取仿真和分析 预览
15
作者 卓嘎 《电子技术与软件工程》 2019年第20期53-56,共4页
藏语语音信号处理是藏语语音实现人工智能化的关键技术之一。自然人的语音发音和直观判断与实际的发音规则存在一定的差异。客观地量化分析藏语连续语音中的特征参数,能够更客观更精确的反应语音的发音规律。介绍了Praat语音分析软件及... 藏语语音信号处理是藏语语音实现人工智能化的关键技术之一。自然人的语音发音和直观判断与实际的发音规则存在一定的差异。客观地量化分析藏语连续语音中的特征参数,能够更客观更精确的反应语音的发音规律。介绍了Praat语音分析软件及其在语音处理研究和语音教学中的应用;用Praat语音处理软件平台仿真和分析了藏语连续语音录音句子中的语音强度、语调、频谱特征、基音轨迹等声学参数,为藏语连续语音信号处理、藏语发音和听力教学提供参考依据。 展开更多
关键词 Praat 标注 基音轨迹
在线阅读 下载PDF
基于卷积神经网络的声学场景分类算法研究 预览
16
作者 赵薇 黄敬雯 +1 位作者 靳聪 徐陈缘 《中国传媒大学学报:自然科学版》 2019年第2期24-30,共7页
声学场景中包含着很多长时特征和短时特征。本文提取环境声的能量信息,批量生成声音场景的三维语谱图,作为卷积神经网络的输入。神经网络采用卷积层和下采样层重复交叠,整体网络采用六层网络结构,最终经过softmax方法进行多分类。实验采... 声学场景中包含着很多长时特征和短时特征。本文提取环境声的能量信息,批量生成声音场景的三维语谱图,作为卷积神经网络的输入。神经网络采用卷积层和下采样层重复交叠,整体网络采用六层网络结构,最终经过softmax方法进行多分类。实验采用DCASE2017竞赛数据集作为素材,对15类6300段音频进行训练测试,结果表明,语谱图特征与卷积神经网络相结合的算法能够很好的提取长时特征和短时特征,使得最终分类准确率较高,优于网站基线系统的分类结果。 展开更多
关键词 声学场景 卷积神经网络
在线阅读 下载PDF
基于深度循环网络的声纹识别方法研究及应用 预览 被引量:1
17
作者 余玲飞 刘强 《计算机应用研究》 CSCD 北大核心 2019年第1期153-158,共6页
声纹识别是当前热门的生物特征识别技术之一,能够通过说话人的语音识别其身份。针对声纹识别技术进行了研究,提出了一种基于卷积神经网络(CNN)和深度循环网络(RNN)的声纹识别方案CDRNN。CDRNN结合了CNN和RNN的优势,可用于移动终端声纹... 声纹识别是当前热门的生物特征识别技术之一,能够通过说话人的语音识别其身份。针对声纹识别技术进行了研究,提出了一种基于卷积神经网络(CNN)和深度循环网络(RNN)的声纹识别方案CDRNN。CDRNN结合了CNN和RNN的优势,可用于移动终端声纹识别。CDRNN将说话者的原始语音信息经过一系列的处理并生成一张二维语谱图,利用CNN长于处理图像的优势从语谱图中提取语音信号的个性特征,这些个性特征再输入到deep RNN中完成声纹识别,从而确定说话者的身份。实验结果表明了CDRNN方案能够获得比GMMUBM等其他方案更好的识别准确率。 展开更多
关键词 声纹识别 深度循环网络 卷积神经网络
在线阅读 下载PDF
基于时频域特征的场景音频研究 预览
18
作者 张勇 张溯 +2 位作者 王旭东 路阳 王臣 《吉林大学学报:信息科学版》 CAS 2018年第3期300-305,共6页
随着人们对于场景音频研究的逐渐深入,现有的分析方式由于存在不能完整反映音频的声学特性等弊端,已经无法满足人们的需求。基于时频域特征的分析方式可以很好地解决这一问题,即通过提取场景音频的语谱图,使待分析信号中包含的声学事件... 随着人们对于场景音频研究的逐渐深入,现有的分析方式由于存在不能完整反映音频的声学特性等弊端,已经无法满足人们的需求。基于时频域特征的分析方式可以很好地解决这一问题,即通过提取场景音频的语谱图,使待分析信号中包含的声学事件得到完整保留,使其表现得更加直观。语谱图中包含着丰富的纹理信息,选取不同窗长,可分别得到场景音频的宽带语谱图和窄带语谱图。对比实验表明,窄带语谱图可以更好的反映出待分析信号中所包含声学事件的趋势、连续性及分布特征。因此对场景音频进行时频域特征分析更适合使用窄带语谱图。 展开更多
关键词 场景音频 窗函数 窄带
在线阅读 下载PDF
基于声信号分析的开关柜局部放电检测算法研究 预览 被引量:3
19
作者 唐云辉 胡曦琳 《电子器件》 北大核心 2018年第3期644-648,共5页
有效检测高压开关柜故障是影响电网安全的因素之一。早期基于超声波检测的方法,存在设备昂贵,有效检测范围小的问题。为此,提出一种基于语谱特征的开关柜局部放电检测算法。算法首先计算放电声信号的语谱图,然后计算其2阶归一化中心矩;... 有效检测高压开关柜故障是影响电网安全的因素之一。早期基于超声波检测的方法,存在设备昂贵,有效检测范围小的问题。为此,提出一种基于语谱特征的开关柜局部放电检测算法。算法首先计算放电声信号的语谱图,然后计算其2阶归一化中心矩;并以此为特征,构建自编码深度学习网络,并通过稀疏化处理提高模型的识别能力。在开关柜局部放电检测实验中,所提的语谱特征有助于改善故障检测效率。相比于基于美尔倒谱特征的算法,放电检测识别率提高2.5%。结合深度学习网络算法后,识别率能达到99.8%。 展开更多
关键词 局部放电 深度学习网络 美尔倒特征
在线阅读 下载PDF
基于卷积特征提取与融合的语音情感识别研究
20
作者 张雄 刘蓉 刘明 《电子测量技术》 2018年第16期138-142,共5页
语音情感识别中,情感特征的选取是决定最终识别结果的关键因素。传统的谱特征来源于语谱图特征的再加工,存在因分帧处理引起相邻谱特征相关性被忽略以及谱特征与目标标签不相关的问题,导致语谱图部分特征信息丢失。为此,提出卷积特征与... 语音情感识别中,情感特征的选取是决定最终识别结果的关键因素。传统的谱特征来源于语谱图特征的再加工,存在因分帧处理引起相邻谱特征相关性被忽略以及谱特征与目标标签不相关的问题,导致语谱图部分特征信息丢失。为此,提出卷积特征与谱特征融合的语音情感识别方法。选用合适的卷积神经网络(CNN),从语谱图中自动提取隐含的、有效的情感特征,再融合语音情感统计学谱特征,构造多分类支持向量机(SVM)来识别不同的语音情感。在包含7种基础情感的柏林情感数据集上进行实验,获得86.4%的识别率,比传统谱特征方法高6.2%,提出的卷积特征提取与融合的方法能有效识别语音情感。 展开更多
关键词 音情感识别 特征 卷积神经网络 特征融合
上一页 1 2 6 下一页 到第
使用帮助 返回顶部 意见反馈
新型冠状病毒肺炎防控与诊疗专栏