如何用kaldikaldi 训练好的模型型做特定任务的在线识别

本文来自: ,转载请保留出处!
本文链接: caffe 训练 vgg16_
手机配件资讯导航如何用kaldi训练好的模型做特定任务的在线识别_百度知道
如何用kaldi训练好的模型做特定任务的在线识别
我有更好的答案
天平秤.用环氧树脂浇注零件.开模。 4。浇注过程简言之有以下几个过程: 1.制作模子,所用材料可以是硅胶或石膏。用到工具有烘箱、固化剂.制作原件,所用材料可以是有机玻璃或ABS材料。 2。用到工具有真空泵(不用真空泵做出来会有气泡)。 3,前者浇注效果佳,并且常用其浇注模型制作树脂模型主要用到环氧树脂
采纳率:87%
为您推荐:
其他类似问题
换一换
回答问题,赢新手礼包
个人、企业类
违法有害信息,请在下方选择后提交
色情、暴力
我们会通过消息、邮箱等方式尽快将举报结果通知您。  摘 要:关键词检测是从连续语音流中检测预先定义的给定词的技术,是语音识别领域的一个重要应用。目前的关键词检测研究中,主" />
免费阅读期刊
论文发表、论文指导
周一至周五
9:00&22:00
基于非均匀MCE准则的DNN关键词检测系统中声学模型的训练
  摘 要:关键词检测是从连续语音流中检测预先定义的给定词的技术,是语音识别领域的一个重要应用。目前的关键词检测研究中,主流的方法是基于连续语音识别器的先识别后检测的两阶段方法,语音识别器的准确率对关键词检测有很大影响。本文首先在识别阶段引入深度学习技术来改善关键词检测算法的性能。进而针对识别阶段和检测阶段缺乏紧密联系,耦合度不够的问题,研究了侧重关键词的深度神经网络声学建模技术,利用非均匀的最小分类错误准则来调整深度神经网络声学建模中的参数,并利用AdaBoost算法来动态调整声学建模中的关键词权重。结果表明,利用非均匀最小分类错误准则来调整深度神经网络参数进行优化的声学模型,可以提高关键词检测的性能。 中国论文网 http://www.xzbu.com/8/view-7212310.htm  关键词:深度学习;关键词检测;AdaBoost;最小分类错误   中图分类号:TP391.4 文献标识码: A 文章编号:(2015)04-   Non-uniform MCE based Acoustic Model for Keyword Spotting based on Deep Neural Network   WANG Zhaosong, HAN Jiqing, ZHENG Tieran   (School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001,China)   Abstract: Spoken term detection (STD) is a task to automatically detect a set of keywords in continuous speech, which is an important field of speech recognition. Current study is based on two-stage approach i.e. recognition and detection. The accuracy of speech recognition has a significant impact on keyword detection. Firstly, this paper uses deep leaning techniques to improve performance during the first stage. As the two stages lack of close contact, the paper studies using non-uniform misclassification error (MCE) criteria to adjust the parameters in deep neural network based acoustic modeling. Further the paper uses the adaptive boosting (AdaBoost) strategy to adjust keywords’ weight dynamically. It shows that non-uniform MCE can improve the performance of STD.   Keyword: Deep Learning; Spoken Term Detection; AdaBoost; Minimum Classification Error   0 引 言   自2006年以来,深度学习已经成为机器学习的一个重点研究领域,而且现已在许多方面取得了卓越进展。而在语音识别领域,基于深度学习的方法也随即应用而生,特别是在声学建模上,深度神经网络(Deep Neural Network, DNN)已经能够替代高斯混合模型(Gaussian Mixture Model, GMM),并和隐马尔科夫模型(Hidden Markov Model, HMM)结合而推出了DNN-HMM混合模型,在实际应用中取得了很高的识别率[1]。当前的关键词检测(Spoken term detection, STD)系统通常是利用大词汇量连续语音识别器(large vocabulary continuous speech recognition, LVCSR)来对搜索语音解码产生关键词假设,再通过将输入语音转换为文本形式;基于此,关键词检测系统就可以利用文本搜索的一些技术,但其与文本搜索不同的则是关键词检测多会利用lattice来表示语音识别结果[2-3]。在语音识别中,常常都是采用不同的区分性训练准则来减小语音识别的词错误率(Word Error Rate, WER),著名的区分性训练准则主要有MCE(Minimum Classification Error)[4]、MMI(Maximum Mutual Information)[5]、MPE(Minimum Phone Error)[6]和MWE(Minimum Word Error)[6]。   在关键词检测任务中,关注的重点只是预定义的关键词是否被检测到。至于与目标关键词无关的词,针对其所获的检测结果却并不重要。Fu等人提出利用非均匀MCE准则,并开展了运用至语音识别中的尝试[7-8]。Weng等人针对传统GMM-HMM模型利用非均匀MCE准则来推进关键词检测的研究,也就是通过在声学建模阶段利用非均匀MCE准则来进行区分性训练,提高了关键词检测系统的性能[9]。研究表明,区分性训练可以改善DNN系统的性能[10]。Chen等人在非均匀准则的基础上,利用基于keyword-boosted sMBR(state-level minimum Bayes risk)准则来训练关键词检测中的DNN-HMM模型,同时再通过在声学模型训练阶段对定义的关键词进行加重来提高模型对关键词的建模能力,结果即取得了ATWV(Actual Term Weighted Value)1.7%-6.1%的提升[11]。
  在此,立基于对传统GMM-HMM模型之上,相较于非均匀sMBR准则而言,非均匀MCE准则能够利用AdaBoost来调整关键词权重系数,而非均匀sMBR准则的权重系数却是固定的,因而非均匀MCE准则要比非均匀sMBR准则获得更佳效果[12]。从这一结论出发,本文即将文献[9]中所提出的非均匀MCE准则引入到关键词检测的DNN声学建模阶段,在DNN的参数调整过程中,通过对关键词进行一定程度的侧重来提高DNN-HMM模型对关键词的建模能力。   1 基于非均匀MCE准则的关键词DNN声学模型训练   1.1 DNN-HMM声学模型   DNN-HMM模型利用DNN替代GMM提供LVCSR中HMM状态的后验概率。特别的, 表示语句r时刻t的观测变量,DNN对HMM状态s的输出 可以通过softmax激活函数来计算:   (1)   其中, 表示状态s对应的输出层的激活值,识别器通常利用伪对数似然来计算后验概率:   (2)   式中, 表示从训练数据中计算得到的状态s的先验概率。   网络训练可以通过利用反向传播算法来优化给定的目标函数而获得实现。更经常地,DNN-HMM声学模型主要利用交叉熵(cross-entropy)作为目标函数,优化则主要利用随机梯度下降方法来进行处理和操作展开。   1.2 基于MCE准则的区分性训练   区分性训练中,MCE训练准则是常用的一种。该准则以最小化经验错误率为目标[4],在语音识别中,令Xr(r=1,…R)为训练集中的R个句子,Wr为句子Xr所对应的标注,W是特定的假设空间,对某个假设W的判别函数可以定义为:   (3)   其中, 和 分别表示声学模型和语言模型得分, 表示声学模型因子,误分类度量通常采用:   (4)   误分类度量的符号反映了给定声学模型参数,句子 的分类正确或者错误程度。经过对上式运用sigmoid函数进行平滑,目标损失函数可以表示为:   (5)   其中, 表示sigmoid函数,目标函数表示针对训练集的经验损失。   1.3 关键词检测的非均匀MCE准则   非均匀准则的区分性训练是基于某些识别单元可能比其他单元携带更多重要信息的假设[9],其目标不是最小错误率而是最小错误损失,最小错误率不区分不同的错误。训练过程中的关键词识别错误比非关键词识别错误代价更大。   在DNN系统中,对某一帧t,定义帧级判别函数为:   (6)   其中,i是状态编号, 是给定Xr和假设标签W的后验概率,研究中只关注关键词是否在标签或假设中出现,定义错误损失函数 为语句r在时刻t的损失,关键词检测的非均匀MCE准则的目标函数为:   (7)   为了对公式(7)进行优化,同时与普通的MCE准则进行对比,并推导出非均匀MCE与普通MCE准则优化的不同,进而采取有效的方法来优化非均匀MCE准则的目标函数,即对公式(7)进行求导:   (8)   其中, 分别表示标注和假设的帧后验概率,将非均匀MCE准则的导数与原来的MCE准则进行对比,实际使用中,为了便于计算,通常令 并忽略 ,具体公式为:   (9)   可以看到,非均匀MCE与普通的MCE方法的一个区别是 ,普通MCE对单个句子是不变的。另一个区别是非均匀的错误损失函数 ,错误损失函数是加在每一帧上的,为了便于计算非均匀MCE目标函数并有效优化参数,在此采用了普通MCE的固定值而不是变化值,目标函数近似为:   (10)   错误损失函数定义为:   (11)   其含义是,如果当前训练实例的标注是关键词,错误损失定义为K1;若对当前训练实例,关键词出现在假设中错误损失定义为K2;当关键词既未出现在标注又未出现在假设空间时,错误损失定义为1。K1、K2应该都大于1,这样在模型训练阶段才可以对关键词进行侧重。   公式(11)中的错误损失函数在不同的迭代中对同一帧赋予相同的错误损失,当使用较大的错误损失时可能会导致过训练。与普通的MCE相比,非均匀的MCE相当于对每一帧根据 进行了重采样,因此,可以考虑采用基于boosting的方法。AdaBoost方法在每次迭代时均会根据错误率调整错误损失[13],因此可以将AdaBoost方法运用到非均匀MCE准则中。训练启动时会使用较大的K1和K2来初始化错误损失函数,这些值会根据识别器的性能进行调整[9]。具体算法总结如算法1所示。   2 实验结果与分析   本文设计了一系列的实验来研究前述的非均匀MCE准则的DNN声学模型区分性训练,主要研究不同的K1、K2值对关键词检测系统性能的影响。   本实验所使用的语料库来自于国家863朗读语料库,其中约100个小时的数据用来训练DNN-HMM模型的识别器,约10个小时的数据用作关键词检测的搜索集。实验的基线系统由开源的语音识别工具Kaldi建立[14],关键词检测系统的评测利用NIST OpenKWS15提供,关键词检测系统的评价主要通过ATWV来计算[15-16],其数学描述如下:   (12)   其中,K是关键词数目,Nmiss(kw)是漏检的关键词数,NFA(kw)是检测到的虚警数,T是测试集的时间长度(以秒计),β是为999.9的常数。   本文进行了非均匀MCE准则的训练,迭代次数为4,不同的K1、K2和 下系统ATWV值如表1所示。分析可知,较大的K1和K2可以取得较高的性能,但衰减因子 会导致波动。   表1 基于非均匀MCE准则关键词检测实验结果
  Tab.1 Results of non-uniform criteria based STD   方案 K1 K2   ATWV   基线(MLE) - - - 0.615 3   AdaBoost非均匀MCE准则 5 5 0.3 0.726 5   5 5 0.5 0.723 7   5 5 0.7 0.721 3   7 7 0.3 0.727 6   7 7 0.5 0.726 8   7 7 0.7 0.727 3   3 结束语   本文在DNN声学模型的参数训练阶段,通过利用非均匀的MCE准则对关键词进行侧重,由此提高了DNN-HMM模型对关键词的建模能力。采用AdaBoost算法,可以解决过训练的问题。研究结果表明,非均匀MCE方法相比基线系统可以提高关键词检测的性能。本文用不同的组合(K1,K2, β)来进行实验,并测试不同配置下的性能。错误损失函数中K1、K2的取值越大,系统性能越好,而β取较大值时,系统会出现波动。此外,较小的β值则具有较好的效果。接下来的工作可以研究衰减系数β对关键词检测系统的作用,并且可以尝试使β进行自适应调整而不再是使用固定值。   参考文献:   [1] HINTON G, DENG L, YU D, et al. Deep Neural Networks for Acoustic Modeling in Speech Recognition: The Shared Views of Four Research Groups[J]. Signal Processing Magazine IEEE, 2012, 29(6):82 - 97.   [2] MILLER D, KLEBER M, KAO C, et al. Rapid and accurate spoken term detection[J]. Proc. Interspeech, 2007, 3:1965 - 1968.   [3] National Institute of Standards and Technology (NIST). The spoken term detection (STD) 2006 evaluation plan [J]. http://www.nist.gov/speech/tests/std,2006. 10 edition   [4] JUANG B, HOU W, LEE C. Minimum classification error rate methods for speech recognition[J]. IEEE Trans on Speech & Audio Proc, 1997, 5(3):257 - 265.   [5] BAHL L, BROWN P F, De SOUZA P V, et al. Maximum mutual information estimation of hidden Markov model parameters for speech recognition[J]. Acoustics Speech & Signal Processing IEEE International Conference on Icassp, 1986, 11:49 - 52.   [6] DANIEL P. Discriminative training for large vocabulary speech recognition [D]. Cambridge:University of Cambridge, 2003.   [7] FU Q, MANSJUR D S, JUANG B H. Non-Uniform error criteria for automatic pattern and speech recognition[C]// Acoustics, Speech and Signal Processing, 2008. ICASSP 2008, IEEE International Conference on. Las Vegas: IEEE,
- 1856.   [8] FU Q, MANSJUR D S, JUANG B. Empirical System Learning for Statistical Pattern Recognition With Non-Uniform Error Criteria[J]. Signal Processing IEEE Transactions on, 2010, 58(9):4621 - 4633.   [9] WENG C, JUANG B, WENG C, et al. Adaptive boosted non-uniform mce for keyword spotting on spontaneous speech[C] //IEEE International Conference on Acoustics, Speech & Signal Processing, Vancouver:IEEE,
- 6964.   [10] GHOSHAL A, POVEY D. Sequence discriminative training of deep neural networks[J]. ProcInterspeech, 2013, (8):2345 - 2349.   [11] CHEN I, CHEN N, LEE C. A keyword-boosted sMBR Criterion to enhance keyword search performance in deep neural network based acoustic modeling[J]. Interspeech,2014, (9):.   [12] WENG C, JUANG B H F. Discriminative training using non-uniform criteria for keyword spotting on spontaneous speech[J]. Audio Speech & Language Processing IEEE/ACM Transactions on, 2015, 23(2):300 - 312.   [13] FREUND Y, SCHAPIRE R E. Experiments with a New Boosting Algorithm[J]. Proceedings of the Thirteenth International Conference on Machine Learning, 1996, 96:148 - 156.   [14] POVEY D, GHOSHAL A, BOULIANNE G, et al. The Kaldi speech recognition toolkit[C]// Automatic Speech Recognition and Understanding(ASRU), IEEE Workshop on. Hawaii: IEEE,
?C 178.   [15] NIST Open Keyword Search 2015 Evaluation (OpenKWS15)[EB/OL].http://www.nist.gov/itl/iad/mig/openkws15.cfm.   [16] WEGMANN S, FARIA A, JANIN A, et al. The TAO of ATWV: Probing the mysteries of keyword search performance[C]// Automatic Speech Recognition and Understanding (ASRU), IEEE Workshop on. Olomouc:IEEE,
转载请注明来源。原文地址:
【xzbu】郑重声明:本网站资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有,如有不愿意被转载的情况,请通知我们删除已转载的信息。
xzbu发布此信息目的在于传播更多信息,与本网站立场无关。xzbu不保证该信息(包括但不限于文字、数据及图表)准确性、真实性、完整性等。Kaldi集成TensorFlow,两个开源社区终于要一起玩耍了Kaldi集成TensorFlow,两个开源社区终于要一起玩耍了雷锋网百家号雷锋网AI科技评论按:自动语音识别(Automatic speech recognition,ASR)领域被广泛使用的开源语音识别工具包 Kaldi 现在也集成了TensorFlow。这一举措让Kaldi的开发者可以使用TensorFlow来部署他们的深度学习模块,同时TensorFlow的用户也可以更为方便地使用Kaldi的各种经验。一、传统ASR有哪些问题?建立一个可以在各种语言、口音、环境和对话类型中理解人类语言的ASR系统,是一项非常复杂的任务。传统的ASR系统是将许多单独的模块集成一个流水线,其中每个模块都在前一个模块的输出上进行。原始音频数据从一端进入,然后从另一端输出识别语音转录内容。典型的基于统计模式识别方法的语音识别系统一般会由信号处理及特征提取模块、声学模块、发音词典、语言模块和解码器等组成。在Kaldi工具包中,为了支持越来越多的终端用户应用程序,集成了更多的模块。在过去几年里,随着深度神经网络的发展,许多现有的ASR模块都被深度神经网络所取代,这种取代使得单词识别精度得到很大的提高。但是在开发生产级的ASR系统时,仍然有许多问题需要克服:算法——深度学习算法在一些问题,例如声学环境(噪声)、特定语言发音、词汇范围等方面能够给出非常好的结果,但部署的过程中并不总是能很好的适应;数据——构建不同语言、不同声学环境的ASR系统需要大量的多种类型的数据,但我们可能没有恰好需要的这种数据。规模——一般能支持大量使用和许多种语言的ASR系统,通常会耗费大量的计算。我们以ASR系统中的语言模块来说。语言模块是大多数先进的ASR系统的关键部分,他们主要依靠统计模型来揭示语言单元的内在统计规律,为整个系统提供了语言背景,有助于预测正确的单词序列,并且能够区分听起来相似的单词。随着近来机器学习方面的突破,语音识别开发人员正在使用基于深度学习的语言模型,被称为神经语言模型。这种神经语言模型的结果相比传统统计方法有显著的提升。但神经语言模型的训练和部署都是极为复杂且非常耗时的。二、将 TensorFlow 集成到 Kaldi 中总部位于西雅图的IntelligentWire公司是一家通过云软件来弥合实时手机通话和业务应用之间差距的公司。他们的目标就是将企业代表与客户进行的数千次对话内容实时分析和处理,并自动处理数据输入和响应请求等任务。为了使ASR系统在这种情况下有用,就必须保证它能以非常低的延迟、提供非常准确的转录,并且计算规模不能很大以有效地支持数千个并发对话。在这种需求下,IntelligentWire公司的Yishay Carmiel和Hainan Xu带领的两支团队意识到这些困难,并共同合作完成了Kaldi和TensorFlow的集成。将TensorFlow集成到Kaldi后,他们对ASR的开发周期减少了一个数量级。例如上面所说的语言模块,如果将TensorFlow应用到这个模块,那么从模型道概念验证可能只需要几天,而不是几个星期;对于整个ASR系统,开发周期也从几个月减少到了几个星期。此外,TensorFlow的集成也使Kaldi所需要的数据大为简化。将TensorFlow作为一个模块集成到Kaldi中,对于Kaldi研发人员来说,好处是巨大的。同样的,这种集成也让TensorFlow的开发人员能够轻松地访问强大的ASR平台,并且能够将现有的语音处理流程(如Kaldi强大的声学模型)纳入到机器学习应用程序中。Kaldi中的那些用于培训TensorFlow模型的模块可以不影响整体地进行替换,这对于扩展极为方便。此外,现在已经用到生产中的Kaldi系统可以用来评估这个集成模型的质量。我们希望Kaldi-TensorFlow的集成能够将这两个充满活力的开放源码的开发社区更加贴近,共同支持各种新的基于语言的产品和研究的突破。雷锋网注——集成模型代码:https://github.com/kaldi-asr/kaldi示例:https://github.com/kaldi-asr/kaldi/tree/master/egs/ami/s5/local/tfrnnlm本文为雷锋网根据谷歌开发者Raziel Alvarez的博客《Kaldi now offers TensorFlow integration》整理而成,Alvarez是谷歌的研究工程师,IntelligentWire的创始人。本文仅代表作者观点,不代表百度立场。系作者授权百家号发表,未经许可不得转载。雷锋网百家号最近更新:简介:雷锋网——关注智能与未来!作者最新文章相关文章

我要回帖

更多关于 kaldi 训练好的模型 的文章

 

随机推荐