基于语音存在概率的语音活动检测方法

【论文关键词】语音增强 语音活动检测 语音存在概率 【论文摘要】首先总结了几种常见的语音活动检测(VAD)方法,然后从计算每帧每个频率点的语音存在概率出发,提出了一种新的VAD方法,并就其中的一些参数选择问题进行了讨论。最后给出新方法与传统方法实验结果对比。
阅读技巧Ctrl+D 收藏本篇文章
  

  【论文关键词】语音增强 语音活动检测 语音存在概率

  【论文摘要】首先总结了几种常见的语音活动检测(VAD)方法,然后从计算每帧每个频率点的语音存在概率出发,提出了一种新的VAD方法,并就其中的一些参数选择问题进行了讨论。最后给出新方法与传统方法实验结果对比。

  1引言

  日常生活中,人们说话有间隙,有必要对一段语音进行检测,以确定哪些时间上是有语音,哪些时间上没有语音。在语音编码中,语音活动检测(Voice ActivityDetection,VAD)用来区分有语音段和无语音段。如果一段时间被判断为无语音段,则不需对其编码。这样可减少信道带宽的占用,使有限的带宽得到合理使用。在语音增强中,VAD用来判断一段时间上是否存在语音。如果某段时间内不存在语音,那么这段时间就只有噪声存在,因此可以被用来估计和更新噪声功率谱。在语音增强领域,VAD的性能往往直接影响到最后的结果。因为目前多数的语音增强算法必须对噪声功率谱进行估计,如果噪声功率谱估计不准确,就会导致最后的增益函数估计不准确。准确的噪声功率谱估计须建立在准确的纯噪声段判断的基础上。

  笔者提出了一种新的VAD方法,这种方法建立在每帧每个频率点的语音存在概率的基础上。根据概率大小判断是否存在语音。

  2语音存在概率估计

  为进行VAD,首先对每帧每个频率点进行语音存在概率估计,该估计大致分为两步:(1)估计是否存在强语音成分;(2)估计语音不存在概率和语音存在概率。含噪语音由纯净语音和噪声叠加而成,所以假设

  Y(k,l)=X(k,l)+D(k,l)(1)

  其中,Y(k,l)为含噪信号,X(k,l)为纯净语音,D(k,l)

  为噪声,k为某一帧的频率点编号,l为帧编号。

  2.1估计是否存在强语音成分

  含噪语音中某些地方会有明显的语音存在,由于后面估计语音不存在概率需要用到相邻帧的信息,所以强语音成分存在会严重影响到语音不存在概率估计。因此有必要先对某帧是否存在强语音进行判断,如果是,那么在下面的语音不存在概率估计过程中将不会用到此帧的信息。

  对于含噪信号,要进行两次平滑,一次是帧内平滑,一次是帧间平滑。首先进行帧内平滑

  

  其中,αs为平滑参数且0<αs<1。然后搜索D帧中各频率点的最小值,即Smin(k,l)=min{S(k,l′)|l-D+1≤l′≤l}(4)根据文献[1]可找到Bmin,满足E{Smin(k,l)}=B-1min·λd(k,l)(5)也就是说可通过一个补偿因子Bmin估计出当前帧的噪声功率谱。定义

  的计算用到了I(k,l),排除了强语音存在的频率点。再进行帧间平滑

  

  然后同前面估计是否存在强语音成分一样,进行区间最小值搜索

  

  定义

  l )=E{D(k,l)2}。由于按照式(13)计算语音存在概率需要估计先验信噪比ξ和后验信噪比γ,如果估计不准确,必然导致VAD结果不准确。故这里对此进行简化,直接用1减去q(k,l)作为语音存在概率p(k,l)。

  3利用语音存在概率进行VAD

  3.1检测指标计算

估计出语音存在概率后,还不能直接用来进行VAD,因为这些概率是针对每一个频率点的,需要将这些信息转换为某一帧的评价量。通过对语音存在概率随时间和频率点分布的观察,发现有2项指标可被用来比较准确地辨别出有声段和无声段,分别是

  

  其中,pt为某一帧所有频率点的语音存在概率之和,pe为某一帧上语音存在概率为1的所有频率点个数,M为有频率点数。但是,实验表明,这两个参数虽然总体上可以看出哪些是无声段哪些是有声段,但起伏可能非常剧烈,所以需要进行平滑处理。设定

  

  其中,采用了当前帧前面4帧的数据进行平滑。

毕业论文搜集整理:毕业论文网 毕业论文 论文网

联系方式
微信号 byLw8com
14705193098 工作日:8:00-24:00
周 日:9:00-24:00