1、声音是一种波,能被人耳听到,它的振动频率在20~20 000 Hz之间。

2、语音产生的过程

语音的形成过程:空气由肺部排入喉部,经过声带进入声道,最后由嘴辐射出声波,形成语音。
3、声音的分类(概念:理解+记忆)

浊音:声带绷紧,气流通过时会使得开口变成一开一闭的周期性动作,造成周期性的激发气流,如a,o;

      (由声带震动产生的音),包括所有的元音和一些辅音。

清音:声带完全舒展,声道某部位收缩形成一个狭窄的通道,产生空气湍流,如t,d;

  (不由声带震动产生的音)

爆破音:声带完全舒展,声道的某部位完全闭合,一旦闭合点突然开启,空气压力快速释放,如b,p。
4、语音的两个重要声学特性——基音频率和共振峰(记忆)

基音频率(F0):由声带的尺寸、特性和声带所受张力决定,其值等于声带张开和闭合一次的时间的倒数(此处去掉就是基音周期的定义)。人类基音频率的范围在80~
500 Hz左右。

共振峰(Fn , n=1,2,...):声道是一个谐振腔,它放大声音气流的某些频率分量而衰减其他频率分量,被放大的频率我们称之为共振峰或共振峰频率。

5、共振峰特性:(理解)

共振峰是声道的重要声学特性。声道对于一个激励信号的响应,可以用一个含有多对极点的线性系统来近似描述。每对极点都对应一个共振峰频率
。这个线性系统的频率响应特性称为共振峰特性,它决定信号频谱的总轮廓,或称谱包络。

语音的频率特性主要是由共振峰决定的。而声道的共振峰特性决定所发声音的频谱特性,即音色。 

元音的音色和区别特征主要取决于声道的共振峰特性。共振峰特性可以从语音信号频谱分析得到的幅频特性观察到。

6、完整的语音信号产生的数字模型:(会画图+解释各部分模型原理特点)

我们可将语音信号看成准周期序列或随机噪声序列作为激励的线性非移变系统的输出,此模型可分为三个部分:激励模型、声道模型、辐射模型

语音信号完整的数字模型(重点)

  一、激励模型

    a.浊音激励:气流在通过绷紧声带时,冲激声带产生振动,使声门处形成周期性的脉冲串,并用它去激励声道。

      由于脉冲串类似于斜三角形的脉冲,故以基音周期为周期的单位取样序列串作为激励

    b.清音激励:声带松弛而不振动,气流通过声门直接进入声道。

      由于发清音时,声道被阻碍形成湍流,可将激励模拟成随机白噪声

  二、声道模型

    a.声管模型:将声道视为由多个不同截面积的管子串联而成的系统

    b.共振峰模型:声道视为一个谐振腔,共振峰就是这个腔体的谐振频率

      级联型

        适用于一般单元音,认为声道是一组串联的二阶谐振器,用一个全极点模型

      并联型

        适用于非一般元音及大部分辅音,发这些音时发音腔体具有反谐振特性,必须在模型中加入零点以减弱谐

        振强度,故要考虑用零极点模型

      混合型

        我们可以根据发音的需要自动切换串联或并联通路,此外并联部分还有一条直通路径,其幅度控制因子为AB

        这是专为一些频谱特性较为平坦的音素如[f]、[p]、[b]而考虑的,以增强反谐振特性

  三、辐射模型

在发音腔道内形成的气流经由嘴唇端辐射出来到达听者耳朵的这段过程,声音信号会衰减,而且有高通滤波的特性

常用一个一阶的数字高通滤波器来模拟

模型总结:

1. 
此模型并非最完备的模型,因为它对一些音是不适用的如浊音中的摩擦音,这种音要有发浊音和清音的两种激励,而不是简单的叠加关系,对这些音我们可用更精确的模型来模拟。 

2.  语音产生的数字模型中增益控制(对Av或AN)代表了输出语音的音响强度;

时变线性系统主要用来模拟声道的特性;

3.   数字语音处理中两个基本问题,即语音分析和语音合成,都是基于这个模型来实现的;

4.   此数字模型的特点:

系统参数固定不变——短时分析;

全极点性质——零点可由多个极点逼近;

激励源和声道互相独立——适用于大多数数字语音处理。

7、窄频带、宽频带语谱图定义、特点(深刻理解)

语谱图:即语音信号的频谱图,语谱图的横坐标是时间,纵坐标是频率

窄频带语谱图:语谱图的产生是用傅里叶转换,当我们用较长的分析窗口(约20ms,对应频宽约为45 Hz)时,得到的频率分辨率较高,频谱上可以看到谐振的成分。
在语谱图上呈现等距的黑白相间横线条,其间距就是基频(F0)。

宽频带语谱图:若是在转换演算时用较少的取样点(分析窗口大约3ms ,对应频宽约300 Hz)则频谱上看不到谐振成分,
在语谱图上看不到等距的黑白相间。频率分辨率较低,反而是时轴上的分辨率较高,看到明显的垂直线条。

共振峰:

在频域上,能量集中处就是共振峰之所在,在语谱图上就是颜色较深的位置。

在发元音时,音强较大,声带振动而呈现出基频及其谐振频率,也可以明显看到共振峰,能量集中在低频。

如果是发辅音,而且声带不振动,就看不到谐振频率。通常辅音的音强小,颜色看来就比较淡,而且能量较集中在高频。

若是在没有语音的空档,则语谱图上呈现的,就是有一段空白。

技术
©2019-2020 Toolsou All rights reserved,
[RK3399][Android7.1] 学习笔记 DRM驱动程序开发(介绍)mysql 修改主键python 动态规划求解单源最短路径415状态码到后台错误(精华)2020年8月15日 redis数据库 StackExchange.Redis中Set类型(C#版)Golang数组平分,数组拆分,数组分组用PyMC3进行贝叶斯统计分析(代码+实例)BugkuCTF-Web-计算器(随机数字运算验证码)Go语言 数组初始化和基本操作(精华2020年6月2日更新) TypeScript函数详解