语音处理

语音处理，又称语音讯号处理、人声处理。其目的是希望做出想要的讯号，进一步做语音辨识，应用到人机介面甚至一般生活中，使人与电脑连进行沟通。

语音讯号的来源

人声是由于声带震动，而产生声音。当运动肌肉挤压，使肺脏中的空气通过声带时，空气流动使得声带做周期性的震动，又再一次震动了空气，接著，带著动能的空气离开气管到达口腔或鼻腔，在腔室中震动，最后离开在嘴唇传到人耳变成声音。
若调整口腔中舌头的位置，会产生不同种类的声音，如果舌头没有做太多的动作，空气只有在口腔中共振，接著直接流出嘴唇，会产生母音，若提起舌头，使口鼻腔相通，则会出现鼻音。
下图是人体发声的示意图，人声的讯号产生器(power supply)就是肺脏(lung)，而解调器(modulator)是声带，接著传到咽喉(pharynx)，口鼻腔。

此为结合讯号处理架构及生理结构做出的模型图

此为结合讯号处理架构及生理结构做出的模型图

语音讯号分类

从中文的观点来说，声音仍可分为子音与母音，母音和子音可以用两种方式区分，
(1)发声方式：一般而言，母音跟嘴唇形状有关，而且不与鼻腔共振。相对而言，在发出子音时，就会运用到鼻腔配合发声。
(2)频谱分析：从频谱上观察可以发现子音的讯号频率较高，持续时间较短，且会在母音之前出现。而母音的频率较低，持续时间较长，在子音后或独立出现，另外，母音的能量也会比子音大。
下面列出中文注音符号中的母音、子音及其拼音。
母音：ㄚㄛㄜㄝㄞㄟㄠㄡㄢㄣㄤㄥㄦ一ㄨㄩ

母音	ㄚ	ㄛ	ㄜ	ㄝ	ㄞ	ㄟ	ㄠ	ㄡ
汉语拼音	a	o	e	e	ai	ei	ao	ou
通用拼音	a	o	e	e	ai	ei	ao	ou
母音	ㄢ	ㄣ	ㄤ	ㄥ	ㄦ	一	ㄨ	ㄩ
汉语拼音	an	en	ang	eng	er	i,y	u,w	yu,ju
通用拼音	an	en	ang	eng	er	i,y	u,w	yu,ju

子音：ㄅㄆㄇㄈㄉㄊㄋㄌㄍㄎㄏㄐㄑㄒㄓㄔㄕㄖㄗㄘㄙ

子音	ㄅ	ㄆ	ㄇ	ㄈ	ㄉ	ㄊ	ㄋ
汉语拼音	b	p	m	f	d	t	n
通用拼音	b	p	m	f	d	t	n
子音	ㄌ	ㄍ	ㄎ	ㄏ	ㄐ	ㄑ	ㄒ
汉语拼音	l	g	k	h	j	q	x
通用拼音	l	g	k	h	j	q	x
子音	ㄓ	ㄔ	ㄕ	ㄖ	ㄗ	ㄘ	ㄙ
汉语拼音	zh	ch	sh	r	z	c	s
通用拼音	zh	ch	sh	r	z	c	s

语音的架构

要分析与音讯号前，必须先了解其架构，语音的要素从小到大分别是：

音素→音节→词汇→句子→整段话
音素是声音的最小单位，例如“呵”这个字的音素，就是“ㄏ”和“ㄜ”，但是音素和注音符号并不相等，例如“鸥”虽然只有“ㄡ”这个母音，但是由于是双母音，所以会把他拆成两个音素。音节在中文而言，就是只一个字，例如：“天天开心”就有四个音节。词汇是文字组成的有意义片段，各种不同的词汇集结成句子，最后变成整段话，这就是语音的架构。

语音处理方法

用麦克风或其他装置收到的类音声音讯号，经由类比数位转换装置，将资料数据化进行处理，最后再经过数位类比转换装置输出。因此，我们在处理时是针对数位讯号，语音讯号是一种离散时间讯号。其讯号处理流程入下

收取并取样讯号：利用麦克风或各种收音装置，收取类比语音讯号，再用ADC装置(如类比数位转换卡)把类比讯号变成数位讯号，接著根据奈奎斯特理论作取样，若不符合理论则会造成讯号失真。
量化及编码：由于电脑中的记忆都是0和1，因此要将所收到的数据用一段适合的0跟1去储存，这个动作就称为量化，所使用的0与1越多，所需的记忆体越多。接著利用编码器将数值以波形呈现，因此虽然是数位讯号，但是在电脑中所见到的是类比。
讯号标准化：将语音讯号标准化，使其数值都落在同一个范围。
音框选择：由于语音讯号是一段很长的讯号，因此会针对想要处理的部分取音框。
端点侦测：端点侦测的目的是使讯号处理的范围更精确，只要设定一个音量阀值，若讯号小于阀值，则将其视为没讯号，但是若杂讯过高，则会产生误差。
去杂讯：由于杂讯多集中在高频的部分，因此利用简单的高频滤波器，就可以去掉部分杂讯。

基本处理方法

语音讯号是属于离散时间系统，因此会用离散时间的傅立叶转换去做处理，除此之外，convolution，window function都是一定会使用到的处理方法。

离散时间傅立叶转换

x[n]={\frac {1}{2\pi }}\int \limits _{-\pi }^{\pi }X(\omega )e^{-j\omega n}\,d\omega .

X(\omega )=\sum _{k=0}^{N-1}x[n]e^{-j\omega n}

convolution

两讯号做convolution等于，两讯号先做傅立叶转换，相乘后再做反傅立叶转换，借此可以更快速的处理讯号。

{\mathcal {F}}\{h*x\}={\mathcal {F}}\{h\}\cdot {\mathcal {F}}\{x\}

语音处理的应用

语音处理主要有两个目的：

减少讯号杂讯，做出想要的讯号模组。
进行语音辨识，使人可以利用语言与电脑沟通。