语音处理
此条目没有列出任何参考或来源。 (2013年6月4日) |
语音处理(Speech processing),又称语音讯号处理、人声处理,其目的是希望做出想要的讯号,进一步做语音辨识,应用到手机界面甚至一般生活中,使人与电脑能进行沟通。
语音讯号的来源
人声是由于声带震动,而产生声音。当运动肌肉挤压,使肺脏中的空气通过声带时,空气流动使得声带做周期性的震动,又再一次震动了空气,接着,带着动能的空气离开气管到达口腔或鼻腔,在腔室中震动,最后离开在嘴唇传到人耳变成声音。
若调整口腔中舌头的位置,会产生不同种类的声音,如果舌头没有做太多的动作,空气只有在口腔中共振,接着直接流出嘴唇,会产生母音,若提起舌头,使口鼻腔相通,则会出现鼻音。
语音讯号分类
从中文发音的观点来说,声音仍可分为子音与母音,母音和子音可以用两种方式区分:
- 发声方式:一般而言,母音跟嘴唇形状有关,而且不与鼻腔共振。相对而言,在发出子音时,就会运用到鼻腔配合发声。
- 频谱分析:从频谱上观察可以发现子音的讯号频率较高,持续时间较短,且会在母音之前出现。而母音的频率较低,持续时间较长,在子音后或独立出现,另外,母音的能量也会比子音大。
下面列出中文注音符号中的母音、子音及其拼音。
- 母音:ㄚ ㄛ ㄜ ㄝ ㄞ ㄟ ㄠ ㄡ ㄢ ㄣ ㄤ ㄥ ㄦ 一 ㄨ ㄩ
母音 | ㄚ | ㄛ | ㄜ | ㄝ | ㄞ | ㄟ | ㄠ | ㄡ |
---|---|---|---|---|---|---|---|---|
汉语拼音 | a | o | e | e | ai | ei | ao | ou |
通用拼音 | a | o | e | e | ai | ei | ao | ou |
母音 | ㄢ | ㄣ | ㄤ | ㄥ | ㄦ | 一 | ㄨ | ㄩ |
汉语拼音 | an | en | ang | eng | er | i,y | u,w | yu,ju |
通用拼音 | an | en | ang | eng | er | i,y | u,w | yu,ju |
- 子音:ㄅ ㄆ ㄇ ㄈ ㄉ ㄊ ㄋ ㄌ ㄍ ㄎ ㄏ ㄐ ㄑ ㄒ ㄓ ㄔ ㄕ ㄖ ㄗ ㄘ ㄙ
子音 | ㄅ | ㄆ | ㄇ | ㄈ | ㄉ | ㄊ | ㄋ |
---|---|---|---|---|---|---|---|
汉语拼音 | b | p | m | f | d | t | n |
通用拼音 | b | p | m | f | d | t | n |
子音 | ㄌ | ㄍ | ㄎ | ㄏ | ㄐ | ㄑ | ㄒ |
汉语拼音 | l | g | k | h | j | q | x |
通用拼音 | l | g | k | h | j | q | x |
子音 | ㄓ | ㄔ | ㄕ | ㄖ | ㄗ | ㄘ | ㄙ |
汉语拼音 | zh | ch | sh | r | z | c | s |
通用拼音 | zh | ch | sh | r | z | c | s |
语音的架构
要分析与音讯号前,必须先了解其架构,语音的要素从小到大分别是:音素→音节→词汇→句子→整段话。
音素是声音的最小单位,例如“呵”这个字的音素,就是“ㄏ”和“ㄜ”,但是音素和注音符号并不相等,例如“鸥”虽然只有“ㄡ”这个母音,但是由于是双母音,所以会把他拆成两个音素。音节在中文而言,就是只一个字,例如:“天天开心”就有四个音节。词汇是文字组成的有意义片段,各种不同的词汇集结成句子,最后变成整段话,这就是语音的架构。
语音处理方法
用麦克风或其他装置收到的类音声音讯号,经由类比数位转换装置,将资料数据化进行处理,最后再经过数位类比转换装置输出。因此,我们在处理时是针对数码信号,语音讯号是一种离散时间讯号。其讯号处理流程如下:
- 收取并取样讯号:利用麦克风或各种收音装置,收取类比语音讯号,再用ADC装置(如类比数位转换卡)把类比讯号变成数码信号,接着根据奈奎斯特理论作取样,若不符合理论则会造成讯号失真。
- 量化及编码:由于电脑中的记忆都是0和1,因此要将所收到的数据用一段适合的0跟1去储存,这个动作就称为量化,所使用的0与1越多,所需的记忆体越多。接着利用编码器将数值以波形呈现,因此虽然是数码信号,但是在电脑中所见到的是类比。
- 讯号标准化:将语音讯号标准化,使其数值都落在同一个范围。
- 音框选择:由于语音讯号是一段很长的讯号,因此会针对想要处理的部分取音框。
- 端点侦测:端点侦测的目的是使讯号处理的范围更精确,只要设定一个音量阀值,若讯号小于阀值,则将其视为没讯号,但是若噪声过高,则会产生误差。
- 去噪声:由于噪声多集中在高频的部分,因此利用简单的高频滤波器,就可以去掉部分噪声。
基本处理方法
语音讯号是属于离散时间系统,因此会用离散时间的傅立叶转换去做处理,除此之外,折积、窗函数都是一定会使用到的处理方法。
- 离散时间傅立叶转换:
- 折积:
两讯号做convolution等于,两讯号先做傅立叶转换,相乘后再做反傅立叶转换,借此可以更快速的处理讯号。
语音处理的应用
语音处理主要有两个目的:
- 减少讯号噪声,做出想要的讯号模组。
- 进行语音辨识,使人可以利用语言与电脑沟通。
参考文献
- J. Benesty, M. M. Sondhi, Y. Huang (ed). Springer Handbook of Speech Processing. Springer, 2007. ISBN 978-3-540-49125-5.
- J. Benesty, S. Makino, J. Chen (ed). Speech Enhancement. Springer, 2005. ISBN 978-3-540-24039-6.