语音处理
此條目没有列出任何参考或来源。 (2013年6月4日) |
語音處理,又稱語音訊號處理、人聲處理。其目的是希望做出想要的訊號,進一步做語音辨識,應用到人機介面甚至一般生活中,使人與電腦連進行溝通。
語音訊號的來源
- 人聲是由於聲帶震動,而產生聲音。當運動肌肉擠壓,使肺臟中的空氣通過聲帶時,空氣流動使得聲帶做周期性的震動,又再一次震動了空氣,接著,帶著動能的空氣離開氣管到達口腔或鼻腔,在腔室中震動,最後離開在嘴唇傳到人耳變成聲音。
- 若調整口腔中舌頭的位置,會產生不同種類的聲音,如果舌頭沒有做太多的動作,空氣只有在口腔中共振,接著直接流出嘴唇,會產生母音,若提起舌頭,使口鼻腔相通,則會出現鼻音。
- 下圖是人體發聲的示意圖,人聲的訊號產生器(power supply)就是肺臟(lung),而解調器(modulator)是聲帶,接著傳到咽喉(pharynx),口鼻腔。
-
此為結合訊號處理架構及生理結構做出的模型圖
語音訊號分類
從中文的觀點來說,聲音仍可分為子音與母音,母音和子音可以用兩種方式區分,
(1)發聲方式:一般而言,母音跟嘴唇形狀有關,而且不與鼻腔共振。相對而言,在發出子音時,就會運用到鼻腔配合發聲。
(2)頻譜分析:從頻譜上觀察可以發現子音的訊號頻率較高,持續時間較短,且會在母音之前出現。而母音的頻率較低,持續時間較長,在子音後或獨立出現,另外,母音的能量也會比子音大。
下面列出中文注音符號中的母音、子音及其拼音。
母音:ㄚ ㄛ ㄜ ㄝ ㄞ ㄟ ㄠ ㄡ ㄢ ㄣ ㄤ ㄥ ㄦ 一 ㄨ ㄩ
母音 | ㄚ | ㄛ | ㄜ | ㄝ | ㄞ | ㄟ | ㄠ | ㄡ |
---|---|---|---|---|---|---|---|---|
漢語拼音 | a | o | e | e | ai | ei | ao | ou |
通用拼音 | a | o | e | e | ai | ei | ao | ou |
母音 | ㄢ | ㄣ | ㄤ | ㄥ | ㄦ | 一 | ㄨ | ㄩ |
漢語拼音 | an | en | ang | eng | er | i,y | u,w | yu,ju |
通用拼音 | an | en | ang | eng | er | i,y | u,w | yu,ju |
子音:ㄅ ㄆ ㄇ ㄈ ㄉ ㄊ ㄋ ㄌ ㄍ ㄎ ㄏ ㄐ ㄑ ㄒ ㄓ ㄔ ㄕ ㄖ ㄗ ㄘ ㄙ
子音 | ㄅ | ㄆ | ㄇ | ㄈ | ㄉ | ㄊ | ㄋ |
---|---|---|---|---|---|---|---|
漢語拼音 | b | p | m | f | d | t | n |
通用拼音 | b | p | m | f | d | t | n |
子音 | ㄌ | ㄍ | ㄎ | ㄏ | ㄐ | ㄑ | ㄒ |
漢語拼音 | l | g | k | h | j | q | x |
通用拼音 | l | g | k | h | j | q | x |
子音 | ㄓ | ㄔ | ㄕ | ㄖ | ㄗ | ㄘ | ㄙ |
漢語拼音 | zh | ch | sh | r | z | c | s |
通用拼音 | zh | ch | sh | r | z | c | s |
語音的架構
要分析與音訊號前,必須先了解其架構,語音的要素從小到大分別是:
音素→音節→詞彙→句子→整段話
音素是聲音的最小單位,例如「呵」這個字的音素,就是「ㄏ」和「ㄜ」,但是音素和注音符號並不相等,例如「鷗」雖然只有「ㄡ」這個母音,但是由於是雙母音,所以會把他拆成兩個音素。音節在中文而言,就是只一個字,例如:「天天開心」就有四個音節。詞彙是文字組成的有意義片段,各種不同的詞彙集結成句子,最後變成整段話,這就是語音的架構。
語音處理方法
用麥克風或其他裝置收到的類音聲音訊號,經由類比數位轉換裝置,將資料數據化進行處理,最後再經過數位類比轉換裝置輸出。因此,我們在處理時是針對數位訊號,語音訊號是一種離散時間訊號。其訊號處理流程入下
- 收取並取樣訊號:利用麥克風或各種收音裝置,收取類比語音訊號,再用ADC裝置(如類比數位轉換卡)把類比訊號變成數位訊號,接著根據奈奎斯特理論作取樣,若不符合理論則會造成訊號失真。
- 量化及編碼:由於電腦中的記憶都是0和1,因此要將所收到的數據用一段適合的0跟1去儲存,這個動作就稱為量化,所使用的0與1越多,所需的記憶體越多。接著利用編碼器將數值以波形呈現,因此雖然是數位訊號,但是在電腦中所見到的是類比。
- 訊號標準化:將語音訊號標準化,使其數值都落在同一個範圍。
- 音框選擇:由於語音訊號是一段很長的訊號,因此會針對想要處理的部分取音框。
- 端點偵測:端點偵測的目的是使訊號處理的範圍更精確,只要設定一個音量閥值,若訊號小於閥值,則將其視為沒訊號,但是若雜訊過高,則會產生誤差。
- 去雜訊:由於雜訊多集中在高頻的部分,因此利用簡單的高頻濾波器,就可以去掉部分雜訊。
基本處理方法
語音訊號是屬於離散時間系統,因此會用離散時間的傅立葉轉換去做處理,除此之外,convolution,window function都是一定會使用到的處理方法。
- 離散時間傅立葉轉換
- convolution
兩訊號做convolution等於,兩訊號先做傅立葉轉換,相乘後再做反傅立葉轉換,藉此可以更快速的處理訊號。
語音處理的應用
語音處理主要有兩個目的:
- 減少訊號雜訊,做出想要的訊號模組。
- 進行語音辨識,使人可以利用語言與電腦溝通。