跳转到内容

语音处理

维基百科,自由的百科全书

这是本页的一个历史版本,由Kolyma留言 | 贡献2013年6月6日 (四) 13:43 (使用HotCat已添加Category:語音學编辑。这可能和当前版本存在着巨大的差异。

語音處理,又稱語音訊號處理人聲處理。其目的是希望做出想要的訊號,進一步做語音辨識,應用到人機介面甚至一般生活中,使人與電腦連進行溝通。

語音訊號的來源

  • 人聲是由於聲帶震動,而產生聲音。當運動肌肉擠壓,使肺臟中的空氣通過聲帶時,空氣流動使得聲帶做周期性的震動,又再一次震動了空氣,接著,帶著動能的空氣離開氣管到達口腔或鼻腔,在腔室中震動,最後離開在嘴唇傳到人耳變成聲音。
  • 若調整口腔中舌頭的位置,會產生不同種類的聲音,如果舌頭沒有做太多的動作,空氣只有在口腔中共振,接著直接流出嘴唇,會產生母音,若提起舌頭,使口鼻腔相通,則會出現鼻音。
  • 下圖是人體發聲的示意圖,人聲的訊號產生器(power supply)就是肺臟(lung),而解調器(modulator)是聲帶,接著傳到咽喉(pharynx),口鼻腔。

語音訊號分類

從中文的觀點來說,聲音仍可分為子音與母音,母音和子音可以用兩種方式區分,
(1)發聲方式:一般而言,母音跟嘴唇形狀有關,而且不與鼻腔共振。相對而言,在發出子音時,就會運用到鼻腔配合發聲。
(2)頻譜分析:從頻譜上觀察可以發現子音的訊號頻率較高,持續時間較短,且會在母音之前出現。而母音的頻率較低,持續時間較長,在子音後或獨立出現,另外,母音的能量也會比子音大。
下面列出中文注音符號中的母音、子音及其拼音。
母音:ㄚ ㄛ ㄜ ㄝ ㄞ ㄟ ㄠ ㄡ ㄢ ㄣ ㄤ ㄥ ㄦ 一 ㄨ ㄩ

母音
漢語拼音 a o e e ai ei ao ou
通用拼音 a o e e ai ei ao ou
母音
漢語拼音 an en ang eng er i,y u,w yu,ju
通用拼音 an en ang eng er i,y u,w yu,ju

子音:ㄅ ㄆ ㄇ ㄈ ㄉ ㄊ ㄋ ㄌ ㄍ ㄎ ㄏ ㄐ ㄑ ㄒ ㄓ ㄔ ㄕ ㄖ ㄗ ㄘ ㄙ

子音
漢語拼音 b p m f d t n
通用拼音 b p m f d t n
子音
漢語拼音 l g k h j q x
通用拼音 l g k h j q x
子音
漢語拼音 zh ch sh r z c s
通用拼音 zh ch sh r z c s

語音的架構

要分析與音訊號前,必須先了解其架構,語音的要素從小到大分別是:

音素→音節→詞彙→句子→整段話
音素是聲音的最小單位,例如「呵」這個字的音素,就是「ㄏ」和「ㄜ」,但是音素和注音符號並不相等,例如「鷗」雖然只有「ㄡ」這個母音,但是由於是雙母音,所以會把他拆成兩個音素。音節在中文而言,就是只一個字,例如:「天天開心」就有四個音節。詞彙是文字組成的有意義片段,各種不同的詞彙集結成句子,最後變成整段話,這就是語音的架構。

語音處理方法

用麥克風或其他裝置收到的類音聲音訊號,經由類比數位轉換裝置,將資料數據化進行處理,最後再經過數位類比轉換裝置輸出。因此,我們在處理時是針對數位訊號,語音訊號是一種離散時間訊號。其訊號處理流程入下

  1. 收取並取樣訊號:利用麥克風或各種收音裝置,收取類比語音訊號,再用ADC裝置(如類比數位轉換卡)把類比訊號變成數位訊號,接著根據奈奎斯特理論作取樣,若不符合理論則會造成訊號失真。
  2. 量化及編碼:由於電腦中的記憶都是0和1,因此要將所收到的數據用一段適合的0跟1去儲存,這個動作就稱為量化,所使用的0與1越多,所需的記憶體越多。接著利用編碼器將數值以波形呈現,因此雖然是數位訊號,但是在電腦中所見到的是類比。
  3. 訊號標準化:將語音訊號標準化,使其數值都落在同一個範圍。
  4. 音框選擇:由於語音訊號是一段很長的訊號,因此會針對想要處理的部分取音框。
  5. 端點偵測:端點偵測的目的是使訊號處理的範圍更精確,只要設定一個音量閥值,若訊號小於閥值,則將其視為沒訊號,但是若雜訊過高,則會產生誤差。
  6. 去雜訊:由於雜訊多集中在高頻的部分,因此利用簡單的高頻濾波器,就可以去掉部分雜訊。

基本處理方法

語音訊號是屬於離散時間系統,因此會用離散時間的傅立葉轉換去做處理,除此之外,convolution,window function都是一定會使用到的處理方法。

  • 離散時間傅立葉轉換
  • convolution

兩訊號做convolution等於,兩訊號先做傅立葉轉換,相乘後再做反傅立葉轉換,藉此可以更快速的處理訊號。

語音處理的應用

語音處理主要有兩個目的:

  1. 減少訊號雜訊,做出想要的訊號模組。
  2. 進行語音辨識,使人可以利用語言與電腦溝通。