音频文件格式
音频文件格式专指存放音频数据的文件的格式。存在多种不同的格式。
一般获取音频数据的方法是:采用固定的时间间隔,对音频电压采样(量化),并将结果以某种分辨率(例如:CDDA每个采样为16比特或2字节)存储。采样的时间间隔可以有不同的标准,如CDDA采用每秒44100次;DVD采用每秒48000或96000次。因此,采样率,分辨率和声道数目(例如立体声为2声道)是音频文件格式的关键参数。
需要分清楚的是音频文件和编解码器不同。尽管一种音频文件格式可以支持多种编码,例如AVI文件格式,但多数的音频文件仅支持一种音频编码。
有两类主要的音频文件格式:
- 无损格式,例如WAV,PCM,TTA,FLAC,AU
- 有损格式,例如MP3,Windows Media Audio(WMA),Ogg Vorbis(OGG),AAC
有损文件格式是基于声学心理学的模型,除去人类很难或根本听不到的声音,例如:一个音量很高的声音后面紧跟着一个音量很低的声音。MP3就属于这一类文件。
无损的音频格式(例如TTA)压缩比大约是2:1,解压时不会产生数据/质量上的损失,解压产生的数据与未压缩的数据完全相同。如需要保证音乐的原始质量,应当选择无损音频编解码器。例如,用免费的TTA无损音频编解码器你可以在一张DVD-R碟上存储相当于20张CD的音乐。
有损压缩应用很多,但在专业领域使用不多。有损压缩具有很大的压缩比,提供相对不错的声音质量。
历史
音频CD格式是1980年由飞利浦公司和索尼公司开发的,1982年公布,此后很少改动。这种格式定义一首歌存放在一个CDDA文件中,输入采样率为44100次/秒(即44.1kHz),每个采样用16比特数据存储。立体声数据为1.4M比特/秒。
作为比较,MP3格式壓縮比可以為1:12(同样是44.1k赫兹采样率,MP3: 112k比特/秒,CDDA:1.4 M比特/秒)。MP3格式开发始于1987年在德国的Fraunhofer IIS,历时4年,其间经历了算法的改进和音质提高。但是由于硬盘的价格较高,这项技术当时应用很少。
1996年,Winamp1.0版的发布成为MP3格式流行的催化剂。Fraunhofer开始向采用他们的算法的公司索要许可证费用,因此其他替代的免费算法开始被研发。LAME发布于1998年,并于此后成为主要的MP3编码器。最近以来,其它的MP3格式的挑战者包括Windows Media Audio (微软公司定义的格式)、Ogg Vorbis(一个没有申请专利的自由编解码器)和高级音频编码或者叫AAC(用于苹果公司的iTunes)。
非压缩的数据格式
目前存在多种非压缩数据格式,最流行的是WAV格式。WAV文件的格式灵活,可以储存多种类型的音频数据。对于保存原始的录音数据是一个好的选择。WAV格式是基于RIFF文件格式,RIFF格式与AIFF和IFF格式类似。
BWF(广播声波格式)作为WAV的后继者,是由欧洲广播联盟创建的一种标准音频格式。BWF文件中可以存放元数据。BWF文件也是也是基于RIFF文件格式的,扩展名是WAV。有关其信息参见:欧洲广播联盟:Specification of the Broadcast Wave Format - A format for audio data files in broadcasting(广播声波格式描述-一种广播用音频文件格式)。欧洲广播联盟技术文档3285, 七月1997年。
多声道格式
从九十年代起,影院开始将音响系统升级为环绕声系统,它可容纳2个以上的声道。环绕声系统中最流行的是微軟公司開發的Windows Media 音频(或称WMA)中的「Windows Media Audio Professional(Windows Media 音频 專業版)」和苹果公司的iTunes所采用的高级音频编码系统(或称AAC)和杜比数字系统(或称AC-3)。三种编解码器都是受版权保护的,其编码器和解码器须支付许可证费用才能获得。最流行的多通道格式叫做5.1,意思是5个环绕声道(左前、前中、右前、左后和右后)和一个低重音声道(因为人的耳朵无法区分低频率声音传来的方向)。
参见
外部链接
- libsndfile, 一个可以读些多种音频文件格式的LGPLd库
- Apple iTune - Import Music - iTunes 文件格式 AAC
- List of audio and music file formats