在CD播放机中,假设音乐信号是均匀分布的,adc采样速率率为44.1kHz,采用16比特的量化编码,试确定

关于电脑放音乐的一个问题_百度知道
关于电脑放音乐的一个问题
把音响(学校是独立的5?急需答案。然后转成mp3格式。在自己的电脑上播放正常。但是,放进手机里播放也正常,老师说唱课外的歌要自己找伴奏。于是我用DART Karaoke Author自己消人声。然后我回到家播放我们要进行音乐考试:播放软件是WMP,然后用U盘拷到老师的电脑上,播放声音是会动的那个),却正常,播放时出了问题。但是别的同学的音乐播放时却没有问题,但是却没有声音。这是怎么回事.1功放)声音放大只能听到一些怪声,播放时有显示能量(就是那个下面那个条
即使是同样响度的声音,记录低频的信息远比高频的详细。MP3作为目前最为普及的音频压缩格式,频率对应于时间轴线。VBR MP3就是在控制文件大小的情况下,因为无法完全还原。指定VBR控制在某个比特率然后利用VBR对音频的解析调解MP3大小,用40kHz表达,这对没有波形分析的编码器而言。第二种是VBR,而20K的信号每次振动只有2次采样,1993年由德国Fraunhofer IIS研究院和汤姆生公司合作发展成功,采样大小为16bit,于是有些朋友在捕捉CD音轨的时候使用48KHz的采样率.1K×16×2 = 1411,就是可以边读边放,音质破坏严重,是为了告诉大家.1KHz采样也无法保证高频信号被较好记录。由于用途和针对的目标市场不一样。(一般正版CD压出来的最后比特率都比较高,而不是真正等于圆周率的值,采样率值×采样大小值×声道数 bps。1-1 什么是采样率和采样大小(位&#47,如果被采样的信号是数字的。一首MP3从头至尾为某固定值如KBit/s进行压缩;s进行压缩如果这种压制模式在固定比特率下如(K)复杂段落音频是无法满足;DVD播放机都很多都能够支持MP3,被广泛用于素材保存及音乐欣赏。正是如此。采样率和采样大小的值越大,被大量软件和硬件支持;当在高音段时会用较高的比特率如KBit&#47,CD,压缩比比较高,又想要追求音质的一种压制方法,双声道的PCM编码的音频信号。VBR采取了一种全新的,看来需要更高的采样率.1KHz。因此,1分钟则约为10。这种技术的优越性是显而易见的.4KB&#47,PCM约定俗成了无损编码.1KHz。所以VBR压制的MP3的音质是不能从比特率的高低上分辨出来的;s或KBit&#47,任何数字音频编码方案都是有损的,VBR在压缩的时候会根据歌曲自动调节帧数,记录的波形更接近原始信号,最大限度的提高了MP3的音质:假设对一个波进行8次采样,一般都会超过K,他们都压缩过:20Hz的信号每次振动被采样了40K&#47,至少目前的技术只能这样了。随着新技术的不断导入。在容量一定的情况下,人耳就听不到了。MP3可以做到12。一个采样率为44。想要音质到达最好,需要176,然而容量实在是不能让人接受,要降低磁盘占用,一首歌曲被分为上千帧进行分析压制,读到哪里播放到哪里。适用于,MP3被数以亿计的用户接受,由于不同歌曲本身帧数的区别。MP3发展已经有10个年头了,我们能够买到的VCD&#47,比特率的高低要取决于歌曲本身音源的质量或复杂程度。人耳最容易听到的就是4000Hz的频率。光有频率信息是不够的;bit)。要较好的记录高频信号。VBR.1KHz一样的采样率才是最佳音质的保证之一,结果我们只能保留A1-A8中4个点的值而舍弃另外4个,其中有2次重大技术上的改进,振幅对应于电平轴线。这表示存储一秒钟采样率为44,但对于mp3格式的文件却不是很重要,因此要满足人耳的听觉要求,早期的mp3编码器几乎全是以粗暴方式来编码,在后面的文章中我们都会一一提到,这意味着什么呢。就是静态比特率:Moving Picture Experts Group) Audio Layer-3的简称。当在低频或无频段时,可以让MP3文件的每一段甚至每一帧都可以有单独的bitrate,但我们只使用2bit的采样大小,即176。我们常说128K的MP3,我们还必须获得该频率的能量值并量化;当在级高端时则采用最高KBit&#47。于是出现了一种叫VBR(Variable bitrate:1的惊人压缩比并保持基本可听的音质:专家们通过长期的声学研究,因为要显得抽象点,但是VBR本身的作用就是调节比特率,PCM也只能做到最大程度的无限接近,一次振动中,但也无法阻止这种音频压缩的格式的生存与流传;s对音质进行压缩,很显然,能够达到最高保真水平的就是PCM编码,我们常见到的音频文件采样率多为44:全称是Variable BitRate,而且更多的硬件产品也开始支持MP3,发现人耳存在遮蔽效应?假设我们有2段正弦波信号。但响度降到一定程度时,理论上是这样。 声音其实是一种能量波,用于表示信号强度,各种音频压缩编码所达到的音质和压缩比都不一样、编码三个步骤将连续变化的模拟信号转换为数字编码,为了复原波形,因为这要求编码器知道如何为每一段分配bitrate。采样大小相对采样率更难理解,长度均为一秒钟,每一个频率都有着不同的值,降低采样指标或者压缩,采样大小为16bit。就是在音频中找出与音频最适合的比特率进行压制。我们常见的CD,要做到真正的无损是困难的?结果是:VBR比特率越高等于音质越好:就是平均动态比特率,而不是去提高它。波是无限光滑的,还有更多的便携的MP3播放器等等,以对应我们能听到的最低频和最高频。CBR约定死了MP3的采样率为固定值。误区。采样的过程就是抽取某点的频率值,这对大部分用户是不可接受的,相对自然界的信号,正因为这种特性,并不意味着PCM就能够确保信号绝对保真,即PCM编码。将码率除以8,CD的44,表示响度这种能量的单位为分贝(dB)。较高的采样率只有相对模拟信号的时候才有用,由于存储空间是相对有限的,MP3迅速被用户接受。MP3编码技术的发布之初其实是非常不完善的。&lt,就可以得到这个WAV的数据速率,人耳对声音能量的多少即响度或声压最直接的反应就是听到这个声音的大小,这个40kHz就是采样率,而无需特别的解码方案、量化,分别为20Hz和20KHz; 1-4 频率与采样率的关系 采样率表示了每秒对原始信号采样的次数,我们可以得到一个什么样的结果呢,而音乐质量就参差不齐。有一点是可以肯定的.4KB的空间,就是这个1411。MP3的编码方式介绍第一种就是传统的CBR(Constents BitRate)。降低指标是不可取的,即使是文件有部分损坏,因为PCM代表了数字音频中最佳的保真水准,决定了MP3文件的每一段每一帧都可以单独的平均数据速率,这样做的好处就是在保证音质的前提下最大程度的限制了文件的大小,虽然后面得出的音乐体积比较统一。量化电平数为2的整数次幂。比如把VBR平均控制在Kbps的标准上让VBR根据音频调节VBR码率。1-2 有损和无损 根据采样率和采样大小可以得知,他是MPEG(MPEG,必须对弦线的点进行采样,这个参数也被称为数据带宽.34M,必须有2个点的采样,只有2种方法.2 Kbps,VBR会自动采用的比特率如KBit&#47,是相对PCM编码的,在相同的采样率下,这种技术如同虚设,也只是无限接近;20=2000次。MP3—优秀成熟的音频编码特点。就是在VBR中固定一个码率标准,音频编码最多只能做到无限接近,而低频下又是浪费容量。显然。声音信号实际是一种能量波:音质好,mp3编码技术一次一次的被改良,在一秒中内抽取的点越多。特别是那些拥有容量较少的MP3随身听但又想要高品质MP3的朋友,采样点分别对应的能量值分别为A1-A8,双声道的PCM编码的WAV文件:MP3格式的文件有一个有意思的特征。听觉模型的导入、DVD以及我们常见的WAV文件中均有应用,最后得出的平均数为最后的比特率。也只能把它压成K,获取得频率信息更丰富,第三种就是ABR;s对音质进行压缩,在空气或其他媒介中传播,因此专家们研发了各种压缩方案。PCM通过抽样,通常我们采用的是脉冲代码调制编码,采样率为44,不管精度多高,音质的表现只能说是差强人意:适合用于比较高要求的音乐欣赏;FONT &gt,使其在控制容量大小的情况下把音质提到最佳,全程动态调节技术的压缩方法,即使是响度在相同的情况下,在当年硬盘天价的日子里,我们称它为响度,分别对这两段信号进行40KHz的采样.1KHz。我们而习惯性的把MP3列入有损音频编码范畴,它和ADSL中的带宽是一个概念.1kHz,动态数据速率)的技术,但要运用确实是一件难事,人们也会因为它们频率不同而感觉到声音大小不同,就是动态比特率,保持和CD提供的44,弦线可以看成由无数点组成;s。用起来确实是左右为难啊,人耳能够感觉到的最高频率为20kHz,举个简单例子,对应的WAV的参数。1-3 为什么要使用音频压缩技术 要算一个PCM音频流的码率是一件很轻松的事情!这其实对音质没有任何好处,由于缺乏对声音和人耳听觉的研究,大家都会觉得声音在变小,应用广泛,数字编码过程中,则刚好记录下8个点的所有信息,这也符合流媒体的最基本特征,不管频率是否增高或降低,VBR技术并没有一出现就显得光彩夺目,它的数据速率则为 44自然界中的声音非常复杂,因此也有频率和振幅的特征,波形极其复杂,尤其是喜欢在电脑上听音乐的朋友,我们常见的CD位16bit的采样大小。强调编码的相对性的有损和无损.2 Kbps,就像用数字去表达圆周率。如果我们进行3bit的采样大小。在计算机应用中。这也是为什么有些音响发烧友指责CD有数码声不够真实的原因,即2的16次方,则需要至少每秒进行40k次采样; &#47,这是不可取的。虽然mp3可以有文件头,相对自然界的信号,对抓轨软件来说。是人们想在控制MP3容量在一定的情况下,是MPEG1的衍生编码方案,为大家所大量接受。也就是说播放器可以不用预读文件的全部内容就可以播放,请不要去尝试提高采样率,随着网络的普及,虽然几大音乐商极其反感这种开放的格式,各种与MP3相关的软件产品层出不穷。这就是我们经常看到比特率偶尔不会是整数的原因了
其他类似问题
为您推荐:
其他1条回答
等待您来回答
下载知道APP
随时随地咨询
出门在外也不愁信号处理中的采样_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
信号处理中的采样
上传于||暂无简介
阅读已结束,如果下载本文需要使用
想免费下载本文?
下载文档到电脑,查找使用更方便
还剩7页未读,继续阅读
你可能喜欢音频信号取样频率为44.1KHz,若取样点量化数为16bit,求每分钟的数据量是多少?-中国学网-中国IT综合门户网站
> 音频信号取样频率为44.1KHz,若取样点量化数为16bit,求每分钟的数据量是多少?
音频信号取样频率为44.1KHz,若取样点量化数为16bit,求每分钟的数据量是多少?
转载 编辑:李强
为了帮助网友解决“音频信号取样频率为44.1KHz,若取样”相关的问题,中国学网通过互联网对“音频信号取样频率为44.1KHz,若取样”相关的解决方案进行了整理,用户详细问题包括:RT,我想知道:音频信号取样频率为44.1KHz,若取样点量化数为16bit,求每分钟的数据量是多少?,具体解决方案如下:解决方案1:级别:新手
9月11日 19:47 参考多媒体技术或者相关教材,计算机专业都有!
对于单声道
  S=R×D×(r/8)×1
S表示文件大小,单位为字节;
R表示采样速率也叫采样频率,单位为Hz;
D表示录音时间,单位为s;
r表示分辨率,单位为二进制位,即bit;
r/8即是把二进制位换算成以字节作为单位,1BYTE=8bit;
1就是单声道!2就是立体声音!多声道个人认为不好算,低音和语音声道数据流和普通声道不一样!
本文欢迎转载,转载请注明:转载自中国学网: []
用户还关注mp3中的频率 44100 Hz ,比特 16 Bits ,码率 128 Kbps ?它们三个的关系是怎么样的?怎么换算?_百度知道
mp3中的频率 44100 Hz ,比特 16 Bits ,码率 128 Kbps ?它们三个的关系是怎么样的?怎么换算?
提问者采纳
要理解这些东西。压缩音频的所有形式都是用功能强大的算法将我们听不到的音频信息去掉,我们人就通过这二者的差别来判断声源的位置,同时轻轻地踏一下脚.1KHz的采样频率,可以达到很好的听觉效果。 11kHz的采样率是播放小段声音的最低标准。)一首MP3音乐主要有这么几个参数,在128-256kbps范围内质量要好于CBR:44100 Hz,简称bps),专家们在谈及压缩的强度时使用术语比特率,音质与CBR相去甚远。 对MP3来说Bitrate是最重要的因素;D)它以每秒上万次的速率对声波进行采样,48KHz则更加精确一些,码率这几个参数的值一般都是这样的,造成给两只耳朵的感觉就不同。幸运的是,Lame会将该文件的85%用192kbps固定编码。采集卡的位是指采集卡在采集和播放声音文件时所使用数字声音信号的二进制位数,每一次采样都记录下了原始模拟声波在某一时刻的状态. 在CD上的数字音频信号,所以采样率尽量选高点吧。 (附:我们人的耳朵有两个,都将重复这把椅子的同一数据。采样率决定声音频率的范围(相当于音调)。flv转换mp3或者录制MP3的时候,简单部分用低Bitrate编码、简单部分用低于192kbps来编码。采样频率越高所能描述的声波频率就越高。ABR也被称为“Safe VBR”。)需要了解的重要一点是,因为我们的两只耳朵分别接受到声音,可以用数字波形表示。比特率表示一秒的声音数据会消耗的平均BITS的数量,采样频率越高声音的还原就越真实越自然,目前大多数网站都选用这样的采样率。以波形表示的频率范围通常被称为带宽,他们将一首歌的复杂部分用高Bitrate编码,音质却提高不少,8位二进制为1比特.2KBPS,单位为HZ(赫兹),只有比特这个参数影响生成文件的大小,您就会听到我的喊声。1,把每一秒钟所采样的数目称为采样频率或采率。如今功能最为强大的采集卡系列采用的EMU10K1芯片虽然号称可以达到32位,一般都是8比特,信息量越大,比特,频率,比特率和质量 因为压缩率是比较难以测量。例如,是CD音质的四分之一。使用了MPEG-2ACC、48KHz三个等级,指文件从头到尾都是一种位速率: 44100 (样本值&#47MP3各项参数的意义 频率(如44100Hz),但音质却不会有明显的提高。 5kHz的采样率仅能达到人们讲话的声音质量,128 Kbps:码率就是比特率的另一种叫法。这种压缩类型—叫做“统计数据冗余”—是 WMV。这个数值越大,对这些信息进行解码的处理量就越大。如果按CD质量保存:音频采样的位数数码音频系统是通过将声波波形转换成一连串的二进制数据来再现原始声音的:频率,这两种文件听起来没什么两样,实现这个步骤使用的设备是模&#47。 采样频率是指录音设备在一秒钟内对声音信号的采样次数,它是在指定的平均Bitrate内,解析度就越高。如果我们听的是单声道音乐.比特(如16Bits),比特。假如你玩立体声的射击游戏,192kbps ABR在文件大小上相差不多。如果使用了心理视觉压缩。典型的 206 MHz Pocket PC 支持的 MPEG 视频可达到 400 Kbps—超过这个限度播放时就会出现异常.1KHz意味着每秒钟有44100个采样值从你的声音卡(或输入文件)里出来,如同CD音质的声音质量可以达到96KBPS的比特率。心理声学音频压缩 心理声学 一词似乎很令人费解。应该说16位的采样精度对于电脑多媒体音频而言已经绰绰有余了。相对于VBR和ABR来讲。128Kbps的意思就是每秒钟消耗128比特的存储空间说说立体声吧,一段相同的音乐信息。(不过在这种情况下。心理视觉模型去掉的不是我们听不到的音频数据。采集卡的位客观地反映了数字声音信号对输入声音信号描述的准确程度、MPEG 和其他视频格式用于压缩视频并同时保持高质量的一种数学窍门。与192kbps CBR相比,还需要说到音乐文件是怎么在计算机上存储的.05 KHz只能达到FM广播的声音品质、44。要把自然界的模拟声音变成计算机存储的数字文件,即每秒1000 BITS,然后对剩余15%进行动态优化,把每一秒钟所采样的数目称为采样频率或采率,也叫位速比特是二进制单位,推荐编码模式。通过去掉踏脚声,因为是2个通道。将一串的样本连接起来。那首歌总共会占据,码率,录制和回放的声音就越真实,来保存不同位置的声音信息,文件需要占用的空间也就越多,它用来表示每秒钟的音频数据占用了多少个bit(bit per second,如果我扯着嗓子喊一声。这个值越高,但可能听不到我踏脚的声音.需要声明的是比特和比特率是不一样的概念.码率(如128Kbps),单位为HZ(赫兹):心理视觉视频压缩 心理视觉视频压缩与和其对等的音频压缩相似。乘以2是因为你有两个通道,以在接下来的帧中使用:复杂部分用高于192kbps来编码,低频和不敏感频率使用相对低的流量。44。原因是什么呢。举例来说,压缩软件在压缩时根据音频数据即时确定使用什么比特率,22,造成了较大的信号损失.1KHz则是理论上的CD音质界限,而且因为声音传输的距离不同:电脑中的声音文件是用数字0和1来表示的,而8位声卡只能处理256个精度单位.1KHz,减小文件的大小。Lame针对CBR不佳的文件体积比和VBR生成文件大小不定的特点独创了这种编码模式。 如今市面上所有的主流产品都是16位的采集卡,立体声。ABR编码在速度上是VBR编码的2到3倍,只能知道声音的大小,比特(如16Bits)。我们首先要知道,音频必须是 224 Kbps,给我们的感觉就是声源始终在我们脑袋中间位置,就会减少信息量。这里的通常单位是KBPS,使之成为MP3的最佳编码模式,每一次采样都记录下了原始模拟声波在某一时刻的状态?有些文件格式比其他文件能够更有效地利用数据,我们听起来就有一种身临其境的感觉: 让我们来看看一个很短的例子:音频采样级别(音频采样频率)采样位数可以理解为采集卡处理声音的解析度,16位则代表2的16次方--64K,在播放时则是把数字信号还原成模拟声音信号输出,采样频率一般共分为22。再乘以2是因为每个采样值有两个字节(这是16比特的意思);数转换器(A&#47。比较一下,位速越高。2,长度等。Kbps 表示 “每秒千字节数”,64–Kbps WMA 文件的音质与 128–Kbps MP3 的音质相同;数转换器(A&#47。8位代表2的8次方--256,是VBR的一种插值参数:比特就是每个采样值用几比特的二进制代码表示。这是Xing发展的算法,所以是16比特。 VBR(Variable Bitrate)动态比特率、数转换。 22kHz采样率的声音可以达到CD音质的一半,常数比特率.05KHz。其中码率就是比特率的另一种叫法。将一串的样本连接起来,可惜Xing编码器的VBR算法很差,当然可以有很多个。所以在电脑上录音的本质就是把模拟声音信号转换成数字信号,比特率是1411,码率(如128Kbps)首先了解一下:如果您想把制作的 VCD 放在 DVD 播放器上播放。 ABR(Average Bitrate)平均比特率,高频和大动态表现时使用高流量。采样频率越高所能描述的声波频率就越高,它压缩出来的文件体积很大;秒) * 2(两个通道)* 2(每样本值两个字节)*60(每分钟60秒) = (字节) 压缩率,就是字节,那么我们不能判断声源的位置,称之为样本,16位声卡能把它分为64K个精度单位进行处理,那么视频必须是 1150 Kbps,他们将采集卡的复音概念与采样位数概念混淆在了一起,44,需要进行模,你可以真实的感觉子弹是从哪里打到你身上:音频采样数码音频系统是通过将声波波形转换成一连串的二进制数据来再现原始声音的,但听起来却没有区别,就会把一帧图像中椅子的数据存储下来。主意虽然不错,16 Bits,所以在电脑上没有多少使用价值,而是去掉眼睛不需要的视频数据。 CBR(Constant Bitrate),但是它只是建立在Direct Sound加速基础上的一种多音频流技术,就可以描述一段声波了,因此数值越大表示数据越多。在当今的主流采集卡上:128–Kbps MP3 音频文件包含的数据量是 64–Kbps WMA 文件的两倍。可以做为VBR和CBR的一种折衷选择,实现这个步骤使用的设备是模&#47。如果只有一只耳朵的话,最终的采样效果自然是无法相提并论的,其实很简单.频率(如44100Hz),当一个声源发出声音的时候,其本质还是一块16位的声卡,在每帧图像中。位速是指在一个数据流中每秒钟能通过的信息量,音质就越好。 44kHz的采样率是标准的CD音质。 一首标准的MP3。假设有一个在 60 秒的时间内显示位于同一位置的一把椅子的未经压缩的视频片段。请看;D)它以每秒上万次的速率对声波进行采样。也就是没有固定的比特率。这是以质量为前提兼顾文件大小的方式,当指定用192kbps ABR对一段wav文件进行编码时。您可能看到过音频文件用 “128–Kbps MP3” 或 “64–Kbps WMA” 进行描述的情形。3,称之为样本,它就是指“人脑解释声音的方式”,并占用两倍的空间,声音层次感更清楚。对于高于48KHz的采样频率人耳已无法辨别出来了。要正确理解音频采样可以分为采样的位数和采样的频率,以每50帧(30帧约1秒)为一段。立体声音乐至少需要两个通道,而并非有些无知商家所鼓吹的64位乃至128位,每个采样值16比特的方式进行采样。反之,所以你以44,Lame完美地优化了VBR算法。 为项目选择适当的位速取决于播放目标,就可以描述一段声波了
其他类似问题
为您推荐:
码率的相关知识
等待您来回答
下载知道APP
随时随地咨询
出门在外也不愁量化,编码 - 问通信专家
已解决问题
量化,编码
一首歌音质的好坏与量化,编码(PCM)的关系?
提问者: &提问时间: 19:25:33 &
&的答案& ( 采纳时间:
一楼、二楼都很专业。
&&|&&&&|&&&&|&&
专家指数:11485
Really professional
• PDCCH和PDSCH使用同样的信道编码方式,都是turbo码。是错的,这是为什么
• MCS调制与编码策略与64QAM调制16QAM调制有有什么关系啊
• 编码方式
• 有注册编码么?
• 信令点编码以及GT码是不是只在7号信令中使用?
•  CDMA系统的有效频带宽度1.2288MHz,语音编码速率为9.6kb/s,比特能量与噪声密度比为6dB,则系统容量为
• CDS的下行64QAM的比例编码怎么计算
• 两个不同的网元的信令点编码可不可能一样
其他答案&(2)
数字音频的压缩编码与编码标准
1.数字音频压缩编码概述将量化后的数字声音信息直接存入计算机将会占用大量的存储空间。在多媒体音频信号处理中,一般需要对数字化后的声音信号进行压缩编码,使其成为具有一定字长的二进制数字序列,以减少音频的数据量,并以这种形式在计算机内传输和存储。在播放这些声音时,需要经解码器将二进制编码恢复成原来的声音信号播放。声音信号能进行压缩编码的基本依据主要有3点:(1)声音信号中存在着很大的冗余度,通过识别和去除这些冗余度,便能达到压缩的目的。(2)音频信息的最终接收者是人,人的视觉和听觉器官都具有某种不敏感性。舍去人的感官所不敏感的信息对声音质量的影响很小,在有些情况下,甚至可以忽略不计。例如,人耳听觉中有一个重要的特点,即听觉的“掩蔽”。它是指一个强音能抑制一个同时存在的弱音的听觉现象。利用该性质,可以抑制与信号同时存在的量化噪音。(3)对声音波形采样后,相邻采样值之间存在着很强的相关性。按照压缩原理的不同,声音的压缩编码可分为3类,即波形编码、参数编码和混合型编码。(1)波形编码这种方法主要利用音频采样值的幅度分布规律和相邻采样值间的相关性进行压缩,目标是力图使重构的声音信号的各个样本尽可能地接近于原始声音的采样值。这种编码保留了信号原始采样值的细节变化,即保留了信号的各种过渡特征,因而复原的声音质量较高。波形编码技术有脉冲编码调制(PCM)、自适应增量调制(ADM)和自适应差分脉冲编码调制(ADPCM)等。(2)参数编码参数编码是一种对语音参数进行分析合成的方法。语音的基本参数是基音周期、共振峰、语音谱、声强等,如能得到这些语音基本参数,就可以不对语音的波形进行编码,而只要记录和传输这些参数就能实现声音数据的压缩。这些语音基本参数可以通过分析人的发音器官的结构及语音生成的原理,建立语音生成的物理或数学模型通过实验获得。得到语音参数后,就可以对其进行线性预测编码(Linear Predictive Coding,LPC)。(3)混合型编码混合型编码是一种在保留参数编码技术的基础上,引用波形编码准则去优化激励源信号的方案。混合型编码充分利用了线性预测技术和综合分析技术,其典型算法有:码本激励线性预测(CELP)、多脉冲线性预测(MP-LPC)、矢量和激励线性预测(VSELP)等。波形编码可以获得很高的声音质量,因而在声音编码方案中应用较广。下面介绍波形编码方案中常用的PCM编码。2.脉冲编码调制PCM(1)编码原理PCM脉冲编码调制是对连续语音信号进行空间采样、幅度值量化及用适当码字将其编码的总称,即它把连续输入的模拟信号变换为在时域和振幅上都离散的量,然后将其转化为代码形式传输或存储,原理框图如图2-1-4所示。在图2-1-4中,它的输入是模拟声音信号,输出是PCM样本。图中的“防失真滤波器”是一个低通滤波器,用来滤除声音频带以外的信号;“波形编码器”可暂时理解为“采样器”;“量化器”可理解为“量化阶大小”(Step—Size)生成器或者称为“量化间隔”生成器。
图2-1-4 PCM原理框图
从模拟声音信号到声音信号的数字化,这中间是一个声音信号的处理过程。模拟声音信号的数字化一般有2个步骤:第一步是采样,就是每隔一段时间间隔读一次声音的幅度;第二步是量化,就是把采样得到的声音信号幅度转换成数字值,可以采用均匀量化、非均匀量化和自适应量化等方式。PCM方法可以按量化方式的不同,分为均匀量化PCM、非均匀量化PCM和自适应量化PCM等几种。(2)均匀量化如果采用相等的量化间隔对采样得到的信号进行量化称为均匀量化。均匀量化就是采用相同的“等分尺”来度量采样得到的幅度,也称为线性量化,如图2-1-5所示。均匀量化PCM就是直接对声音信号作A/D转换,在处理过程中没有利用声音信号的任何特性,也没有进行压缩。该方法将输入的声音信号的振幅范围分成2B个等份(B为量化的二进制位数),所有落入同一等份数的采样值都编码成相同的B位二进制码。只要采样频率足够大,量化位数也适当,便能获得较高的声音信号数字化效果。为了满足听觉上的效果,均匀量化PCM必须使用较多的量化位数,这样所记录和产生的音乐,可以达到最接近原声的效果。当然提高采样率及分辨率,将造成储存数据空间的增大。
图2-1-5 均匀量化
为了适应幅度大的输人信号,同时又要满足精度要求,就需要增加样本的位数。但是,对话音信号来说,大信号出现的机会并不多,增加的样本位数没有充分利用。为了克服这个不足,出现了非均匀量化的方法,这种方法也叫做非线性量化。(3)非均匀量化非线性量化的基本想法是,对输人信号进行量化时,大的输入信号采用大的量化间隔,小的输入信号采用小的量化间隔,如图2-1-6所示。这样就可以在满足精度要求的情况下,用较少的位数来表示。声音数据还原时,采用相同的规则。
图2-1-6 非均匀量化
3.音频编码标准(1)ITU-T G系列声音压缩标准随着数字电话和数据通信容量日益增长的迫切要求,而又不希望明显降低传送话音信号的质量,除了提高通信带宽之外,对话音信号进行压缩是提高通信容量的重要措施。另一个可说明话音数据压缩的重要性的例子是,用户无法使用28.8Kbps的调制解调器来接收因特网上的64Kbps话音数据流,这是一种单声道、8位、采样频率为8kHz的话音数据流。ITU-TSS为此制定了并且继续制定一系列话音(Speech)数据编译码标准。其中,G.711使用μ率和A率压缩算法,信号带宽为3.4kHz,压缩后的数据率为64Kbps;G.721使用ADPCM压缩算法,信号带宽为3.4kHz,压缩后的数据率为32Kbps;G.722使用ADPCM压缩算法,信号带宽为7kHz,压缩后的数据率为64Kbps。在这些标准基础上还制定了许多话音数据压缩标准,如G.723、G.723.1、G.728、G.729、G.729.A等。在此简要介绍以下几种音频编码技术标准:①电话质量的音频压缩编码技术标准电话质量语音信号频率规定在300Hz~3.4kHz,采用标准的脉冲编码调制PCM。当采样频率为8kHz,进行8bit量化时,所得数据速率为64Kbps,即一个数字电话。1972年,CCITT制定了PCM标准C.711,速率为64Kbps,采用非线性量化,其质量相当于12bit线性量化。1984年,CCITT公布了自适应差分脉冲编码调制ADPCM标准G.721,速率为32Kbps。这一技术是对信号和它的预测值的差分信号进行量化,同时再根据邻近差分信号的特性自适应改变量化参数,从而提高压缩比,又能保持一定信号质量。因此,ADPCM对中等电话质量要求的信号能进行高效编码,而且可以在调幅广播和交互式激光唱盘音频信号压缩中应用。为了适应低速率语音通信的要求,必须采用参数编码或混合编码技术,如线性预测编码LPC,矢量量化VQ,以及其他的综合分析技术。其中较为典型的码本激励线性预测编码CELP实际上是一个闭环LPC线性预测编码系统,由输入语音信号确定最佳参数,再根据某种最小误差准则从码本中找出最佳激励码本矢量。CELP具有较强的抗干扰能力,在4Kbps~16Kbps传输速率下,即可获得较高质量的语音信号。1992年,CCITT制定了短时延码本激励线性预测编码LD-CELP的标准G.728,速率16Kbps,其质量与32Kbps的G.721标准基本相当。1988年,欧洲数字移动特别工作组制定了采用长时延线性预测规则码本激励RPE-LTP标准GSM,速率为13Kbps。1989年,美国采用矢量和激励线性预测技术VSELP,制定了数字移动通信语音标准CTIA,速率为8Kbps。为了适应保密通信的要求,美国国家安全局NSA分别于1982年和1989年制定了基于LPC,速率为2.4bps和基于CELP,速率为4.8Kbps的编码方案。②调幅广播质量的音频压缩编码技术标准调幅广播质量音频信号的频率在50Hz~7kHz范围。CCITT在1988年制定了G.722标准。G.722标准是采用16kHz采样,14bit量化,信号数据速率为224Kbps,采用子带编码方法,将输入音频信号经滤波器分成高子带和低子带两个部分,分别进行ADPCM编码,再混合形成输出码流,224Kbps可以被压缩成64Kbps。因此,利用G.722标准可以在窄带综合服务数据网N-ISDN中的一个B信道上传送调幅广播质量的音频信号。③高保真度立体声音频压缩编码技术标准高保真立体声音频信号频率范围是50Hz~20kHz,采用44.1kHz采样频率,16bit量化进行数字化转换,其数据速率每声道达705Kbps。1991年,国际标准化组织ISO和CCITT开始联合制定MPEG标准,其中ISO CDlll72-3作为“MPEG音频”标准,成为国际上公认的高保真立体声音频压缩标准。MPEG音频第一层和第二层编码是将输入的音频信号进行采样频率为48kHz、44.1kHz、32kHz的采样,经滤波器组将其分为32个子带,同时利用人耳屏蔽效应,根据音频信号的性质计算各频率分量的人耳屏蔽门限,选择各子带的量化参数,获得高的压缩比。MPEG第三层是在上述处理后再引入辅助子带、非均匀量化和熵编码技术,再进一步提高压缩比。MPEG音频压缩技术的数据速率为每声道32~448Kbps,适合于CD-DA光盘应用。(2)MP3压缩技术MP3的全名是MPEG Audio Layer-3,简单地说就是一种声音文件的压缩格式。1987年,德国的研究机构IIS(Institute Integrierte Schaltungen)开始着手一项声音编码及数字音频广播的计划,名称叫做EUREKA EUl47,即MP3的前身。之后,这项计划由IIS与Erlangen大学共同合作,开发出一套非常强大的算法。经由150国际标准组织认证之后,符合ISO-MPEG Audio Layer-3标准,就成为现在的MP3。ISO/MPEG音频压缩标准里包括了三个使用高性能音频数据压缩方法的感知编码方案(Perceptual Coding Schemes),按照压缩质量(每bit的声音效果)和编码方案的复杂程度划分为Layer 1、Layer 2、Layer 3。所有这三层的编码采用的基本结构是相同的,在采用传统的频谱分析和编码技术的基础上还应用了子带分析和心理声学模型理论,也就是通过研究人耳和大脑听觉神经对音频失真的敏感度,在编码时先分析声音文件的波形,利用滤波器找出噪音电平(Noise Level),然后滤去人耳不敏感的信号,通过矩阵量化的方式将余下的数据每一位打散排列,最后编码形成MPEG的文件。其音质听起来与CD相差不大。MP3的好处在于大幅降低数字声音文件的容量,而不会破坏原来的音质。以CD音质的Wave文件来说,如采样频率44.1kHz,量化为16bit,,声音模式为立体声,那么存储1秒钟CD音质的Wave文件,必须要用16bit*44100Hz*2 Stereo=l411200bit,也就是相当于1411.2Kb的存储容量,存储介质的负担相当大。不过通过MP3格式压缩后,文件便可压缩为原来的1/10~1/12,每1秒钟CD音质的MP3文件只需112~128Kb就可以了。具体的MPEG的压缩等级与压缩比率,声音品质与MP3压缩比例关系,参见下表。
MPEG的压缩等级与压缩比率
MPEG编码等级
数字流码率/Kbps
声音品质与MP3压缩比例关系
比特率/Kbps
好于调幅广播
类似调频广播
(3)MP4压缩技术MP4并不是MPEG-4或者MPEG Layer 4,它的出现是针对MP3的大众化、无版权的一种保护格式,由美国网络技术公司开发,美国唱片行业联合会倡导公布的一种新的网络下载和音乐播放格式。从技术上讲,MP4使用的是MPEG-2 AAC技术,也就是俗称的a2b或AAC。其中,MPEG-2是MPEG于1994年11月针对数码电视(数码影像)提出的。它的特点是,音质更加完美而压缩比更加大(1:15)。MPEG-2 AAC(ISO/IEC 13818-7)在采样率为8~96kHz下提供了l~48个声道可选范围的高质量音频编码。AAC是Advanced Audio Coding,即先进音频编码,适用于从比特率在8Kbps单声道的电话音质到160Kbps多声道的超高质量音频范围内的编码,并且允许对多媒体进行编码/解码。AAC与MP3相比,增加了诸如对立体声的完美再现、比特流效果音扫描、多媒体控制、降噪优异等MP3没有的特性,使得在音频压缩后仍能完美地再现CD音质。MP4技术的优越性要远远高于MP3,因为它更适合多媒体技术的发展以及视听欣赏的需求。但是,MP4是一种商品,它利用改良后的MPEG-2 AAC技术并强加上由出版公司直接授权的知识产权协议作为新的标准;而MP3是一种自由音乐格式,任何人都可以自由使用。此外,MP4实际上是由音乐出版界联合授意的官方标准;MP3则是广为流传的民间标准。相比之下,MP3的灵活度和自由度要远远大于MP4,这使得音乐发烧友们更倾向于使用MP3。更重要的一点是,MP3是目前最为流行的一种音乐格式,它占据着大量的网络资源,这使得MP4的推广普及难上加难。从长远来看,MP4流行是迟早的事(指其优越的技术性)。但是,如果MP4不改进其技术构成(即强加的版权信息)的话,那么,自由的MP3在使用了MPEG-2 AAC技术后,胜负就很明显了。
数字音频的压缩编码与编码标准
1.数字音频压缩编码概述将量化后的数字声音信息直接存入计算机将会占用大量的存储空间。在多媒体音频信号处理中,一般需要对数字化后的声音信号进行压缩编码,使其成为具有一定字长的二进制数字序列,以减少音频的数据量,并以这种形式在计算机内传输和存储。在播放这些声音时,需要经解码器将二进制编码恢复成原来的声音信号播放。声音信号能进行压缩编码的基本依据主要有3点:(1)声音信号中存在着很大的冗余度,通过识别和去除这些冗余度,便能达到压缩的目的。(2)音频信息的最终接收者是人,人的视觉和听觉器官都具有某种不敏感性。舍去人的感官所不敏感的信息对声音质量的影响很小,在有些情况下,甚至可以忽略不计。例如,人耳听觉中有一个重要的特点,即听觉的“掩蔽”。它是指一个强音能抑制一个同时存在的弱音的听觉现象。利用该性质,可以抑制与信号同时存在的量化噪音。(3)对声音波形采样后,相邻采样值之间存在着很强的相关性。按照压缩原理的不同,声音的压缩编码可分为3类,即波形编码、参数编码和混合型编码。(1)波形编码这种方法主要利用音频采样值的幅度分布规律和相邻采样值间的相关性进行压缩,目标是力图使重构的声音信号的各个样本尽可能地接近于原始声音的采样值。这种编码保留了信号原始采样值的细节变化,即保留了信号的各种过渡特征,因而复原的声音质量较高。波形编码技术有脉冲编码调制(PCM)、自适应增量调制(ADM)和自适应差分脉冲编码调制(ADPCM)等。(2)参数编码参数编码是一种对语音参数进行分析合成的方法。语音的基本参数是基音周期、共振峰、语音谱、声强等,如能得到这些语音基本参数,就可以不对语音的波形进行编码,而只要记录和传输这些参数就能实现声音数据的压缩。这些语音基本参数可以通过分析人的发音器官的结构及语音生成的原理,建立语音生成的物理或数学模型通过实验获得。得到语音参数后,就可以对其进行线性预测编码(Linear Predictive Coding,LPC)。(3)混合型编码混合型编码是一种在保留参数编码技术的基础上,引用波形编码准则去优化激励源信号的方案。混合型编码充分利用了线性预测技术和综合分析技术,其典型算法有:码本激励线性预测(CELP)、多脉冲线性预测(MP-LPC)、矢量和激励线性预测(VSELP)等。波形编码可以获得很高的声音质量,因而在声音编码方案中应用较广。下面介绍波形编码方案中常用的PCM编码。2.脉冲编码调制PCM(1)编码原理PCM脉冲编码调制是对连续语音信号进行空间采样、幅度值量化及用适当码字将其编码的总称,即它把连续输入的模拟信号变换为在时域和振幅上都离散的量,然后将其转化为代码形式传输或存储,原理框图如图2-1-4所示。在图2-1-4中,它的输入是模拟声音信号,输出是PCM样本。图中的“防失真滤波器”是一个低通滤波器,用来滤除声音频带以外的信号;“波形编码器”可暂时理解为“采样器”;“量化器”可理解为“量化阶大小”(Step—Size)生成器或者称为“量化间隔”生成器。
图2-1-4 PCM原理框图
从模拟声音信号到声音信号的数字化,这中间是一个声音信号的处理过程。模拟声音信号的数字化一般有2个步骤:第一步是采样,就是每隔一段时间间隔读一次声音的幅度;第二步是量化,就是把采样得到的声音信号幅度转换成数字值,可以采用均匀量化、非均匀量化和自适应量化等方式。PCM方法可以按量化方式的不同,分为均匀量化PCM、非均匀量化PCM和自适应量化PCM等几种。(2)均匀量化如果采用相等的量化间隔对采样得到的信号进行量化称为均匀量化。均匀量化就是采用相同的“等分尺”来度量采样得到的幅度,也称为线性量化,如图2-1-5所示。均匀量化PCM就是直接对声音信号作A/D转换,在处理过程中没有利用声音信号的任何特性,也没有进行压缩。该方法将输入的声音信号的振幅范围分成2B个等份(B为量化的二进制位数),所有落入同一等份数的采样值都编码成相同的B位二进制码。只要采样频率足够大,量化位数也适当,便能获得较高的声音信号数字化效果。为了满足听觉上的效果,均匀量化PCM必须使用较多的量化位数,这样所记录和产生的音乐,可以达到最接近原声的效果。当然提高采样率及分辨率,将造成储存数据空间的增大。
图2-1-5 均匀量化
为了适应幅度大的输人信号,同时又要满足精度要求,就需要增加样本的位数。但是,对话音信号来说,大信号出现的机会并不多,增加的样本位数没有充分利用。为了克服这个不足,出现了非均匀量化的方法,这种方法也叫做非线性量化。(3)非均匀量化非线性量化的基本想法是,对输人信号进行量化时,大的输入信号采用大的量化间隔,小的输入信号采用小的量化间隔,如图2-1-6所示。这样就可以在满足精度要求的情况下,用较少的位数来表示。声音数据还原时,采用相同的规则。
图2-1-6 非均匀量化
3.音频编码标准(1)ITU-T G系列声音压缩标准随着数字电话和数据通信容量日益增长的迫切要求,而又不希望明显降低传送话音信号的质量,除了提高通信带宽之外,对话音信号进行压缩是提高通信容量的重要措施。另一个可说明话音数据压缩的重要性的例子是,用户无法使用28.8Kbps的调制解调器来接收因特网上的64Kbps话音数据流,这是一种单声道、8位、采样频率为8kHz的话音数据流。ITU-TSS为此制定了并且继续制定一系列话音(Speech)数据编译码标准。其中,G.711使用μ率和A率压缩算法,信号带宽为3.4kHz,压缩后的数据率为64Kbps;G.721使用ADPCM压缩算法,信号带宽为3.4kHz,压缩后的数据率为32Kbps;G.722使用ADPCM压缩算法,信号带宽为7kHz,压缩后的数据率为64Kbps。在这些标准基础上还制定了许多话音数据压缩标准,如G.723、G.723.1、G.728、G.729、G.729.A等。在此简要介绍以下几种音频编码技术标准:①电话质量的音频压缩编码技术标准电话质量语音信号频率规定在300Hz~3.4kHz,采用标准的脉冲编码调制PCM。当采样频率为8kHz,进行8bit量化时,所得数据速率为64Kbps,即一个数字电话。1972年,CCITT制定了PCM标准C.711,速率为64Kbps,采用非线性量化,其质量相当于12bit线性量化。1984年,CCITT公布了自适应差分脉冲编码调制ADPCM标准G.721,速率为32Kbps。这一技术是对信号和它的预测值的差分信号进行量化,同时再根据邻近差分信号的特性自适应改变量化参数,从而提高压缩比,又能保持一定信号质量。因此,ADPCM对中等电话质量要求的信号能进行高效编码,而且可以在调幅广播和交互式激光唱盘音频信号压缩中应用。为了适应低速率语音通信的要求,必须采用参数编码或混合编码技术,如线性预测编码LPC,矢量量化VQ,以及其他的综合分析技术。其中较为典型的码本激励线性预测编码CELP实际上是一个闭环LPC线性预测编码系统,由输入语音信号确定最佳参数,再根据某种最小误差准则从码本中找出最佳激励码本矢量。CELP具有较强的抗干扰能力,在4Kbps~16Kbps传输速率下,即可获得较高质量的语音信号。1992年,CCITT制定了短时延码本激励线性预测编码LD-CELP的标准G.728,速率16Kbps,其质量与32Kbps的G.721标准基本相当。1988年,欧洲数字移动特别工作组制定了采用长时延线性预测规则码本激励RPE-LTP标准GSM,速率为13Kbps。1989年,美国采用矢量和激励线性预测技术VSELP,制定了数字移动通信语音标准CTIA,速率为8Kbps。为了适应保密通信的要求,美国国家安全局NSA分别于1982年和1989年制定了基于LPC,速率为2.4bps和基于CELP,速率为4.8Kbps的编码方案。②调幅广播质量的音频压缩编码技术标准调幅广播质量音频信号的频率在50Hz~7kHz范围。CCITT在1988年制定了G.722标准。G.722标准是采用16kHz采样,14bit量化,信号数据速率为224Kbps,采用子带编码方法,将输入音频信号经滤波器分成高子带和低子带两个部分,分别进行ADPCM编码,再混合形成输出码流,224Kbps可以被压缩成64Kbps。因此,利用G.722标准可以在窄带综合服务数据网N-ISDN中的一个B信道上传送调幅广播质量的音频信号。③高保真度立体声音频压缩编码技术标准高保真立体声音频信号频率范围是50Hz~20kHz,采用44.1kHz采样频率,16bit量化进行数字化转换,其数据速率每声道达705Kbps。1991年,国际标准化组织ISO和CCITT开始联合制定MPEG标准,其中ISO CDlll72-3作为“MPEG音频”标准,成为国际上公认的高保真立体声音频压缩标准。MPEG音频第一层和第二层编码是将输入的音频信号进行采样频率为48kHz、44.1kHz、32kHz的采样,经滤波器组将其分为32个子带,同时利用人耳屏蔽效应,根据音频信号的性质计算各频率分量的人耳屏蔽门限,选择各子带的量化参数,获得高的压缩比。MPEG第三层是在上述处理后再引入辅助子带、非均匀量化和熵编码技术,再进一步提高压缩比。MPEG音频压缩技术的数据速率为每声道32~448Kbps,适合于CD-DA光盘应用。(2)MP3压缩技术MP3的全名是MPEG Audio Layer-3,简单地说就是一种声音文件的压缩格式。1987年,德国的研究机构IIS(Institute Integrierte Schaltungen)开始着手一项声音编码及数字音频广播的计划,名称叫做EUREKA EUl47,即MP3的前身。之后,这项计划由IIS与Erlangen大学共同合作,开发出一套非常强大的算法。经由150国际标准组织认证之后,符合ISO-MPEG Audio Layer-3标准,就成为现在的MP3。ISO/MPEG音频压缩标准里包括了三个使用高性能音频数据压缩方法的感知编码方案(Perceptual Coding Schemes),按照压缩质量(每bit的声音效果)和编码方案的复杂程度划分为Layer 1、Layer 2、Layer 3。所有这三层的编码采用的基本结构是相同的,在采用传统的频谱分析和编码技术的基础上还应用了子带分析和心理声学模型理论,也就是通过研究人耳和大脑听觉神经对音频失真的敏感度,在编码时先分析声音文件的波形,利用滤波器找出噪音电平(Noise Level),然后滤去人耳不敏感的信号,通过矩阵量化的方式将余下的数据每一位打散排列,最后编码形成MPEG的文件。其音质听起来与CD相差不大。MP3的好处在于大幅降低数字声音文件的容量,而不会破坏原来的音质。以CD音质的Wave文件来说,如采样频率44.1kHz,量化为16bit,,声音模式为立体声,那么存储1秒钟CD音质的Wave文件,必须要用16bit*44100Hz*2 Stereo=l411200bit,也就是相当于1411.2Kb的存储容量,存储介质的负担相当大。不过通过MP3格式压缩后,文件便可压缩为原来的1/10~1/12,每1秒钟CD音质的MP3文件只需112~128Kb就可以了。具体的MPEG的压缩等级与压缩比率,声音品质与MP3压缩比例关系,参见下表。
MPEG的压缩等级与压缩比率
MPEG编码等级
数字流码率/Kbps
声音品质与MP3压缩比例关系
比特率/Kbps
好于调幅广播
类似调频广播
(3)MP4压缩技术MP4并不是MPEG-4或者MPEG Layer 4,它的出现是针对MP3的大众化、无版权的一种保护格式,由美国网络技术公司开发,美国唱片行业联合会倡导公布的一种新的网络下载和音乐播放格式。从技术上讲,MP4使用的是MPEG-2 AAC技术,也就是俗称的a2b或AAC。其中,MPEG-2是MPEG于1994年11月针对数码电视(数码影像)提出的。它的特点是,音质更加完美而压缩比更加大(1:15)。MPEG-2 AAC(ISO/IEC 13818-7)在采样率为8~96kHz下提供了l~48个声道可选范围的高质量音频编码。AAC是Advanced Audio Coding,即先进音频编码,适用于从比特率在8Kbps单声道的电话音质到160Kbps多声道的超高质量音频范围内的编码,并且允许对多媒体进行编码/解码。AAC与MP3相比,增加了诸如对立体声的完美再现、比特流效果音扫描、多媒体控制、降噪优异等MP3没有的特性,使得在音频压缩后仍能完美地再现CD音质。MP4技术的优越性要远远高于MP3,因为它更适合多媒体技术的发展以及视听欣赏的需求。但是,MP4是一种商品,它利用改良后的MPEG-2 AAC技术并强加上由出版公司直接授权的知识产权协议作为新的标准;而MP3是一种自由音乐格式,任何人都可以自由使用。此外,MP4实际上是由音乐出版界联合授意的官方标准;MP3则是广为流传的民间标准。相比之下,MP3的灵活度和自由度要远远大于MP4,这使得音乐发烧友们更倾向于使用MP3。更重要的一点是,MP3是目前最为流行的一种音乐格式,它占据着大量的网络资源,这使得MP4的推广普及难上加难。从长远来看,MP4流行是迟早的事(指其优越的技术性)。但是,如果MP4不改进其技术构成(即强加的版权信息)的话,那么,自由的MP3在使用了MPEG-2 AAC技术后,胜负就很明显了。
数字音频的压缩编码与编码标准
1.数字音频压缩编码概述将量化后的数字声音信息直接存入计算机将会占用大量的存储空间。在多媒体音频信号处理中,一般需要对数字化后的声音信号进行压缩编码,使其成为具有一定字长的二进制数字序列,以减少音频的数据量,并以这种形式在计算机内传输和存储。在播放这些声音时,需要经解码器将二进制编码恢复成原来的声音信号播放。声音信号能进行压缩编码的基本依据主要有3点:(1)声音信号中存在着很大的冗余度,通过识别和去除这些冗余度,便能达到压缩的目的。(2)音频信息的最终接收者是人,人的视觉和听觉器官都具有某种不敏感性。舍去人的感官所不敏感的信息对声音质量的影响很小,在有些情况下,甚至可以忽略不计。例如,人耳听觉中有一个重要的特点,即听觉的“掩蔽”。它是指一个强音能抑制一个同时存在的弱音的听觉现象。利用该性质,可以抑制与信号同时存在的量化噪音。(3)对声音波形采样后,相邻采样值之间存在着很强的相关性。按照压缩原理的不同,声音的压缩编码可分为3类,即波形编码、参数编码和混合型编码。(1)波形编码这种方法主要利用音频采样值的幅度分布规律和相邻采样值间的相关性进行压缩,目标是力图使重构的声音信号的各个样本尽可能地接近于原始声音的采样值。这种编码保留了信号原始采样值的细节变化,即保留了信号的各种过渡特征,因而复原的声音质量较高。波形编码技术有脉冲编码调制(PCM)、自适应增量调制(ADM)和自适应差分脉冲编码调制(ADPCM)等。(2)参数编码参数编码是一种对语音参数进行分析合成的方法。语音的基本参数是基音周期、共振峰、语音谱、声强等,如能得到这些语音基本参数,就可以不对语音的波形进行编码,而只要记录和传输这些参数就能实现声音数据的压缩。这些语音基本参数可以通过分析人的发音器官的结构及语音生成的原理,建立语音生成的物理或数学模型通过实验获得。得到语音参数后,就可以对其进行线性预测编码(Linear Predictive Coding,LPC)。(3)混合型编码混合型编码是一种在保留参数编码技术的基础上,引用波形编码准则去优化激励源信号的方案。混合型编码充分利用了线性预测技术和综合分析技术,其典型算法有:码本激励线性预测(CELP)、多脉冲线性预测(MP-LPC)、矢量和激励线性预测(VSELP)等。波形编码可以获得很高的声音质量,因而在声音编码方案中应用较广。下面介绍波形编码方案中常用的PCM编码。2.脉冲编码调制PCM(1)编码原理PCM脉冲编码调制是对连续语音信号进行空间采样、幅度值量化及用适当码字将其编码的总称,即它把连续输入的模拟信号变换为在时域和振幅上都离散的量,然后将其转化为代码形式传输或存储,原理框图如图2-1-4所示。在图2-1-4中,它的输入是模拟声音信号,输出是PCM样本。图中的“防失真滤波器”是一个低通滤波器,用来滤除声音频带以外的信号;“波形编码器”可暂时理解为“采样器”;“量化器”可理解为“量化阶大小”(Step—Size)生成器或者称为“量化间隔”生成器。
图2-1-4 PCM原理框图
从模拟声音信号到声音信号的数字化,这中间是一个声音信号的处理过程。模拟声音信号的数字化一般有2个步骤:第一步是采样,就是每隔一段时间间隔读一次声音的幅度;第二步是量化,就是把采样得到的声音信号幅度转换成数字值,可以采用均匀量化、非均匀量化和自适应量化等方式。PCM方法可以按量化方式的不同,分为均匀量化PCM、非均匀量化PCM和自适应量化PCM等几种。(2)均匀量化如果采用相等的量化间隔对采样得到的信号进行量化称为均匀量化。均匀量化就是采用相同的“等分尺”来度量采样得到的幅度,也称为线性量化,如图2-1-5所示。均匀量化PCM就是直接对声音信号作A/D转换,在处理过程中没有利用声音信号的任何特性,也没有进行压缩。该方法将输入的声音信号的振幅范围分成2B个等份(B为量化的二进制位数),所有落入同一等份数的采样值都编码成相同的B位二进制码。只要采样频率足够大,量化位数也适当,便能获得较高的声音信号数字化效果。为了满足听觉上的效果,均匀量化PCM必须使用较多的量化位数,这样所记录和产生的音乐,可以达到最接近原声的效果。当然提高采样率及分辨率,将造成储存数据空间的增大。
图2-1-5 均匀量化
为了适应幅度大的输人信号,同时又要满足精度要求,就需要增加样本的位数。但是,对话音信号来说,大信号出现的机会并不多,增加的样本位数没有充分利用。为了克服这个不足,出现了非均匀量化的方法,这种方法也叫做非线性量化。(3)非均匀量化非线性量化的基本想法是,对输人信号进行量化时,大的输入信号采用大的量化间隔,小的输入信号采用小的量化间隔,如图2-1-6所示。这样就可以在满足精度要求的情况下,用较少的位数来表示。声音数据还原时,采用相同的规则。
图2-1-6 非均匀量化
3.音频编码标准(1)ITU-T G系列声音压缩标准随着数字电话和数据通信容量日益增长的迫切要求,而又不希望明显降低传送话音信号的质量,除了提高通信带宽之外,对话音信号进行压缩是提高通信容量的重要措施。另一个可说明话音数据压缩的重要性的例子是,用户无法使用28.8Kbps的调制解调器来接收因特网上的64Kbps话音数据流,这是一种单声道、8位、采样频率为8kHz的话音数据流。ITU-TSS为此制定了并且继续制定一系列话音(Speech)数据编译码标准。其中,G.711使用μ率和A率压缩算法,信号带宽为3.4kHz,压缩后的数据率为64Kbps;G.721使用ADPCM压缩算法,信号带宽为3.4kHz,压缩后的数据率为32Kbps;G.722使用ADPCM压缩算法,信号带宽为7kHz,压缩后的数据率为64Kbps。在这些标准基础上还制定了许多话音数据压缩标准,如G.723、G.723.1、G.728、G.729、G.729.A等。在此简要介绍以下几种音频编码技术标准:①电话质量的音频压缩编码技术标准电话质量语音信号频率规定在300Hz~3.4kHz,采用标准的脉冲编码调制PCM。当采样频率为8kHz,进行8bit量化时,所得数据速率为64Kbps,即一个数字电话。1972年,CCITT制定了PCM标准C.711,速率为64Kbps,采用非线性量化,其质量相当于12bit线性量化。1984年,CCITT公布了自适应差分脉冲编码调制ADPCM标准G.721,速率为32Kbps。这一技术是对信号和它的预测值的差分信号进行量化,同时再根据邻近差分信号的特性自适应改变量化参数,从而提高压缩比,又能保持一定信号质量。因此,ADPCM对中等电话质量要求的信号能进行高效编码,而且可以在调幅广播和交互式激光唱盘音频信号压缩中应用。为了适应低速率语音通信的要求,必须采用参数编码或混合编码技术,如线性预测编码LPC,矢量量化VQ,以及其他的综合分析技术。其中较为典型的码本激励线性预测编码CELP实际上是一个闭环LPC线性预测编码系统,由输入语音信号确定最佳参数,再根据某种最小误差准则从码本中找出最佳激励码本矢量。CELP具有较强的抗干扰能力,在4Kbps~16Kbps传输速率下,即可获得较高质量的语音信号。1992年,CCITT制定了短时延码本激励线性预测编码LD-CELP的标准G.728,速率16Kbps,其质量与32Kbps的G.721标准基本相当。1988年,欧洲数字移动特别工作组制定了采用长时延线性预测规则码本激励RPE-LTP标准GSM,速率为13Kbps。1989年,美国采用矢量和激励线性预测技术VSELP,制定了数字移动通信语音标准CTIA,速率为8Kbps。为了适应保密通信的要求,美国国家安全局NSA分别于1982年和1989年制定了基于LPC,速率为2.4bps和基于CELP,速率为4.8Kbps的编码方案。②调幅广播质量的音频压缩编码技术标准调幅广播质量音频信号的频率在50Hz~7kHz范围。CCITT在1988年制定了G.722标准。G.722标准是采用16kHz采样,14bit量化,信号数据速率为224Kbps,采用子带编码方法,将输入音频信号经滤波器分成高子带和低子带两个部分,分别进行ADPCM编码,再混合形成输出码流,224Kbps可以被压缩成64Kbps。因此,利用G.722标准可以在窄带综合服务数据网N-ISDN中的一个B信道上传送调幅广播质量的音频信号。③高保真度立体声音频压缩编码技术标准高保真立体声音频信号频率范围是50Hz~20kHz,采用44.1kHz采样频率,16bit量化进行数字化转换,其数据速率每声道达705Kbps。1991年,国际标准化组织ISO和CCITT开始联合制定MPEG标准,其中ISO CDlll72-3作为“MPEG音频”标准,成为国际上公认的高保真立体声音频压缩标准。MPEG音频第一层和第二层编码是将输入的音频信号进行采样频率为48kHz、44.1kHz、32kHz的采样,经滤波器组将其分为32个子带,同时利用人耳屏蔽效应,根据音频信号的性质计算各频率分量的人耳屏蔽门限,选择各子带的量化参数,获得高的压缩比。MPEG第三层是在上述处理后再引入辅助子带、非均匀量化和熵编码技术,再进一步提高压缩比。MPEG音频压缩技术的数据速率为每声道32~448Kbps,适合于CD-DA光盘应用。(2)MP3压缩技术MP3的全名是MPEG Audio Layer-3,简单地说就是一种声音文件的压缩格式。1987年,德国的研究机构IIS(Institute Integrierte Schaltungen)开始着手一项声音编码及数字音频广播的计划,名称叫做EUREKA EUl47,即MP3的前身。之后,这项计划由IIS与Erlangen大学共同合作,开发出一套非常强大的算法。经由150国际标准组织认证之后,符合ISO-MPEG Audio Layer-3标准,就成为现在的MP3。ISO/MPEG音频压缩标准里包括了三个使用高性能音频数据压缩方法的感知编码方案(Perceptual Coding Schemes),按照压缩质量(每bit的声音效果)和编码方案的复杂程度划分为Layer 1、Layer 2、Layer 3。所有这三层的编码采用的基本结构是相同的,在采用传统的频谱分析和编码技术的基础上还应用了子带分析和心理声学模型理论,也就是通过研究人耳和大脑听觉神经对音频失真的敏感度,在编码时先分析声音文件的波形,利用滤波器找出噪音电平(Noise Level),然后滤去人耳不敏感的信号,通过矩阵量化的方式将余下的数据每一位打散排列,最后编码形成MPEG的文件。其音质听起来与CD相差不大。MP3的好处在于大幅降低数字声音文件的容量,而不会破坏原来的音质。以CD音质的Wave文件来说,如采样频率44.1kHz,量化为16bit,,声音模式为立体声,那么存储1秒钟CD音质的Wave文件,必须要用16bit*44100Hz*2 Stereo=l411200bit,也就是相当于1411.2Kb的存储容量,存储介质的负担相当大。不过通过MP3格式压缩后,文件便可压缩为原来的1/10~1/12,每1秒钟CD音质的MP3文件只需112~128Kb就可以了。具体的MPEG的压缩等级与压缩比率,声音品质与MP3压缩比例关系,参见下表。
MPEG的压缩等级与压缩比率
MPEG编码等级
数字流码率/Kbps
声音品质与MP3压缩比例关系
比特率/Kbps
好于调幅广播
类似调频广播
(3)MP4压缩技术MP4并不是MPEG-4或者MPEG Layer 4,它的出现是针对MP3的大众化、无版权的一种保护格式,由美国网络技术公司开发,美国唱片行业联合会倡导公布的一种新的网络下载和音乐播放格式。从技术上讲,MP4使用的是MPEG-2 AAC技术,也就是俗称的a2b或AAC。其中,MPEG-2是MPEG于1994年11月针对数码电视(数码影像)提出的。它的特点是,音质更加完美而压缩比更加大(1:15)。MPEG-2 AAC(ISO/IEC 13818-7)在采样率为8~96kHz下提供了l~48个声道可选范围的高质量音频编码。AAC是Advanced Audio Coding,即先进音频编码,适用于从比特率在8Kbps单声道的电话音质到160Kbps多声道的超高质量音频范围内的编码,并且允许对多媒体进行编码/解码。AAC与MP3相比,增加了诸如对立体声的完美再现、比特流效果音扫描、多媒体控制、降噪优异等MP3没有的特性,使得在音频压缩后仍能完美地再现CD音质。MP4技术的优越性要远远高于MP3,因为它更适合多媒体技术的发展以及视听欣赏的需求。但是,MP4是一种商品,它利用改良后的MPEG-2 AAC技术并强加上由出版公司直接授权的知识产权协议作为新的标准;而MP3是一种自由音乐格式,任何人都可以自由使用。此外,MP4实际上是由音乐出版界联合授意的官方标准;MP3则是广为流传的民间标准。相比之下,MP3的灵活度和自由度要远远大于MP4,这使得音乐发烧友们更倾向于使用MP3。更重要的一点是,MP3是目前最为流行的一种音乐格式,它占据着大量的网络资源,这使得MP4的推广普及难上加难。从长远来看,MP4流行是迟早的事(指其优越的技术性)。但是,如果MP4不改进其技术构成(即强加的版权信息)的话,那么,自由的MP3在使用了MPEG-2 AAC技术后,胜负就很明显了。将量化后的数字声音信息直接存入计算机将会占用大量的存储空间。在多媒体音频信号处理中,一般需要对数字化后的声音信号进行压缩编码,使其成为具有一定字长的二进制数字序列,以减少音频的数据量,并以这种形式在计算机内传输和存储。在播放这些声音时,需要经解码器将二进制编码恢复成原来的声音信号播放。声音信号能进行压缩编码的基本依据主要有3点:(1)声音信号中存在着很大的冗余度,通过识别和去除这些冗余度,便能达到压缩的目的。(2)音频信息的最终接收者是人,人的视觉和听觉器官都具有某种不敏感性。舍去人的感官所不敏感的信息对声音质量的影响很小,在有些情况下,甚至可以忽略不计。例如,人耳听觉中有一个重要的特点,即听觉的“掩蔽”。它是指一个强音能抑制一个同时存在的弱音的听觉现象。利用该性质,可以抑制与信号同时存在的量化噪音。(3)对声音波形采样后,相邻采样值之间存在着很强的相关性。按MP3压缩技术MP3的全名是MPEG Audio Layer-3,简单地说就是一种声音文件的压缩格式。1987年,德国的研究机构IIS(Institute Integrierte Schaltungen)开始着手一项声音编码及数字音频广播的计划,名称叫做EUREKA EUl47,即MP3的前身。之后,这项计划由IIS与Erlangen大学共同合作,开发出一套非常强大的算法。经由150国际标准组织认证之后,符合ISO-MPEG Audio Layer-3标准,就成为现在的MP3。ISO/MPEG音频压缩标准里包括了三个使用高性能音频数据压缩方法的感知编码方案(Perceptual Coding Schemes),按照压缩质量(每bit的声音效果)和编码方案的复杂程度划分为Layer 1、Layer 2、Layer 3。所有这三层的编码采用的基本结构是相同的,在采用传统的频谱分析和编码技术的基础上还应用了子带分析和心理声学模型理论,也就是通过研究人耳和大脑听觉神经对音频失真的敏感度,在编码时先分析声音文件的波形,利用滤波器找出噪音电平(Noise Level),然后滤去人耳不敏感的信号,通过矩阵量化的方式将余下的数据每一位打散排列,最后编码形成MPEG的文件。其音质听起来与CD相差不大。MP3的好处在于大幅降低数字声音文件的容量,而不会破坏原来的音质。以CD音质的Wave文件来说,如采样频率44.1kHz,量化为16bit,,声音模式为立体声,那么存储1秒钟CD音质的Wave文件,必须要用16bit*44100Hz*2 Stereo=l411200bit,也就是相当于1411.2Kb的存储容量,存储介质的负担相当大。不过通过MP3格式压缩后,文件便可压缩为原来的1/10~1/12,每1秒钟CD音质的MP3文件只需112~128Kb就可以了。MP4压缩技术MP4并不是MPEG-4或者MPEG Layer 4,它的出现是针对MP3的大众化、无版权的一种保护格式,由美国网络技术公司开发,美国唱片行业联合会倡导公布的一种新的网络下载和音乐播放格式。从技术上讲,MP4使用的是MPEG-2 AAC技术,也就是俗称的a2b或AAC。其中,MPEG-2是MPEG于1994年11月针对数码电视(数码影像)提出的。它的特点是,音质更加完美而压缩比更加大(1:15)。MPEG-2 AAC(ISO/IEC 13818-7)在采样率为8~96kHz下提供了l~48个声道可选范围的高质量音频编码。AAC是Advanced Audio Coding,即先进音频编码,适用于从比特率在8Kbps单声道的电话音质到160Kbps多声道的超高质量音频范围内的编码,并且允许对多媒体进行编码/解码。AAC与MP3相比,增加了诸如对立体声的完美再现、比特流效果音扫描、多媒体控制、降噪优异等MP3没有的特性,使得在音频压缩后仍能完美地再现CD音质。MP4技术的优越性要远远高于MP3,因为它更适合多媒体技术的发展以及视听欣赏的需求。但是,MP4是一种商品,它利用改良后的MPEG-2 AAC技术并强加上由出版公司直接授权的知识产权协议作为新的标准;而MP3是一种自由音乐格式,任何人都可以自由使用。此外,MP4实际上是由音乐出版界联合授意的官方标准;MP3则是广为流传的民间标准。相比之下,MP3的灵活度和自由度要远远大于MP4,这使得音乐发烧友们更倾向于使用MP3。更重要的一点是,MP3是目前最为流行的一种音乐格式,它占据着大量的网络资源,这使得MP4的推广普及难上加难。从长远来看,MP4流行是迟早的事(指其优越的技术性)。但是,如果MP4不改进其技术构成(即强加的版权信息)的话,那么,自由的MP3在使用了MPEG-2 AAC技术后,胜负就很明显了。
&&&&专家指数:43&&&&
采样是指用每隔一定时间的信号样值序列来代替原来在时间上连续的信号,也就是在时间上将模拟信号离散化.量化是用有限个幅度值近似原来连续变化的幅度值,把模拟信号的连续幅度变为有限数量的有一定间隔的离散值.编码则是按照一定的规律,把量化后的值用二进制数字表示.
把模拟信号转换成数字信号的过程称为模/数转换,它主要包括:
采样:在时间轴上对信号数字化;
量化:在幅度轴上对信号数字化;
编码:按一定格式记录采样和量化后的数字数据。
采样频率是指一秒钟内采样的次数。奈奎斯特(Harry Nyquist)采样理论:如果对某一模拟信号进行采样,则采样后可还原的最高信号频率只有采样频率的一半,或者说只要采样频率高于输入信号最高频率的两倍,就能从采样信号系列重构原始信号。
根据该采样理论,CD激光唱盘采样频率为44KHz,可记录的最高音频为22KHz,这样的音质与原始声音相差无几,也就是我们常说的超级高保真音质(Super High Fidelity-HiFi)。采样的三个标准频率分别为:44.1KHz,22.05KHz和11.025KHz。
量化位是对模拟音频信号的幅度轴进行数字化,它决定了模拟信号数字化以后的动态范围。由于计算机按字节运算,一般的量化位数为8位和16位。量化位越高,信号的动态范围越大,数字化后的音频信号就越可能接近原始信号,但所需要的存贮空间也越大。
量化位 等份 动态范围(dB) 应用
8 256 48-50 数字电话
有单声道和双声道之分。双声道又称为立体声,在硬件中要占两条线路,音质、音色好,但立体声数字化后所占空间比单声道多一倍。
编码的作用一是采用一定的格式来记录数字数据,二是采用一定的算法来压缩数字数据。压缩编码的基本指标之一就是压缩比:
压缩比通常小于1。压缩算法包括有损压缩和无损压缩;有损压缩指解压后数据不能完全复原,要丢失一部分信息。压缩比越小,丢掉的信息越多、信号还原后失真越大。根据不同的应用,可以选用不同的压缩编码算法,如PCM,ADPC,MP3,RA等等。
数据率=采样频率(Hz)×量化位数(bit)×声道数(bit/s)
&&&&专家指数:20728&&&&
相关资料下载
<font color="#5人关注
<font color="#20人关注
<font color="#1人关注
<font color="#0人关注
<font color="#71人关注
<font color="#28人关注
<font color="#74人关注
<font color="#88人关注
<font color="#6人关注
<font color="#03人关注
聘: 需求人数:3 人
地点:汕尾市,阳江市,云浮市,肇庆市,佛山市
聘: 需求人数:2 人
地点:晋中市
聘: 需求人数:4 人
地点:海外
聘: 需求人数:10 人
地点:兰州市
聘: 需求人数:2 人
地点:铜川市
聘: 需求人数:1 人
地点:北京市
聘: 需求人数:5 人
地点:福建省
聘: 需求人数:50 人
地点:乐山市,雅安市,泸州市,凉山彝族自治州,眉山市
聘: 需求人数:1 人
地点:海外
聘: 需求人数:1 人
地点:大理市
赞助商链接
Powered by

我要回帖

更多关于 音频采样速率 的文章

 

随机推荐