语音压扩技术小结_语音压扩电路

2020-02-28 其他工作总结下载本文

语音压扩技术小结由刀豆文库小编整理，希望给你工作、学习、生活带来方便，猜你可能喜欢“语音压扩电路”。

一、理论意义与实用价值

对语音信号处理的研究，无一不是实际应用需求的推动。语音的数字化传输和存储的研制成功，大大提高了语音传输和存储系统的可靠性、抗干扰性、快速交换和保密性，且极大地降低了其实现成本。语音压缩编码技术发展不仅为实现窄带通信系统的语音信号传输提供了技术上的可能，而且推动了低成本语音存储和语音合成系统的发展。数字语音信号已经广泛应用于通讯、多媒体网络以及民用消费类产品等诸多领域，并显示了模拟语音信号无可比拟的优势。

二、当前状况

1、问题由来

数字语音通信系统与模拟语音通信系统相比，具有抗干扰性强、保密性好、易于集成化等优点；数字语音存储技术与模拟语音存储技术相比，具有灵活性高、可控性强和寿命长等优点。语音信号的采集、编码、数字处理与压缩等技术已逐步渗透到人们的工作、生活、学习等各个领域。在过去十年的时间里，数字语音通信蓬勃发展。而促成这一发展的主要技术就是语音编码。

2、语音编码技术与解码技术

所谓语音编码，即是将模拟语音信号通过A/D转换器进行数字化采样，然后再将这些采样值进行有效的压缩编码，使之成为数字比特流，用于传输或存储；相应的语音解码器接受到这些数字比特流，将其解压缩还原成数字化的语音采样值，然后通过D/A转换器和扬声器将这些采样值还原成模拟的语音信号。

可以看出，语音编码的目的是得到语音信号的压缩表示，以便于进行有效地传输和存储。

3、语音编解码器分类与优缺点

基于对语音信号处理的方法不同，语音编解码器可以分为三种类型：波形编解器、音源编解器和混合编解器。

1）波形编解码器是把语音看作一般地波形来处理； 2）音源编码器又称为声码器，其是从语音波形信号中提取生成语音的特征参数，然后对特征参数进行处理；

3）混合编码器结合了音源编码技术和波形编码技术。

每种语音编码器根据其比特率（压缩程度），复杂性（MIPS）以及语音质量的不同而各具有其优缺点。

一般来说，波形编码器合成的语音质量高，但数据率也很高；音源编码器的数据率很低，合成语音的音质较低；混合编码器数据率和音质介于它们之间。

根据实际应用，语音编码系统通常可以分为两大类：第一类是编码-存储-回放系统，或称为数字语音录放系统，如图1(a)所示；第二类是编码-传输-解码系统，或称为数字电话通信系统，如图1(b)所示。

4、语音压扩技术的发展 1）声码器

最早对语音编码的研究是对声码器的研究。贝尔电话实验室的Homer Dudley首次提出语音编码的分析合成方法。那时Homer Dudley研究声码器的动机是开发在窄带电报电缆上传输语音信号。Homer Dudley分析了语音信号的基音和频谱，用周期信号（Buzz）或随机信号（Hi）去激励一个十阶模拟带通滤波器（代表声道）产生语音信号。

2）共振峰声码器、模式匹配声码器

在上世纪五十年代和六十年代期间，共振峰和模式匹配声码器得到了较大的发展。在共振峰声码器中，利用滤波器组的共振特性跟踪语音信号共振峰的变化。在模式匹配声码器中，从一组存储的频率信号响应模式中选择与语音信号的短时频谱匹配最好的模式，并用它来激励声道滤波器产生语音。模式匹配声码器首次在分析合成方法中采用了矢量量化技术。

早期声码器的实现都是基于模拟语音的，但是由于数字化语音便于加密、传输和存储，很快得到了重视。特别是在二十世纪四十年代，脉冲编码调制（PCM）取得了很大进展。脉冲编码调制是对模拟语音信号在离散时间和离散幅度上的直接量化，没有利用语音信号的任何相关性。利用语音信号的相关性的一些量化方法如差分脉冲编码调制（DPCM），Delta调制（DM），自适应差分PCM（ADPCM）等逐渐被提出。

3）线性预测技术、同态分析方法

随着数字计算机的出现，人们用更为复杂的方法来对语音信号进行数字表示。突出的进展是用全极点滤波器来模拟声道，滤波器参数通过线性预测（LP）分析获得。

除了线性预测分析以外，同态分析也是一种重要的分析方法，它能够将混合在一起的信号分开。同态分析的另外一个优点就是能够从倒谱中获得基音信息。

4）短时傅立叶变换分析合成法

上世纪六七十年代，随着超大规模集成电路技术和数字信号处理理论的发展，语音编码获得了很大的发展。

Flanagan和Golden提出了语音信号的短时傅立叶变换分析合成法。

Schafer和Rabiner设计和仿真了一个基于短时傅立叶变换的分析合成系统。Protnoff提出了用短时傅立叶变换对语音进行时域和频域分析的理论基础。

5）CELP编码器

被称为“码激励线性预测（CELP）”用随机矢量激励的线性预测算法。CELP中的随机激励是通过感知加权的闭合优化来获得的。CELP编码器结合了传统声码器和语音波形编码的波形匹配技术，标志了混合语音编码器的开始。

由于最初提出的CELP复杂度太大，所以又有大量改进的CELP算法被提出。近些年来，对语音编码的研究主要集中于低于4k/s码速率的低速率语音编码上，如2.4k/s和1.2k/s。

6）MBE编码器

MBE算法采用多带激励模型。这种模型使合成语音谱同原始语音谱在细致结构上拟合的很好。MBE编码器是一种完全参数语音编码器。基于MBE的改进算法IMBE已经成为国际海事卫星服务的标准。

目前，低价全双工2.4k/s基于AMBE的芯片已经生产出来，该产品可用于蜂窝电话、卫星通信、数字移动广播、保密通信、语音多路技术、语音信箱和视频会议等。

7)波形原型内插编码（PWI）

波形原型内插编码（PWI）在慢变化的基音周期波形的浊音帧间隔内传递一段原型波形，而没有传送的波形使用内插恢复。由于WI使用了余弦编码和线性预测技术，在低速率编码领域具有很大的潜力，目前在广泛的研究和改进，以便能在2.4k/s以下的速率达到高质量的语音。

三、波形编码——ADPCM 编码算法

CCITT G.711A 规定的 µ 律和 A 律 PCM 编码方式，在 64kb/s 速率上语音质量能够达到网络等级。但是它只利用了语音信号幅度的一维统计特性，当速率进一步降低时，语音质量将不到网络等级。ADPCM 进一步利用了语音信号样点间的相关性，并使用了自适应预测和自适应量化，能够在 32kb/s 的速率上给出网络等级的语音质量。

该算法的语音质量十分接近 G.711A 规定的 µ 律和 A 律 64kb/s PCM的语音质量，MOS 分为 4.1，经过 4 次同步转接后 MOS 分还在 3.5 分以上，达到网络等级。ADPCM 的抗误码性能优于 PCM，带宽为 200~3400Hz，采样频率为 8kHz，每一个样点用 4 比特编码。ADPCM 编解码器的工作原理框图如图 2.7所示。

1、输入输出单元

ADPCM 系统的输入输出信号都为标准的 µ 律或 A 律 64kb/s PCM 信号。由于标准的 64kb/s PCM 信号是经过对数压缩后的数字信号，它不能直接进行一般的算术运算，所以，在进入 ADPCM 编码系统前，必须把 µ 律或 A 律 PCM 码变成自然二进制码，即线性 PCM 码。而在接受端，则需要进行一次反变换，把ADPCM 解码系统得到的线性 PCM 码表示的重建信号变换成标准的 µ 律或 A 律64kb/s PCM 信号输出。

2、自适应量化器

ADPCM 系统采用的量化器是输入为高斯分布的最佳非均匀量化器，并且为了便于自适应运算，引入定标因子 y(k)。为了使量化器对语音信号和语音频带那内的数据信号都具有最佳的性能，可以使量化器的定标因子 y(k)由快速定标因子 yu(k)和慢速定标因子 yl(k)组合而成：

y(k)= al(k)*yu(k-1)+ [1-al(k)]*yl(k-1)

上式中，al(k)为自适应速度控制参数。对于语音信号，al(k)趋于 1，量化器快速自适应输入信号；对于数据调制解调信号或者音频信令信号，因为其信号功率变化范围比较小，al(k)趋于 1 的话会使量化器的参数随最佳参数的起伏而产生大的波动，因此应该慢速自适应，al(k)趋于 0，量化器慢速自适应输入信号这就是双模式非均匀自适应量化器。其定标因子 y(k)产生的原理框图如图 2.8 所示。

自适应速度控制参数 al(k)的得到，需要计算差值信号的短时平均与长时平均通过比较短时平均与长时平均之间的差值，来判决信号的平稳度，从而自适应速度控制参数 al(k)的值可以确定。

3、自适应预测器

语音信号是非平稳随机过程，其统计特性随时间不断变化，但在短时间隔内可以看作是平稳的，其特征参数近似不变。固定预测器的系数是根据语音信号长时统计参数求得的，所以不可避免同语音短时段不匹配，使得一些语音段的预测增益比较小，这会影响合成语音的效果。而 ADPCM 采用的预测器为自适应预测器，它可以随着语音特性的变化而不断地更新预测参数，因此能够获得很高的长时和短时预测增益。

G.721 32kb/s ADPCM 标准建议采用零极点后向序贯自适应预测器。它有 6个零点和 2 个极点，并且采用次优化的梯度符号法来自适应修正预测系数。

四、混合编码——AbS时域合成-分析

为了得到高音质而数据率又低的编译码器，历史上出现过很多形式的混合编译码器，最成功并且普遍使用的编译码器是时域合成-分析（analysis-by-synthesis，AbS）编译码器。这种编译码器使用的声道模型是线性预测滤波器模型，这与线性预测编码（LPC）声码器使用的模型相同。但是 AbS 编译码器不使用两个状态(有声/无声)的模型来作为声道滤波器模型的输入激励信号，而是企图寻找这样一种激励信号，使用这种信号激励声道滤波器模型产生的合成语音信号波形尽可能接近于原始语音信号的波形。

AbS 编译码器的一般结构如图 2.11 所示。

根据语音信号的短时相关性，AbS 编译码器把输入语音信号分成许多帧（frames），一般来说，每帧的长度为 20ms。合成滤波器的参数按帧计算，然后确定滤波器的激励参数。从图 2.11(a)可以看到，AbS 编码器是一个负反馈系统，通过调节激励信号 u(n)可使语音输入信号 s(n)与重构的语音信号 se(n)之差为最小，也就是重构的语音与实际的语音最接近。这就是说，编码器通过“合成”许多不同的语音近似值来“分析”输入语音信号，这也是“合成-分析编码器”名称的来由。在表示每帧的合成滤波器的参数和激励信号确定之后，编码器就把它们存储起来或者传送到译码器。在译码器端，激励信号馈送给合成滤波器，合成滤波器产生重构的语音信号，如图 2.11(b)所示。

合成滤波器通常使用全极点(all pole)的短期(short-term)线性滤波器，它的函数如：

H(z)= 1 / A(z)其中

是预测误差滤波器，这个滤波器是按照这样的原则确定的：当原始语音段通过该滤波器时产生的残留信号的能量最小。滤波器的极点数的典型值等于 10。这个滤波器的作用是企图去模拟由于声道作用而引入的语音相关性。

图 2.11 中的“误差加权”方框用来塑造误差信号谱的形状，目的是减少误差信号的主观响度。这样做的想法是，在语音信号能量很高的频段中，误差信号至少有部分能够被高能量的语音掩蔽掉。

五、语音编码技术的新进展

提到语音编码技术的最新进展，就不免要提到宽带语音编码器。ITU 不久前在瑞士日内瓦通过了高品质数字宽带语音编码新标准。这一标准将为通信系统、平台的广泛互用、执行以及通话质量带来很大程度的改进，无线和固话通话质量可望提高。

新标准涉及一些重要应用领域，包括：IP 电话、第三代移动通信、PSTN 高品质电话会议和商务应用(包括点到点和多点)、语音流、ISDN 宽带技术、ISDN可视电话和会议电视等。

标准编号为 G.722.2 建议，符合此标准的编解码器也被称为 AMR-WB 编解码器，已被 3GPP 采用，作为应用于 GSM 和第三代无线 W-CDMA 的宽带编解码器。这标志着无线与有线业务首次得以采用同一编解码器。AMR-WB 编解码器在语音质量方面取得了突破性进展，意味着 3G 与 IP 固定网络之间的互通更加容易。

据最新报道，诺基亚 CDMA2000 宽带语音编解码器（VMR-WB）提案被3GPP2 选中作为 CDMA2000 标准。

这一新型变速率多模式宽带语音编解码器（VMR-WB）可以在其数据速率与现在的窄带语音编解码器相同的条件下，提供强大的宽带语音通话质量。该语音编解码器能够实现高度清晰真实的通话，标志着当今无线和有线网络质量领域的突破性飞跃。

VMR-WB 标准不仅与 CDMA2000 速率组 II 全兼容，而且也与 3GPP2 选择的用于 GSM/WCDMA 网络的 AMR-WB 标准具有互操作性。VMR-WB 技术使CDMA2000 和 WCDMA 网络具有互操作性，无论使用哪种标准网络的移动用户都能够在全球范围内享受高价值的话音服务。VMR-WB 编解码器能够在信号极弱和背景噪音条件下确保高水平的性能，从而使网络在各种条件下都能够提供丰富的应用。一些基于 VMR-WB、振奋人心的应用包括移动终端到移动终端宽带话音呼叫、基于 IP 的呼叫（VoIP）、移动或固定网络音频会议、点到点和多点业务应用、流媒体和视频会议。附：

图.编码函数内部程序实现流程图

图.编码程序流程图

图.ADPCM G.726解码器算法框架描述

相关专题语音压扩电路小结语音技术语音压扩电路小结语音技术

[其他工作总结]相关推荐

[其他工作总结]热门文章

语音压扩技术 小结_语音压扩电路

语音压扩技术小结_语音压扩电路