一文看懂数字音频格式：什么是无损音质和高保真音质

威力声音响小威

本帖最后由威力声音响小威于 2023-11-8 17:49 编辑

目前全世界的音频格式，光名称就有100多种，对于没接触过的人来说，仅仅只是看就眼花缭乱，因此本帖尝试从原理的角度来分享一下：对于新人，可以如何理解数字音频格式。
一、尝试创造一个数字音频格式；
想要快速了解一个东西，可以尝试一步一步创造出来。要创造一个数字音频格式，需要先了解它的基本步骤：采样、量化、预处理和编码；
1、采样：
是指每隔一定的时间间隔，对音频信号的振幅进行测量，得到一系列的采样值。采样的频率称为采样率，它决定了音频信号的最高频率，也就是音频的细节。采样率越高，音频的细节越多，但是数据量也越大。常见的采样率有44.1kHz、48kHz、96kHz、192kHz等。采样频率必须大于或等于信号最高频率的两倍。
现在，假设我想对一首录音3分钟的歌曲进行采样，它的时长是3分钟，它的采样率是44.1kHz，也就是每秒钟采样44100次。那么，这首歌曲的采样值的个数就是44100*3*60=7947600个。

2、量化：
量化是指将每个采样值用一定的位数来表示，得到一系列的二进制数，就是用多少个二进制位来表示一个采样值——位深，位深的单位是比特（bit）。位深越高，表示的状态越多，采样值的精度越高，音频的质量越好，但也需要更大的存储空间和更高的处理能力。位深越低，表示的状态越少，采样值的精度越低，音频的质量越差，但也可以节省存储空间和处理能力。一般来说，音频的位深有以下几种常见的取值：8 bit、16 bit、24 bit、32 bit等。
现在我们用16bit的位数来对这首歌的每个采样值来进行表示，于是就能得到这首歌的全部二进制位数：7947600*16=127161600位。127161600位数的二进制有多大呢？大概是15.16MB。（数据大小（字节）=位数/8）

3、预处理和编码；
预处理：
是指在编码之前，对采样值进行一些变换或滤波，以提高压缩效率或音质。预处理的方法有很多种，比如差分、预测、滤波、变换等等。预处理的目的是将采样值转换为更容易压缩的形式，比如去除线性相关性、减少熵（就是音频中的冗余）、增加稀疏性等。
由于我们用16bit的位深来表示一个采样值，在编码之前需要对它进行预处理，这样就可以用更少的位数让计算机来处理；
编码：
编码是指将预处理后的采样值用一定的规则来存储或传输，得到一种特定的音频格式。编码的规则称为编码方式，它决定了音频信号的压缩效率和兼容性，也就是音频的大小和功能。编码方式有很多种，可以分为无压缩、无损压缩和有损压缩三大类。无压缩的编码方式不会改变音频信号的信息，比如PCM（Pulse-Code Modulation）。无损压缩的编码方式会减少音频信号的数据量，但不会损失任何信息，比如FLAC（Free Lossless Audio Codec）。有损压缩的编码方式会大幅度减少音频信号的数据量，但会损失一些信息，比如MP3（MPEG-1 Audio Layer 3）。
还是上面那首16bit的歌曲，现在用MP3的编码方式对它进行编码，得到一个MP3文件。你可以发现，MP3文件的大小比原来的二进制数据小得多，比如3MB左右，但是音质也会有一些损失，比如一些高频或低频的细节会被去除或压缩。这样就得到了一个MP3格式的歌曲了（当然3M的大小音质肯定非常一般）

那如果想要得到无损音质呢？
这就需要采用无损编码技术了，这种技术一般会利用人耳的听觉特性，对音频数据进行筛选、削减和量化，去除人耳不易察觉的音频信息，从而压缩音频。一般来说，所谓的无损音质和高保真是指音频的质量和逼真度较高，但是这两个指标的量化评价标准需要参考很多方面，一般离不开数学模型和算法，还有人的主观评价。

二、常见的数字音频格式；
这里介绍一些常见的高保真数字音频格式：

1、PCM（脉冲编码调制）：这是一种无损的编码技术，它将模拟信号转换为数字信号，每个采样值用一个固定的比特数来表示，PCM编码的音频文件一般以wav或aiff为扩展名。
2、FLAC（无损音频压缩编码）：这是一种无损的编码技术，它对PCM编码的音频文件进行压缩，以减少文件的大小，但不会损失音频的质量。FLAC编码的音频文件一般以flac为扩展名。
3、MP3（动态音频压缩编码）：这是一种有损的编码技术，它对PCM编码的音频文件进行压缩，以大幅度减少文件的大小，但会损失一些音频的细节。MP3编码的音频文件一般以.mp3为扩展名。MP3编码的音频质量由比特率来衡量，比特率越高，音频质量越好，但文件大小也越大。一般来说，128 kbps以上的MP3编码的音频可以达到高保真的水平。

4、WAV（Waveform Audio File Format）：WAV是一种由微软和IBM开发的数字音频格式，它是一种标准的PCM格式，可以支持多种采样率和位深，也可以支持多声道和元数据。WAV是最常用的无压缩格式之一，它可以在Windows和Mac OS等操作系统上广泛使用，也可以被多种音频软件和硬件支持。WAV的文件扩展名是.wav。
5、AIFF（Audio Interchange File Format）：AIFF是一种由苹果开发的数字音频格式，它也是一种标准的PCM格式，可以支持多种采样率和位深，也可以支持多声道和元数据。AIFF是另一种常用的无压缩格式之一，它可以在Mac OS和Windows等操作系统上广泛使用，也可以被多种音频软件和硬件支持。AIFF的文件扩展名是aiff或.aif。
6、ALAC（Apple Lossless Audio Codec）：ALAC是一种由苹果开发的专有的无损压缩格式，它也可以支持多种采样率和位深，也可以支持多声道和元数据。ALAC的压缩比大约是40%到60%，也就是说，它可以将无压缩格式的数据量减少四分之一到一半，而不会损失任何信息。ALAC是另一种常用的无损压缩格式之一，它可以在苹果的操作系统和设备上广泛使用，也可以被一些音频软件和硬件支持。ALAC的文件扩展名是.m4a或.alac。
7、APE（Monkey's Audio）：APE是一种由马修·T·阿什兰德（Matthew T. Ashland）开发的专有的无损压缩格式，它也可以支持多种采样率和位深，也可以支持多声道和元数据。APE的压缩比大约是50%到60%，也就是说，它可以将无压缩格式的数据量减少一半左右，而不会损失任何信息。APE是一种较为少见的无损压缩格式，它主要在Windows和Android等操作系统上使用，也可以被一些音频软件和硬件支持。APE的文件扩展名是ape。
8、杜比音频格式（Dolby plus、TrueHD、Atmos），简单理解就是声道（前声道、侧声道、高声道、低声道，后声道，这些声道）和音频对象非常丰富的音频格式。

KEF LSX II（现在对产品参数是不是更熟悉了）

三、数字音频格式的发展
因为采样，量化，预处理，编码是数字音频技术的基本步骤，它们决定了数字音频的质量和效率。可以这样理解，数字音频技术的发展就是在不断地改进和创新这四个处理过程，以适应不同的需求和场景。

flytosun · 2023-11-9 10:24

科普贴，赞一个

一生的朋友 · 2023-11-9 17:23

学习了，谢谢楼主分享

hesiyu · 2023-11-15 14:51

专业知识，明白了

Hao4K影音

[交流分享] 一文看懂数字音频格式：什么是无损音质和高保真音质

威力声音响小威帖主

全部回复3

flytosun 2楼

一生的朋友 3楼

hesiyu 4楼

威力声音响小威
不妨关注一个

图文推荐

除了手机控制APP，doopoo X3 42版固件还升级了什

【芝杜UI美化包】葬送的芙莉莲--官方默认排序

【芝杜UI美化包】我心里危险的东西--官方默认排

网店里的5.1解码器有人买过吗？主板解码芯片疑问

杜比视界播放实测｜雷鸟+极空间+麦尼塔播放器

【科普】什么是音箱/扬声器/喇叭的分割振动