APP下载 微博 微信

Hao4K影音


[交流分享] 你和机器谁更懂音质?一文了解什么是音频质量评价

  [复制链接]

发表于 2023年10月27日 17:42 5412 3 来源:家庭影院> 交流分享 回帖奖励 |倒序浏览 |

威力声音响小威 帖主

2023-10-27 17:42

当你在体验音箱带给你的听觉享受时,是否思考过这样一个有趣的问题:为什么你会觉得音箱的音质好或者差?你是如何得出评价结论的?每个人的标准不一样,回答这个问题,换个角度来思考也许可以得到有趣的答案,这个角度就是:计算机是如何学习和判断音质的好坏的?

一、音频质量评价
1、这个评价可以大致分为三个阶段:

第一阶段:20世纪50年代至70年代,测试主要集中在音频系统的物理参数和客观测量上,如频率响应、失真、信噪比等,以及它们与人类听觉感知的关系。
第二阶段:20世纪80年代至90年代,则开始涉及音频系统的主观评价和心理声学方法,如偏好、质量、清晰度、空间感等,以及它们与音频系统的物理参数和客观测量的关系。
第三阶段:21世纪初至今,测试的研究进一步发展了音频系统的多维度和多层次的评价模型和方法,如基于信号处理和机器学习的客观评价算法、基于统计分析和因子分析的主观评价框架、基于虚拟现实和仿真技术的高保真测试环境等 。


2、机器学习和判断音频质量
这是一个利用信号处理和机器学习算法来评估音频系统或设备的音频质量的高保真测试方法。

那么问题来了,什么是音频质量?

我们人类理解的音频质量是指人们对声音的主观感受和评价,例如声音是否清晰、舒适、自然等。音频质量受到很多因素的影响,例如声源、环境、设备、编码等。不同的人对音频质量的要求和标准也不一样,例如有些人喜欢低音重一些,有些人喜欢高音亮一些。
如果想要让机器也能像人类一样理解音频质量,离不开算法和模型。

3、机器是如何学习的?
比较常见的情况,是通过一种叫做卷积神经网络(CNN一种模仿生物视觉系统的人工神经网络)的算法来学习,它可以从图像或声音等数据中提取局部特征,并通过多层的卷积和池化操作,逐渐形成更高层次和更抽象的特征。举个例子,音频的音高、响度、节奏等这些信息可以反映音频信号的物理属性,也可以反映音频信号带给人的心理属性,像什么低音深沉,高音饱满通透。

卷积神经网络(CNN)它可以从图像或声音等数据中提取局部特征,如边缘、纹理、形状等这些模式或结构可以反映数据的基本特征,也可以反映数据的高级语义,如情感,并通过多层的卷积和池化操作(简单理解就是通过捕捉局部特征,然后再用筛子来筛选出自己想要的信息),逐渐形成更高层次和更抽象的特征,也就是音频的节奏、韵律甚至是和弦等,我们可以把这些形成的更抽象的特征称为音频的时序变化和内在规律。

4、音频的时序变化和内在规律;

音频信号的时序变化是指音频信号在时间上的变化,例如声音的强弱、高低、快慢等
音频信号的内在规律指的是音频信号中隐藏的一些模式或结构,例如上面提到的节奏、韵律、和弦等。音频信号的时序变化和内在规律,可以反映音频信号的内容和特点,也可以影响音频信号的感受和评价。例如,一首歌曲的时序变化和内在规律,可以让我们知道这首歌曲是什么风格、什么情绪、什么意义等,也可以让我们觉得这首歌曲是好听的、动听的、感人的等。


当机器通过我们设置的一系列复杂的算法抽象出音频的特征以后,我们还需要一个评价体系让机器映射,也就是音频质量分数。

二、音频质量分数
音频质量分数定义标准是由国际电信联盟(ITU)制定的,它是基于人类听觉感知的原理和实验的结果。目的是为了提供一个客观、可靠、一致的方法来评估音频信号的主观感受和评价,以便于对音频系统或设备进行设计和优化。

1、分数的标准:

分数定义标准的依据是人类对声音的理解和喜好,以及声音对人类的影响。人类对声音的理解和喜好,主要取决于声音是否能够传达清晰和准确的信息,以及声音是否能够引起舒适和愉悦的感受。声音对人类的影响,主要取决于声音是否能够适应不同的场景和需求,以及声音是否能够增强或降低人类的注意力和情绪。

TU制定了一个介于-0.5到4.5之间的实数作为音频质量分数。这个分数越接近4.5表示越好,越接近-0.5表示越差。这个分数是通过一种基于深度学习算法和模型的工具计算出来的,这个工具可以从音频信号中提取多种特征,并将其映射到一个音频质量分数,根据大量的人类主观评价数据来训练和优化,以使得它能够模仿人类听觉感知的过程,并与人类主观评价具有很高的相关性和一致性。

为了反映不同程度和类型的音频质量差异,ITU将音频质量分数分为以下六个等级:

-0.5 - 1.0:无法理解任何意义
1.0 - 2.0:需要极大努力才能理解部分意义
2.0 - 3.0:需要较大努力才能理解大部分意义
3.0 - 3.5:不需要太大努力就能理解全部意义
3.5 - 4.0:不需要任何努力就能理解全部意义
4.0 - 4.5:完美无缺

ITU音频评价标准.png
ITU音质主观评价常用术语


(可以参考一下,是否与自己的主观评价标准类似)

三、我们的音频评价过程
不难看出,机器学习算法和模型和我们的认知评价有一些相似之处:

1、无论是机器学习算法和模型,还是人类听觉系统,都需要从音频信号中提取一些有用的信息,例如频率、幅度、相位等。这些信息可以反映音频信号的物理属性,也可以反映音频信号的心理属性,例如音高、响度、节奏等。
2、都需要利用多层的结构来处理特征,例如卷积神经网络(CNN)、长短期记忆网络(LSTM)、我们则是内耳、外耳、中耳、大脑等。这些结构可以实现特征的变换、组合、抽象等操作,从而形成更高层次和更复杂的特征
3、都需要根据特征来生成输出或预测,例如音频质量分数、音频失真类型、声音品质、声音情感等。这些输出或预测可以反映音频信号的主观感受和评价,也可以反映音频信号的意义和功能。


觉得有用的话不妨点一个关注或者点击HAO40k app端我的群聊,我会定期分享音响音频相关的知识,有感兴趣的话题也可以在下方留言,一起交流!


HAO40k知识分享群.jpg



回复

使用道具 举报

全部回复3

邪恶奥多姆 2

2023-11-7 00:58

回复 支持 1 反对 0

使用道具 举报

雨少 3

2023-11-28 17:16

回复 支持 反对

使用道具 举报

yanzheng1991 4

2024-3-14 00:42

谢谢,有意义的科普
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

返回列表 本版积分规则



绑定微信 + 关注公众号,第一时间获得消息通知!
:
发烧刚入门
:
介绍未填写

主题

帖子

积分171

Hao4K影音app客户端下载