让音乐「更好听」的代价：可视化谈频响、动态与不可逆损失

让音乐「更好听」的代价：可视化谈频响、动态与不可逆损失
Matrix精选 2026年06月26日 12 分钟阅读 12 分钟阅读Matrix 首页推荐Matrix 是少数派的写作社区，我们主张分享真实的产品体验，有实用 2026-6-29 03:14:58 Author: sspai.com(查看原文) 阅读量:5 收藏

Matrix精选 2026年06月26日 12 分钟阅读

12 分钟阅读

Matrix 首页推荐

Matrix 是少数派的写作社区，我们主张分享真实的产品体验，有实用价值的经验与思考。我们会不定期挑选 Matrix 最优质的文章，展示来自用户的最真实的体验和观点。

文章代表作者个人观点，少数派仅对标题和排版略作修改。

导论

我们讨论音质时，往往会先想到播放器、耳机、音箱，或者 DAC 与放大器。不过很多时候，一首音乐的听感在播放之前就已经被决定了。

同一首音乐在不同处理中，会表现出不同的频响、动态与空间感。有些版本听起来具有冲击力，却被响度均衡打回原形，甚至适得其反；有些版本高频突出，却伴随着难以纠正的刺耳感；还有一些作品没有明显的问题，声音依然拥挤、混浊，甚至难以分辨声音的空间来源。

这些现象并不总来自回放设备。

在数字音乐的发行链路中，从混音、母带处理、动态压缩，到有损编码与流媒体平台的响度标准，这些处理都会对最终听感产生影响。一些问题可以缓解，一些损失则几乎无法恢复。如瞬态丢失、被舍弃的频率信息，以及被响度战争长期塑形后的音乐风格。

我们不讨论「玄学音质」，也不会尝试用主观形容词定义声音。相反，我们更关注一些能够被观察、测量与可视化的内容：

频谱与频响
动态范围与 LUFS
波形与峰值限制
有损编码带来的不可逆损失
不同数字发行版本之间的差异

也许在排除了设备因素之后，我们仍然能够从数字音频本身，找到一些关于「为什么它听起来如此」的答案。

声明

我们会使用一些来自 Apple Music 和 Mora（自购）的音乐作为案例分析，不针对任何音乐人和曲目。选曲可能不会非常全面，带有个人偏好，这些音乐类型包括但不限于：

Anime OST
J-Pop
VOCALOID
EDM

以及其它没有列出或难以分辨的音乐类型。

使用的来自 Apple Music 的音乐均为 ALAC 编码的最高规格音频，来自 Mora 的音乐均为可以购买的、最高规格的音频，下文不标具体规格。

少数派对图片大小有限制，本文中使用的图片均转换为 SVG 且压缩处理，完整图片请移步文末 Nalanyinyun's Library。

我不是音乐人、乐评人，也不是音频工程相关从业者，不针对任何音乐人和任何音乐发表任何艺术方面的评价，观点仅供参考。本文不关心音乐本身如何设计，也不关心回放相关的问题（由源文件分析而得数据），涉及的听感仅为我的主观感受。受限于现实条件，无法获得母带，敬请谅解; 受制于现实条件，无法提供用于分析的音频源文件。

涉及主观听感的部分欢迎讨论; 设计音频相关信息的部分，欢迎指正；涉及音乐大类的部分，欢迎纠正。除此之外的内容，恕不回复。

我们使用 ffmpeg 依照 EBU R128 得到数据，具体的指令如下：

ffmpeg -i input.flac -af ebur128=peak=true -f null -

文中使用的图表均从 Sonic Visualizer 导出，使用了 VAMP 和 BBC 插件的部分功能。

响度战争、动态范围与压缩器

响度战争从未结束

很多文章谈论响度战争都是从一个回望过去的角度，但从我自己的听感体验来说，响度战争其实从未结束。

我自己曲库里的一些音乐，从听感上来说，它并不会因为响度高而显得「亮」，反而呈现出一种异常的拥挤与浑浊。

这是因为动态范围被压缩导致的瞬态模糊。当整首歌的能量长期维持在接近 0dBFS 的水平时，乐器之间的空隙消失了。架子鼓的敲击不再具有清晰的颗粒感，而是变成了一堵持续的声墙；人声被伴奏牢牢地「按」在中间，难以突显。

来看一个例子：Atmosphere - Heart's Cry, Lilja Katsuragi (Mora)

Category	Parameter	Value
Integrated loudness	I	-12.6 LUFS
	Threshold	-23.2 LUFS
Loudness range	LRA	14.0 LU
	Threshold	-33.2 LUFS
	LRA low	-23.8 LUFS
	LRA high	-9.7 LUFS

可以看见这首曲子的动态表现相当优秀，一个是没有压缩问题，另一个是 LRA 来到了 14 LU，这是一个非常有呼吸感的响度范围，可以说比很多流行音乐更优秀，同时均值控制在 -12.6 LUFS，这是一个很健康的响度。

再看一个例子：快晴 - Orangestar、IA（mora）

Category	Parameter	Value
Integrated loudness	I	-5.8 LUFS
	Threshold	-15.9 LUFS
Loudness range	LRA	1.7 LU
	Threshold	-25.9 LUFS
	LRA low	-6.9 LUFS
	LRA high	-5.2 LUFS

从波形可以观察到，整段音频几乎长期处于接近满幅状态，动态峰值与平均能量之间的差距极小，说明母带处理过程中使用了较强的限制器以提高整体响度。

LRA 只有 1.7 LU，意味着整首歌基本没有响度上的变化，作为参考，LRA 在这个水平的通常是脱口秀。响度均值来到了 -5.8 LUFS，这是一个会被流媒体响度均衡严重压缩的水平。

从听感上来说，它其实就会发闷，包括这首歌的中高频区域非常拥挤，几乎掩盖了 IA 的声音，难以分辨会让它听起来很累耳朵，不过那不是这节讨论的问题，只是顺带一提。

这也是现代音乐常见的一个问题，响度归一化某种意义上「揭穿」了响度战争：当所有歌曲最终都会被拉回接近相同响度时，那些依赖高平均响度制造冲击感的母带，往往会率先暴露出动态贫乏的问题。

回放增益和响度均衡带来了什么？

响度均衡（响度归一化）与回放增益在我看来，算得上是应对响度战争的一种产物。据我了解，Apple Music 的目标响度是 - 16 LUFS。，Spotify 为 -14 LUFS，它们的处理发生在设备端播放时，并不涉及源文件。

我们来看一个例子，我会呈现它的原始波形图和响度信息，以及经过响度均衡（目标 -16 LUFS）处理之后的相关信息：

月は綺麗だ - iMeiden，花鋏キョウ（Apple Music）

处理之前：

Category	Parameter	Value
Integrated loudness	I	-5.9 LUFS
	Threshold	-16.4 LUFS
Loudness range	LRA	5.4 LU
	Threshold	-26.4 LUFS
	LRA low	-9.9 LUFS
	LRA high	-4.5 LUFS

处理之后：

Category	Parameter	Value
Integrated loudness	I	-16.0 LUFS
	Threshold	-26.1 LUFS
Loudness range	LRA	6.3 LU
	Threshold	-36.1 LUFS
	LRA low	-20.6 LUFS
	LRA high	-20.6 LUFS

值得注意的是，响度均衡之后，这首歌的 LRA 反而变大了。尽管 6.3 LU 不算一个特别优秀的水平，但也可以说明经过响度均衡之后，它的动态范围表现比一般的流行音乐更好。

放大图片可以发现，它在波密集的部分也出现了比较明显的限制器痕迹以及不太明显的砖墙，这是录音文件的缺陷，而这部分丢失的信息已经无法还原了。体现在原曲上，就是架子鼓镲片系统的镲比较刺耳，因为波峰部分丢失了。同时鼓组的频响也不完整，有削波的痕迹。

来看另一个比较极端的，钉鞋摇滚的例子：

SUNFADED - 長谷川白紙、篠泽广（Mora）

Category	Parameter	Value
Integrated loudness	I	-14.1 LUFS
	Threshold	-24.1 LUFS
Loudness range	LRA	2.0 LU
	Threshold	-34.2 LUFS
	LRA low	-14.9 LUFS
	LRA high	-12.9 LUFS

这首歌的 LRA 仅有 2.0 LU，但别忘了它的类别，噪声墙一样吉他声本就是钉鞋摇滚的特征，可以说是这首歌本身就是这么设计的，这种低动态并不一定意味着制作问题，而可能是风格本身对噪声密度与持续能量的刻意追求。

同时它的响度均值为 -14.1 LUFS，这是一个比较健康的水平，与 Spotify 的目标响度接近。

可见，响度均衡的作用其实并非降低音量或者损伤音质，在我看来它很有一种「潮水退去，谁在裸泳」的味道。

它很大程度上消除了响度大和第一耳优势的强关联，撞限制器严重和动态范围却显得歌曲在「声音变小后」反而会发闷，也不如源文件那么响（而非亮），暴露出来母带阶段就存在的制作问题。很可惜的是，这些已经被限制器削去的细节，是我们无法挽回的。

所以把上一小节的话拿出来重新说一遍，就是：

响度归一化在某种意义上「揭穿」了响度战争：当所有音乐被拉回相近响度后，依赖平均响度获得优势的母带结构会更容易暴露其动态与频谱上的单一化问题。

时间分布、频谱重心与变化率

听感疲劳

一首歌听起来疲劳的原因有很多，不过通常来说，较为常见的是：

时间结构过于单调
频谱重心长期集中在人耳敏感区域
高频能量占比过大，且持续时间过长

这些现象其实也与听觉疲劳研究中的部分结论相吻合

研究显示（Rogowski, 2017; Mehrparvar et al., 2021）受试者对高频区域的疲劳产生和辨别力下降速度显著快于其他频段，且 6 ～ 10 kHz 的声音刺激更容易导致早期隐性听力损伤与疲劳阈值上升。与此同时，时间结构过于单调的音乐会导致大脑失去预测的奖励，进而诱发精神疲劳（Salimpoor, V. N., et al. 2021），动态范围小且缺乏结构变化的声音相比有变化的声音导致的听觉疲劳会严重的多（Orsini et al., 2024）。

接下来，我们从音乐的频谱通量、频谱重心和时频图来尝试量化这种听感。

频谱通量、频谱重心与时频图

来看一个例子：Starlight - 洛天依、PoKeR、K_Lacid

绿线为频谱重心（代表声音能量主要集中在哪个频率），纵轴单位为 Hz，线性; 紫线为频谱通量（衡量音频信号前后两帧频谱变化剧烈程度），纵轴为对数尺度且已经求导，数值为无量纲变化率，为便于观察，没有标出具体数值。

可以观察到，这首歌整体在时间结构上的变化相对有限，从频谱通量的趋势来看，变化速率并不算大，也因此整体起伏感不算明显

在频谱重心上，能量主要集中在 560 Hz 以下的区域，在这首歌中很可能对应低频打击乐与鼓点等元素。

与此同时，在副歌段落中，6～10 kHz 区间的能量也有明显抬升，但这种高频增强并不贯穿全曲，而是集中出现在特定片段。

这种频段上的分布，在听感上可能会带来较大的主观差异：有些人会更容易感到疲劳，而也有人几乎不会产生明显不适感，我自己属于后者。

另一个例子是：

NEO SKY, NEO MAP! - Nijigasaki High School Idol Club (mora)

从上图中可以看到，这首歌在时间结构与上一首有较为相似的特征。

时频图中可以发现 86 ～ 800 Hz 的能量较大，且 1 ～ 4 kHz 的能量也较多，副歌相较主歌没有太明显的能量抬升。

在实测中没有发现此类问题明显的歌曲，也欢迎各位欢迎补充。

心理声学、有损压缩与掩蔽效应

有损压缩的核心思想，是利用人耳的掩蔽效应，将低于听觉阈值的频域信息进行量化或舍弃。它也是导致听感疲劳的一个重要因素。

高频较为密集的歌曲，声音在同一频段的竞争太强，会出现明显的掩蔽效应，这是听感上觉得糊的一个来源。

什么是掩蔽效应？

图中红色波形与蓝色波形重叠的部分，强信号会抬高局部听觉阈值，使低于该阈值的频率成分不可感知，这种现象称为掩蔽效应。

我们来做一个小实验，将一首规格较高的无损音频重新用 LAME 编码为 MP3，再来对比他们的相关指标。

REMEMBER - SawanoHiroyuki[nZk]

原曲为 FLAC 96 kHz 24 bit 4646 kb/s，压缩后为 MP3 48 kHz 414 kb/s

为确保频谱对齐，使用 sox input.flac output.flac rate -v -M 48000 对原曲进行了重采样，利用此文件转换为 MP3。考虑到性能问题，不在这里放出完整的 SVG 图了，有兴趣查看的可以从文末获取。

截取原曲的部分副歌区域进行对比：

可以观察到即便是同一首歌的同一时间，编码前后的音频波形差别很大，相较原音频，处理后的音频出现了明显的毛刺和振铃。

这些毛刺和振铃的出现原理比较类似于吉布斯现象，但并不是，更多是因为其它的信号处理问题，比如说时间频率分辨率折中问题，我不太懂，就不解释更多了。

图为频谱通量，可以观察到较为明显的瞬态损失。紫线为 FLAC，橙线为 MP3。相较原文件，处理后的文件频谱通量整体上被抹平了，同时多了一些原曲并没有的尖峰。

可见，有损压缩虽然可以大幅压缩文件大小，但在复杂音乐（尤其高频密集、瞬态丰富）中，会带来可测量的结构性失真与动态细节损失，在本例中较为明显。

尾语

从混音与母带阶段的动态压缩，到响度战争中被推高的平均能量，再到流媒体平台的响度归一化，以及最终有损编码对频谱细节的裁剪，每一步都在改变声音的某个维度。这些变化有些是为了「更响」，有些是为了「更稳」，也有些是为了「更省」，但它们共同的结果，是让原本连续、自然、具有呼吸感的声音结构，逐渐变成一个更扁平、更稳定、但也更难恢复细节的版本。

有趣的是，这些损失并不总是以失真的形式显现。很多时候，它们反而以一种「更好听」的外观出现：更尖的高频、更高的响度、更震撼的第一耳听感。但当我们用频谱、动态范围或瞬态变化去观察时，会发现这些「更好听」的代价，往往是信息的丢失。

于是，一个有趣的现象出现了：越是优化的声音系统，越容易在某些类型的音乐上暴露疲劳感；而越是追求响度，也越容易在归一化之后原形毕露。

这并不是设备的问题，而是信息在链路中逐层被重塑的结果。

从这个角度看，音质并不只是一个更高规格、更好设备的问题，而是一个信息保留与信息取舍的问题。每一次压缩、限制、归一化，本质上都是在回答同一个问题：哪些声音值得被留下，哪些可以被认为「不可感知」。

而心理声学的存在，让这个问题变得更加现实。但「不可感知」并不等于「不存在」，只是被感知系统暂时忽略。但当这些被忽略的部分累积到一定程度，它们就会以另一种形式回到体验中，比如疲劳、钝化、或者难以解释的「发闷感」。

答案可能并不在播放器，也不在耳机，而是在音乐抵达我们之前，它已经经历了一整套关于「可听性」的裁剪过程。

而我们所谓的「音质」，可能也只是这些处理的累加结果吧。

文章也发表在独立博客 Nalanyinyun's Library 纳兰音韵的大图书馆上：

目前提供邮件订阅服务，本站不定期更新技术类、文学类文章：

感谢阅读。

> 下载少数派 2.0 客户端、关注少数派公众号，解锁全新阅读体验 📰

> 实用、好用的正版软件，少数派为你呈现 🚀

文章来源: https://sspai.com/post/111462
如有侵权请联系:admin#unsafe.sh