type
Post
status
Published
date
Feb 27, 2026
slug
0015
summary
阶段性记录一下处理人声混音时我在想什么在做什么。供大家参考的同时给未来的自己提供一些复盘材料。
tags
音乐制作
category
杂谈
icon
password
可能会有刚接触贴唱混音的小伙伴来看,我尽量写得详细一些。不过这不是一篇看完就能立马上手混音并且接活的攻略贴,我也不想把每种插件的用法讲死、告诉你每个频段该干啥压缩该压多少(因为以前我也学过这些并走过弯路)。我会尽量聊一些方法论层面的东西以及我的思考和心得。也期待朋友们来一起交流。🥺
贴唱混音,就是在伴奏已经定死的情况下,把人声贴进去,仅此而已。不同于贴唱,在分轨混音时,你的手头有许多音轨,操作空间很大,可以使用各种各样的的决策达到同样的目的,最终听感也可以以更多样化的方式成立。但做贴唱时,能够操作的余量很小。要么处理人声,要么处理伴奏。
所以在准备工作中,需要花点心思尽量找质量够高的伴奏轨。在作者提供原伴奏的情况下,尽量使用未母带/unmastered的版本,或未经limiter压限过的版本。伴奏轨多出来的动态对于成品的听感影响巨大。
在做贴唱混音时,我觉得最好先忘记各种饱和、染色、激励等难以捉摸的高级词汇。我接触到的宅录干声,大多数情况下都有录音质量问题,比如环境噪声、低信噪比。处理这类干声,如果自己都没把握,按照某些固定模板使用一些饱和染色激励插件,不仅达不到使用这类插件的初始目的,反而容易让声音的质量劣化。所以我的建议是先不用,直到自己的耳朵能做出判断。
先总结我自己在做贴唱混音时一直考虑的几个点:
- 听不出来差异,即没有差异。不知道为什么要做的事不做。
- 最终目的:稳定的融合
- 手头所有设备的播放结果都尽量不差。
对于模板化的流水线混音来说,当然可以不考虑这些。但是我想训练自己的耳朵,想达成所有人都满意的结果,上面的几点是我一直在思考且贯彻的。
声音的前期处理
很多人会过度使用iZotope RX这类工具做人声的清理,比如去噪、去房混、去齿音。但暴力处理会伤及干声质量。我认为在没把握的情况下尽量少用,况且人声混进伴奏后一般的噪音和房混基本听不出来。(去口水音de-click还是很必要的,可以用RX适当做处理)
我只会在人声效果器链的开头用一个简单的EQ把低频的噪声砍掉。这一点非常重要,因为低频噪音会在层层效果器处理后被放得非常大。但也切记不要砍得太高,人声在200hz以下的内容即使很小声也有它的意义(很吵的EDM除外…可以大刀阔斧地砍)。

网上的很多教学会教你如何用很尖很窄的eq去扫整个频谱,清掉一些难听的共振。但对于耳朵不那么灵的朋友,具体该怎么扫怎么听其实没什么把握。在solo人声时做扫频做EQ,也是脱离语境处理内容,本身没有任何意义。
我的方法是把这类精细的surgical EQ放在混音后半程处理。因为难听的频率点会在后续的效果器链上放大,和伴奏混合就更容易听出来。此时再去做扫频(记住永远不要在solo人声的情况下做处理…)会更有把握一些。如果没把握的话就不要做了。当然现在的Pro-Q4和Soothe2之类的插件可以作为辅助自动处理共振峰问题,在干声问题较大的时候可以适当考虑用一下,但也不要用得太过分,容易伤到人声自然的体积感和动态。

我上面图中的EQ没做太多处理,因为本身干声质量够好。
另外,修对后的干声在放进混音工程后,可以进行整体的几毫秒的前移后移。这个很多人会忽略,比如快歌可以稍微靠前一点,而慢歌可以稍微后移一些,会带来一些律动上的差异,体感非常明显。
融合,以及稳定的融合
贴唱混音的最终目标是稳定的人声和伴奏的融合,但又需要不伤及情绪表现。我觉得手动控制的重要性在我以往的工作流中被忽略了。vocal和伴奏的融合性通过手动处理比较好,压缩只是增加稳定性的辅助工具。
音量
从我接触混音开始就一直接触一个概念,但直到最近我才意识到它的重要性,那就是混音的根本在于gain staging、在于音量平衡。我走了好多弯路研究压缩研究eq,但是我的耳朵听不出差别,我的手在无意义地乱动,结果自己也不满意。但这些问题可能从来都不复杂,可能只需要一个音量推子就可以解决。所以这是我最近一直在提醒自己的点,也希望刚接触混音的朋友能够尝试去理解和实践它:
能用音量推子和自动化解决的事不要交给各种插件效果器。
觉得人声太靠前、站得太出来了,那就砍一点音量。如果觉得被盖住了,那就加一点音量。80%以上的问题都能被解决。
现在我在混音工作开始前会花非常多的时间手动去调整干声样本每个部分的音量,砍掉特别明显的动态峰值,让每个部分尽量均匀一致:

以前我的习惯是直接串联多个压缩,或者加limiter来让干声前后音量一致。但实际上压缩器/压限器的本质也只是音量推子,只不过它们以自动化的方式代替我去做了本该由我来做的事。理论上我们可以用无限精细的音量自动化代替压缩和压限器。人声在不同段落的平均音量和动态范围差异如果太大,此时又想用一套固定参数来处理一整首歌的人声,实在是很难。大概率会出现响的地方压缩过多了、轻的地方音量不稳定的情况。所以事先手动调整音量很重要,多花一点时间能省下后面不少功夫…
另外,音量控制除了让人声的响度稳定,保证融合度以外,它还是歌声中情绪的一大来源。如果让插件在全局范围内以固定的参数控制干声信号,那么又该怎么让歌手的情绪表达凸显出来?除了上面的手动调整,我还会在人声压缩前额外加上一个音量推子,改变人声进入压缩的量。在歌手放开嗓子唱的时候,可以跟着把推子往上推一点,让压缩多压一点,声音变得更有攻击力和侵略性一些;在情绪收下去的时候,可以把推子拉回来,少一些压缩的量,留出录音时自然的人声动态。但一切以自己耳朵的判断为准。

呼吸声也是一样的。对于某些安静的emo一点的歌来说,呼吸也是演唱情绪的一大来源。该保留还是砍掉呼吸,最好也自己下决策手动处理。这也是我不建议用RX的de-breath类工具的原因(当然如果是压爆的EDM的话呼吸都删了也无所谓…)。另外记得修对时要把呼吸的节奏对好轨(
EQ
音量控制住了,但有时候会出现这样的问题:
比如我配合歌手的情绪把音量推上来了,压缩也很舒服,但是我感觉人声有点从伴奏里蹦出来了,该怎么办?
我的方法是配合音量推子另外加一个EQ,在1khz附近用一个比较宽的band,控制这个band的gain。

音量大了但是人声有点蹦出来抢戏,就把这个band给压下去一点;音量小了但是人声又有点薄,就把这个band提升一点。
这个band的具体频率是多少、Q值是多少,可以把vocal和伴奏一起播放,同时自己调整。

这是我Bitwig的截图,用其他DAW的朋友可能看不懂……
其实就是前后相邻的EQ和音量推子,我会同时画非常细的音量自动化曲线和这个EQ band的自动化曲线。基本上融合度问题能解决个七七八八。
压缩
前面已经做了如此细致的音量调整,我就没用非常过分的压缩设置了。我还是比较喜欢用CLA-2A。基本上压个3-5dB就够了。
对于贴唱来说下面的HI FREQ和FLAT的旋钮是很好用的调整工具。我会习惯往右拧一些些,它会更偏向对全频段的感应,压缩的一致感会高一点。
但如果觉得压缩感太明显了,想把人声动态再放出来一些,可以把它适当调回居中甚至偏左一些的位置,它会更偏向感应高频内容,类似一个de-esser。
就没了。

当然,很多宅录干声的问题在于,翻唱歌手会在漫长的时间跨度上断断续续录很多的take再进行拼接。这会导致同一段干声前后的听感不一致。比如今天我离麦克风10cm录,后天我离麦克风20cm录,频响会完全不一样。所以有时候会需要一个多段压缩来控制一下干声前后的一致性。
我会视情况在CLA-2A前加一个多段压缩(我用的是Pro-MB)。

频段的设置也需要视情况而定。
近讲效应的差距在六七百hz往下的部分可能会比较明显,可以加一个band来控制一下。
2k到5k这种人耳很敏感的区域也可以稍微控制一下防止特别刺耳的情况出现。
当然所有的处理都最好在vocal和伴奏同时播放的条件下进行。多段压缩容易压得过多,可以最后调整一下mix来控制想要的压缩量。
音高
对的,即使修对完,音高仍旧可以调整,而且它非常影响人声伴奏融合度。有时候我会觉得vocal和伴奏怎么做都融合不到一块去,这时我会想想是不是音高音准的问题。当然不是说修对没修好,而是人唱歌总是会有一些微妙的音高偏移需要去finetune的。所以在大部分现代流行歌中,我们都可以适当加一点autotune来处理。

autotune不作为风格化处理来源时,参数设置一定要小心一些。
Retune Speed是量化的速度,如果拧到最右数值很小,那就变成Travis Scott了。尽量保证不要有太强的电音感。
Flex Tune控制插件要保留多少人声的自然抖动。拧到最左(数值过小)会不那么自然。
这两者都留点余量,在效果器链的开头挂一个,能感觉人声被更进一步polish了,和伴奏的融合度会高很多。
做贴唱可以考虑一下(๑•̀ㅂ•́)و✧
所以到此为止的效果器链是:
Autotune → 砍噪声的EQ → 负责1k附近频段增益的EQ → 一个压缩前的音量推子 → 多段压缩(视情况而定) → LA2A压缩
人声的“滤镜”和风格化调整
我会尽量在音量平衡和融合度都处理了七七八八了之后再纠结这些。
不要像网上教的公式一样对每个频段做固定的调整。因为每条人声和伴奏都是不一样的。即使你什么eq都不做就够好听,那么不做也可以。

做EQ时我基本上考虑的点是这样,我对于具体的频段也很难下定论,仅仅作个参考吧:
1. 觉得整体太闷了堵耳朵可以看看基频部分,关注一下三五百hz的范围。
- 觉得胸前或者喉咙堵得慌,看看1khz往下一点的频率
- 觉得鼻子堵着,看看1k-1k5的频段
- 觉得太刺耳了,看看3k-5k这个大范围的频段哪里扎耳朵
- 觉得不够亮可以看看六七千hz往上哪个部分可以抬高一点
- 齿音太多,如果是不稳定的,可以用De-esser处理;如果是稳定的看看10khz上下哪里可以挖一点。
然后要注意很多问题也可能是Delay和Reverb甚至伴奏导致的。有时不是人声的问题。察觉到问题后可以先mute掉Delay/Reverb,或者在伴奏上做一点EQ处理看看有没有改善。
回到上面说的饱和染色激励,其实我用得真的不太多。我处理明石缪的混音时,因为她的声音比较薄,用一点点J37的Tape还蛮好听的,所以我会加一点点3dB左右的drive,仅供参考。

空间效果
我所有的空间效果都是走单独的Send轨,不喜欢用Insert,因为Send轨上调整空间会更大一些。
混响Reverb
人声送进混响时会有几个常见的问题。比如:
- 人声的高频瞬态(或者不知道哪个频点的瞬态对某个设置下的某个混响来说特别敏感)会让混响的输出特别不稳定,有时候混响声会从伴奏里面蹦出来,但混响的稳定性又很重要,不能让它抢戏。我会在混响前加一个非常狠的De-esser,或者加一个压缩来处理混响输入中不舒服的频点。混响的输出会稳定一点。
- 人声的中低频内容让混响发闷。可以在混响前加一个比较高的Hi-pass滤波,混响会薄不少。
这是我某个板式混响的效果器链,已经是过度处理的一轨了,可以作为参考。从左到右分别是:
EQ把中低频砍了(我甚至砍到了450hz,不过这个频点得视素材决定)→ Pro-DS高强度去齿音 → CLA-2A控制输入动态(用在这首歌这里比较好听罢了) → 板式混响 → 一个EQ进一步调整频响 → 又一个压缩 → Fresh air激励一点点超高频。

关于混响,人声上我基本都会用一个板式,因为板式本身没有很强调真实房间的那种早期反射,会更容易控制人声的位置一些。
我习惯用Valhalla的Plate,它的Tone很好调(当然其它的Plate也完全没问题)。Decay时间决定好后,换一下Mode或者调整一下Size,混响的tone会有微妙的不同。Size拧到左边混响会很薄、反射亮一些;拧到右边会暗一些密度高一些。上文中说到人声有时候听着不舒服,这种不舒服可能会是混响带来的,调整一下Size或者Mode或者Predelay可能就解决了。

我的监听耳机听混响有点困难,我会换成airpods和我的音箱甚至手机外放来下判断。怎么多设备监听可以参考这篇文章:https://www.ornot.work/blog/article/0014
根据歌曲风格的差异我还会同时使用Room/Hall/Cathedral之类的各种各样的混响。怎么选择同样基于自己的耳朵下判断…而且Send进混响轨的量也是可以细致自动化的,可以多多调整多实验。这种自动化是可以增强情绪表现的。并且混响用多了之后回听,常常会感觉人声上又有一些频率问题,很大概率是并联混响带来的,可以多多返回检查。
延迟Delay
我会分成纵向的前后的delay,和横向的左右的delay。
我最近很喜欢的一种横向的delay的处理是没有feedback的pingpong delay,间隔时值稍微长一些,然后把Delay的高频砍掉(我这里砍到1500hz左右)。这种Delay存在感不高,但是能给人声加宽度。
纵向的Delay花样就很多了,它可以作为增加深度的Echo,也可以是创意类插件,可以辅助Vocal的律动感,或者带来一些Call & Response的感觉。我感觉Delay没什么定式,开脑洞就可以。但是Send Delay的量的自动化我觉得会比Reverb重要一些,尤其是作为增加小巧思的插件来说的话。

其它的
其实该说的差不多说完了。我目前的混音流程真的大部分都是在人声音量自动化上。
上面讲的都是Vocal的处理,但很多接触贴唱混音的小伙伴应该不太会针对伴奏进行处理。许多Vocaloid歌曲的伴奏是服务于虚拟歌手音源的。虚拟歌手的混音方法和真人歌手完全不一样,有时候拿到的伴奏实际上并没有余量留给人声。我们是可以在伴奏上动手脚的。
在处理伴奏时可以多多考虑使用Mid/Side模式。比如我们用Stereo的EQ去处理伴奏中和Vocal打架的地方,容易感觉伴奏里被清掉了好多内容。主人声其实主要占据Mid通道,所以我们可以只把伴奏中Mid的打架的部分给砍掉,而Side不变。

做这种处理时还有一个好办法就是在总线上把音乐改成Mono再进行处理,这样做Mid的EQ处理会更有把握。
关于怎么让歌曲在多个设备下都表现良好,可以参考上面提到的我自己的这篇博文。我利用Voicemeeter Banana和VBAN Receptor进行多设备音频串流:https://www.ornot.work/blog/article/0014
