～技术宅真可怕～ » 讨论
两个音频文件能不能做"减法"

#1 - 2021-7-22 15:06

頂上ノ月🌙 (DD雷达搜寻中...?)

我现在有一首歌的音频文件和这首歌的伴奏(off vocal)音频文件

那么我能不能通过对比这两个音频数据而获得一个只有人声的清唱版音频数据 (bgm38)

#2 - 2021-7-22 15:09

1ra

马克

#3 - 2021-7-22 15:15

MousHu (miaow~~~)

降噪原理？降噪算法 ......

#3-1 - 2021-7-22 15:34

MousHu

https://www.bilibili.com/video/BV1z4411A7ZJ
五分半钟左右开始

#3-2 - 2021-7-22 17:16

頂上ノ月🌙

MousHu 说: https://www.bilibili.com/video/BV1z4411A7ZJ
六分钟左右开始

噢谢谢

#3-3 - 2021-7-22 18:15

MousHu

🍋LautlosP🍋 说: 噢谢谢

我去 ... 你挂着这个页面多长时间了 ...
我改五分半也就回复完之后几分钟的事 ~ (bgm93)

#4 - 2021-7-22 15:59

石原英里華(常盤るる) (遠致静寧)

人声提取的办法很多，都不会很理想，用伴奏和原声提取人声，要手动地对比谱型，去除相似的部分留下来人声。

#5 - 2021-7-22 16:14

lhb5883-吹冈王♛⑩ (BGMのTrinitas<=>婊冈妈<=>补冈妈<=>拜冈妈三位一体 ...)

我觉得应该可以

#6 - 2021-7-22 18:03

夢回环℃ (『一言以蔽之，就是「爱」！』)

理论上一定可行！理论）

#7 - 2021-7-22 18:18

[已注销]

混音的过程几乎不可能是简单地把PCM的sample值不加权地直接加起来
比较好的办法可能是造足够多的synthetic data（人声和伴奏部分用的增益适当随机一下），训练一个比方说CNN来提取人声

#7-1 - 2021-7-24 07:25

徒手开根号二

#8 - 2021-7-22 18:49

rock1995 (人生五十年如梦亦如幻有生斯有死壮士何所憾 ... ...)

我试过，可以，把其中之一反相，off vocal 加三分贝（一般是三分贝）就行了。效果怎么样取决于off vocal混音策略……
有些比较懒的off vocal是真的只off vocal的，这种能完美提出来，但提出来的人声是处理过的。而且清唱听不一定好听……而且现在很多曲子编曲那么复杂加那么多音效就是为了掩盖唱的不好听，不要抱太大希望
之前提过一个战姬绝唱风鸣翼的曲子，居然有个民族乐器off vocal版是反相的……总之什么奇葩玩意都有可能有，能行是运气好，效果不好才是正常

#9 - 2021-7-22 19:09

LogicDX342

之前找一个up要的软件，可以分离人声，不过我自己也没试过，但看视频效果不错，应该可以有效解决楼上说的某些乐器反相的情况
网盘 e0u5

#10 - 2021-7-22 19:20

春雀 (永远热爱)

mark!

#11 - 2021-7-22 19:21

神崎なぎ

若是单纯想提取人声的话可以试试LALAL.AI

#12 - 2021-7-22 22:30

咸鱼庄fishqaq (你是GG还是MM啊？)

甚至只需要带人声的音频文件就够了。传统一般用au中置声道提取。不过我推荐dango.ai 需要付费，但是我觉得效果不错 (bgm38)

#12-1 - 2021-7-23 19:13

頂上ノ月🌙

au中置声道提取和机器学习软件spleeter都用过
感觉都不太满意 (bgm39)

#12-2 - 2021-7-25 10:49

咸鱼庄fishqaq

🍋LautlosP🍋 说: au中置声道提取和机器学习软件spleeter都用过感觉都不太满意

dango.ai 推荐试试，它家算法比原版spleeter强

#13 - 2021-7-22 23:02

CRH380B-6216L (380km/h 399.27m)

用au可以把off vocal【反相】然后拖到多轨里面把波形对齐就可以
但是要放大放大再放大把每一个采样点都要严丝合缝地对齐才行

这样导出之后你就可以得到一条（理论上）完美的人声
但是最终出来的实际效果其实是受各种因素影响的
比如我用的PCR角色歌如此这般操作之后，仍然有-21dB级别的伴奏音的回响

如果这样的话就需要后期再做各种调整然后才能得到真正完美的人声 (bgm38)

#13-1 - 2021-7-23 19:14

頂上ノ月🌙

等以后装回au再试试(

#13-2 - 2021-7-23 19:33

c933103

🍋LautlosP🍋 说: 等以后装回au再试试(

audacity軟件最近牽涉各種爭議

#13-3 - 2021-7-24 03:01

ζ*'ヮ')ζ 讀者諸孃へ

🍋LautlosP🍋 说: 等以后装回au再试试(

这种纯算法问题我怎么觉得还不如直接上matlab……

#13-4 - 2021-7-24 08:36

rock1995

伴奏声不该这么大的……off vocal有没有+3dB？

#13-5 - 2021-7-24 10:17

頂上ノ月🌙

ξﾟ⊿ﾟ)ξ「いけずやわー。」说: 这种纯算法问题我怎么觉得还不如直接上matlab……

我又不懂

#13-6 - 2021-7-24 22:03

CRH380B-6216L

rock1995 说: 伴奏声不该这么大的……off vocal有没有+3dB？

+3dB之后伴奏声反而更大了……现在-21dB级别的回响听起来就像是“小小甜心在你面前唱歌，但是伴奏是从对面楼传来的”的感觉
我觉得这种差异应该是音源的关系（试过另外一个PCR角色歌效果是一样的）

#13-7 - 2021-7-25 00:17

rock1995

CRH380B-6216L 说: +3dB之后伴奏声反而更大了……现在-21dB级别的回响听起来就像是“小小甜心在你面前唱歌，但是伴奏是从对面楼传来的”的感觉
我觉得这种差异应该是音源的关系（试过另外一个PCR角色歌效果是一样的）

那有可能这个off voacl不是用的3分贝……主要是21分贝这个数字是3的倍数，我猜很可能是分贝数不匹配

#13-8 - 2022-3-20 13:21

頂上ノ月🌙

今日再试了下成功了!
目前试过的这方法效果最理想就是难在对齐和需要有官方伴奏 (bgm38)

#13-9 - 2022-3-20 15:00

rock1995

🍋LautlosP🍋 说: 今日再试了下成功了!
目前试过的这方法效果最理想就是难在对齐和需要有官方伴奏

首页上看到这帖我还在想谁这么无聊铲起来了 (bgm38)

#13-10 - 2022-3-26 13:53

镜子阁

原来是这样实现的！

#13-11 - 2022-3-26 13:54

镜子阁

🍋LautlosP🍋 说: 等以后装回au再试试(

au体积可太小了）

#14 - 2021-7-22 23:14

🐧 (ᗜˬᗜ)

一直对这个问题好奇，马克！！

#15 - 2021-7-22 23:23

逆淚 (19914)

我经常用AU像#13这样做, 不过正如#7说的, 不可能只提出干音, 多少会有乐器声, 而且有时候会因为混音后的相位和混音前的相位有出入导致破音。理论上采样率越高采样位深越大效果越好, 96k的比44.1k的好, 少了一次转CD重采样导致的失真。

#16 - 2021-7-24 02:57

本子战士 (B站难民)

https://moises.ai/zh-cn/
这个服务也许可以满足你的需求？

#17 - 2022-3-20 13:26

Jerry@Bangumi (我长大了要发明7G)

提取伴奏/人声的话，
团子AI
虽然也是付费的，但应该是优化过模型所以效果比公开方案更好些
（但如果想分别得到高质量的伴奏和人声，需要用不同的模型做两次）

#18 - 2022-3-20 14:22

SadnAp

使用rx8

#19 - 2022-3-20 14:28

绯红の空 (ケ・セラ・セラ)

这个问题很久之前就可以用 AI 技术实现了吧...

#20 - 2022-3-20 14:46

VoIces

制作人回答一个。

制作音源，包括合成音声和实录乐器，的时候，为了让声音听着更真实，通常会对同一个音录制多个采样。然后在使用的时候让采样器随机去选择调用哪一个采样。对于合成器的话就是声音的初始相位可以是随机的。混音的时候也有很多地方会引入相位变化。
这么做的结果就是，同一个音乐工程导出两个不同的音频文件，得到的实际内容是不完全相同的。通过反相让声音抵消的方法基本不可行。
更何况加入在加入人声的前后分别进行母带，总线上的压缩量也是不一样的。

现在要提取人声的话多是使用AI软件，比如iZotope RX。

#20-1 - 2022-3-20 15:30

頂上ノ月🌙

专业回答谢谢
但我用au图一乐玩玩效果已经够好了 (bgm38)

#20-2 - 2022-3-20 19:01

rock1995

日式流水线产品应该是少步骤，不少是可以直接反相offvocal提人声的

#20-3 - 2022-3-20 20:35

VoIces

rock1995 说: 日式流水线产品应该是少步骤，不少是可以直接反相offvocal提人声的

那应该是伴奏上贴唱做后期吧，不算是少步骤。不过就像我上面说的。加了人声和不加人声，总线上的压缩量是不一样的。#13也实际行动说明了这一点。不过要求不那么高的话-21db的底噪是基本没影响的。比如做bootleg之类的就完全够用。
对于在编曲过程中就进行作曲贴唱的情况，反相就很难提取人声。

不过用RX提人声也有不少残留，有时候还会产生一些预期之外的artifact。现在的模型只能做到这个程度也没什么办法了

#21 - 2022-3-20 16:53

伊坂森 (看点好的)

mark

#22 - 2022-3-20 20:48

腾文鱼

不知道有没有啥简单方便入门的声音分离算法，想折腾一下

#23 - 2022-3-26 13:40

橘枳橼 (我只知道自己一无所知。)

有官方伴奏的话，为什么不试试 Andrew Ng 人工智能入门课的那个无监督学习呢？
你想象一下，伴奏+人声和纯伴奏，这可不就是双收音分离双音源吗，只不过一个收音只包含一个音源罢了。

#23-1 - 2022-3-26 13:55

頂上ノ月🌙

机器学习完全看不懂

#24 - 2022-3-26 13:53

镜子阁 (Dream a dream)

这不就是差分吗？共模抑制

/ 返回～技术宅真可怕～小组

～技术宅真可怕～ » 讨论两个音频文件能不能做"减法"

～技术宅真可怕～ » 讨论
两个音频文件能不能做"减法"