跳转到主要内容

原始研究的文章

前面。信号的过程。,2022年4月05
秒。信号处理理论
卷2 - 2022 | https://doi.org/10.3389/frsip.2022.808594

一个基于深度学习的框架,用于源分离、分析和合成合唱集合体

  • 1音乐科技集团,大学Pompeu布拉,西班牙巴塞罗那
  • 2Voicemod S.L.,Valencia, Spain
  • 3智能系统工程部门,布卢明顿市印第安纳大学布卢明顿,美国
  • 4欧洲委员会联合研究中心,西班牙塞维利亚

合唱的女高音,女低音,中音和低音(SATB)格式是一个广泛的实践和研究艺术形式与重要的文化的重要性。尽管合唱设置的流行,但它却没有得到足够关注领域的音乐信息检索。然而,最近出版高质量的合唱数据集以及最近发展基于深度学习的方法应用于音乐和语音处理领域,在这个领域的研究开辟了新的途径。在本文中,我们使用的一些公开的合唱训练数据集和评估先进的源分离算法的语音和音乐领域的合唱。此外,我们评估现有单声道F0在单独的一致估计茎和提出一个近似一致认为F0的信号。此外,我们提出一组应用程序结合提出的方法,包括合成一个歌手的声音一致,置换和再混合茎分离成合成multi-singer合唱的信号。我们终于进行一套听力测试执行的感性评价结果我们获得该方法。

1介绍

合唱是一种最普遍的类型的乐团唱歌(桑德博格,1987)。它是世界各地音乐文化的核心部分,它一直是一个重要的活动对人类表达的想法和信仰,以及社会娱乐和精神健康(克利夫特et al ., 2010;比赛中et al ., 2012)。声乐乐团是我们通常使用的术语来描述一组多个同时歌手唱歌。这些歌手通常是基于他们的音域分为不同的部分,和一个由多个部分通常被称为唱诗班。歌手在一节通常唱相同的旋律线,称为一致唱旋律线的补充的其他部分。常用的配置对西方合唱,这是本文的重点,是女高音,女低音,中音和低音(SATB),由上述四个部分组成。组合在一起,这些部分产生一个和谐的效果,被称为SATB合唱团的声音。这种形式的歌唱和广泛研究西方文化。

音乐信息检索(MIR)技术相结合的研究领域从音乐学、信号处理、机器学习等,以协助计算分析音乐从业者,学习者和爱好者。在这个领域,我们发现一些早期文学合唱的声学特性(罗欣et al ., 1986;Ternstrom 1991;Ternstrom 2002),试图理解“合唱的声音。“在过去的几年里,米尔社区显示越来越感兴趣的话题,特别是在数据驱动的机器学习方法的出现,以及新颖的数据集。研究声乐乐团歌手的语调和交互(摘要et al ., 2012;戴和迪克森,2017年;单面山et al ., 2018;戴和迪克森,2019年;维斯et al ., 2019)、分析和合成声音听到乐声(单面山et al ., 2018;单面山et al ., 2019;Chandna et al ., 2020),结组估计的复调声乐表演(苏et al ., 2016;施拉姆和Benetos, 2017;单面山et al ., 2020),自动转录(麦克劳德et al ., 2017),或声音的分离(戈夫和Depalle, 2020;彼得曼et al ., 2020;Sarkar et al ., 2020)最近发表的。

这些研究大部分集中在每声部声乐乐团与一个歌手。更具体地说,他们中的大多数研究声乐四重奏,即。,四个歌手不同声音的范围。但是,我们发现大量的业余爱好者和专业声乐乐团与多个歌手每一部分齐声歌唱,即。唱诗班。而四方和合唱在概念上非常相似,他们不同的歌手在一个部分。根据Ternstrom (1991),而一个表演者产生音调的良好定义的属性,例如,音调、响度、音色,表演者的合奏,即。每一部分,多个歌手,将产生声音这些属性的统计分布的特征。因此,我们需要考虑这个特性在处理唱诗班录音,包括听到乐声而不是单一的歌手。

在这项研究中,我们评估源分离算法分离的各个部分一起唱歌。特别是,我们的研究各种类型的最近提议基于深度学习的源分离算法,同时密切关注有限数据用于训练和评估。我们也扩展的工作(Chandna et al ., 2020),它提出了一个模型来合成一个歌手信号从一个一致的输入,反之亦然。提出的模型提取语言内容一致从输入信号和使用这个随着F0合成语音信号。从一致促进这种合成跟踪与合唱混合物分离,我们研究一致的音高特征信号提取的源分离过程。使用这个研究中,我们提出一个应用程序框架,它使用分离与和谐一致的信号合成一个歌手语言和旋律的内容。这可以pitch-transposed独唱歌手信号,转换回一个一致,并与其他声音部分生成一个混音合成multi-singer合唱录音。最后,我们提出一个框架,用于分离、分析、合成SATB合唱团,中描述图7

其余的论文结构如下:第二节评论最相关的文献源分离、分析和合成四声部声乐乐团。第三节介绍了本文提出的方法在第四部分讨论了实验我们的各个部分进行了评估方法,包括知觉评估在4.6节。提出了应用程序的分析在第五节讨论。最后,我们的研究得出的结论是在第六节讨论。

2相关工作

2.1四声部唱乐团

音乐乐团的歌手唱歌同时通常被称为一个合唱团。合唱是一种传统,一直练习在中世纪时代到现代社会,涉及不同的歌手的不同功能和不同声音的范围。因此,合唱是一种社会活动,可以在不同的执行安排有或没有乐器伴奏,后者称为没有乐器伴奏的唱歌。最早的乐团合唱形式可以追溯到罗马4世纪的口号,同时涉及多个歌手唱着相同的内容,。

这样的作品是今天在专门的音乐学院在世界各地广为流传。作为一个社会活动,其中最流行的格式的合唱利用不同的男性和女性的音域,女性歌手能唱高场地安排在称为合唱部分女高音中音,而男歌手委托男高音低音部分。歌手舒适的女高音的部分通常是260 - 880赫兹音域。中音部分,相关的范围是190 - 660赫兹。歌手舒适的在较低的范围,145 Hz - 440赫兹和90 - 290赫兹,通常指定的中音和低音的声音,分别为(Scirea和布朗,2015年)。SATB合唱团也可能只是四个歌手,唱的每一个部分,导致四方安排。也是常见的有多个歌手唱歌在每个部分一致,导致更加明显合唱的效果。

我们表示语音信号作为女高音歌手的部分 x 年代 j ,在那里j= 1,…,J,J数量是女高音歌手齐声歌唱的声音。信号一致的黑道家族, x 年代 U ,是一个线性混合的个人歌手:

x 年代 U = j = 1 J 一个 年代 j x 年代 j ( 1 )

在哪里 一个 年代 j 个人歌手的代表获得一致的信号。这个增益取决于个人歌手的位置对麦克风用于录音和声音的响度。同样的,个人的声音信号的歌手,中音和低音的声音被指示为 x 一个 j , x T j x B j ,分别。各自部分的一致信号用 x 一个 U , x T U x B U 。的和一致的信号给我们合唱混合信号,

x C = b 年代 U x 年代 U + b 一个 U x 一个 U + b T U x T U + b B U x B U ( 2 )

在哪里 b 年代 U , b 一个 U , b T U b B U 代表女高音的收益,中音,中音和低音一致信号的混合信号。在西方合唱音乐,声音通常写相互协调,结合声音相对类似的音色,会导致大量的重叠的谐波产生的混合物。

关注西方合唱,我们的目标是在分离的四个来自一个唱诗班混合物的录音的声音。我们的目标是独立的四个听到乐声,不是每个合奏的声音:

x C x ̂ 年代 U , x ̂ 一个 U , x ̂ T U , x ̂ B U ( 3 )

在哪里 x ̂ v U ,v∈{年代,一个,T,B}表示每个一致遏制分离。unison分离过程使等后续应用程序的分析一致的信号,或单一的合成语音音高和抒情内容类似的原始一致,等等。我们在第五节进一步探讨其中的一些应用。

2.2声乐乐团数据集

源分离的数据驱动的模型,我们的目标是适应在这项研究中需要学习的大量的数据。MUSDB18(Rafii et al ., 2017)的数据集,通常用于培训和评估源分离算法音乐源分离的情况下,包含一组150多声道录音与孤立的鼓,低音,人声和“他人”的茎。数据集包含个人茎人声、鼓、鲈鱼和其他乐器的痕迹。这些茎和混合在专业录音室录制的每个仪器分别跟踪。

记录这样的合唱是一个技术上的挑战任务的数据库从一个典型的唱诗班设置同时需要多个歌手唱歌,和记录个人歌手在乐团需要高度定向麦克风,降低泄漏从其他歌手。因此,研究数据集声乐的稀缺性。然而,在最后一年,努力是对发布策划乐团唱的多声道的数据集。在这项工作中,我们选择一些多声道的数据集的训练和评估源分离方法和F0分析复调声乐。表1提供了一个主要特点的总结我们考虑的数据集,我们描述一些额外的细节记录等条件以及它们是如何影响inter-microphone出血在下面。

表1
www.雷竞技rebatfrontiersin.org

表1。摘要多声道乐团唱歌我们在本项目中使用的数据集。报告时间是指总记录时间,不考虑多个茎/记录。

合唱数据集(CSD) (单面山et al ., 2018)是一个西方合唱的公开的多声道的数据集。它由三个歌曲的录音SATB格式,每种不同的语言(加泰罗尼亚语、西班牙语和拉丁语)。16的歌曲都是由一个唱诗班歌手,分为4个部分。唱诗班的每个部分单独记录,使用麦克风隔离每个歌手的声音。F0轨迹为每个记录以及section-wise MIDI音符可用于每一个歌曲。音频总持续时间大约是7分钟,这使得它一个小数据集相比MUSDB18数据集。录音从CSD包含一些泄漏连续的歌手相同的部分,这是不如泄漏问题的上下文中其他部分这项工作。

同样,Dagstuhl ChoirSet (DCS) (Rosenzweig et al ., 2020)是一个数据集与乐团唱两首歌的录音在拉丁语和保加利亚语言。数据集还包含一组组成的声乐练习音阶,语调,语调练习。手持的组合动态麦克风、耳机麦克风和喉咙麦克风,以及一对立体声麦克风被用来记录13歌手,分为不均匀SATB部分。所有的歌手都同时记录,导致更高的泄漏比CSD的单曲,包括一些inter-section泄漏。数据集包含注释的节拍,同步分数表示,并自动提取F0轮廓。总音频持续时间约55分钟。

ESMUC唱诗班数据集(ECD)1是一个多声道的数据收集,由三个歌曲,在德语和拉丁语,由12的唱诗班歌手,不均SATB合唱团的部分。歌手记录同时使用手持动态麦克风,和一对立体声麦克风捕捉整个合唱团的声音。个人记录从儿童早期开发包含高inter-singer inter-section泄漏,明显高于CSD和DCS。数据集包含20分钟的音频,手动修正F0,注意注释的痕迹。

巴赫合唱数据集(BCD)是一个商业多声道的实验中使用的数据集(麦克劳德et al ., 2017;施拉姆和Benetos, 2017)。它由26个歌曲由SATB四方,即。每一部分,一个歌手。音频的BCD的总量大约是58分钟。四方单独记录中的每个歌手在专业设置和没有录音inter-singer泄漏。BCD包含每个音轨和混合物的四个声音。此外,它提供了MIDI文件,并自动提取F0轨迹。然而,由于原始录音的商业来源,这个数据集不是公开为研究目的。

在这个项目中使用的所有音频文件重新取样到22 050 Hz的共同采样率。

2.3源分离

任务由源分离,分离的混合信号成分的信号,已经被研究在许多不同的领域,包括金融、医学、地质学、和音频和视频信号。音频信号的任务需要打破多个信号(即组成的混合物。,来源),分成单独的成分。大量的研究领域一直致力于分离语音信号从一个音频混合。

在过去的十年里,研究源分离已经转移到数据驱动的机器学习技术,特别是随着深度学习。提出了几种基于深度学习的模式的相关但不同的音乐源分离和异步任务语音分离。第一个任务需要暂时的分离和谐波相关来源的不同的乐器,包括唱歌的声音。来源被分离在这种情况下有不同的光谱结构,例如,唱歌的声音具有明显的共振峰结构,内部模型的源分离算法。语音源分离指的是两个异步分离语音信号从不同的扬声器。由源分离算法的区别与时间线索和扬声器的独特的音色。这些任务都是我们的研究密切相关,由分离四个来源相似的光谱结构,这主要可以区分他们的基本频率(F0)。

源分离合成合唱数据研究了采用score-informed非负矩阵分解(NMF)和Wave-U-Net架构戈夫和Depalle (2020)。作者合成了371巴赫合唱使用商业MIDI合成器命名FluidSynth。这允许合成合唱混合和茎与得分信息。然后,Wave-U-Net (短距起落et al ., 2018)架构适应接受时间调节。条件是应用在输入和输出层,以及downsampled瓶颈层。结果表明:Wave-U-Net架构表现NMF-based基线,即使没有空调。

在现实世界SATB合唱团录音、语音分离研究了使用转移学习(号手et al ., 2020与ChimeraNet模型()罗et al ., 2017)pre-trained MUSDB和Slakh数据集(时光et al ., 2019)。这个模型然后细调到隔离的男性和女性的声音在DCS SATB录音。

我们先前的研究在SATB录音源分离(彼得曼et al ., 2020)研究深度学习架构上面提到的性能特别是唱诗班录音的声音隔离。这项工作的第一部分涉及的评估最先进的(SOTA)模型给定的两个用例:1)使用混合物和一个歌手/歌唱组,在一个四方,2)使用四歌手每个SATB组,总共16歌手。我们还提出了一个条件U-Net的改编版本Meseguer-Brocal和彼得斯(2019)利用不同频率范围的组成部分SATB合唱团隔离的声音。我们条件U-Net oracle F0的各个部分使用feature-wise线性调制(电影)层(佩雷斯et al ., 2018)。这导致了香草U-Net模型性能的增加。

2.4一致分析和合成

最近,我们提出了一个系统一致的分析和合成(Chandna et al ., 2020)。这个系统提取语言内容一致从输入信号使用网络培训通过一个师生模式。语言独立的语言内容表示提取利用SOTA声音转换的中间层次模型(钱et al ., 2019)。这种表示法用于生成谐波和in-harmonic世界声码器(Morise et al ., 2016),连同F0用于合成波形用于修饰或说明一个歌手唱着一致的信号。而我们之前提出的模型已经被证明有效的模型的语言内容一致的信号,提取的F0一致仍然是一个具有挑战性的任务。这个F0模型,我们必须分析场上的一致。

之前的研究表明,听众感知一致的表现有一个球场,尽管这球场是由多个歌手(Ternstrom 1991)。我们需要大的知觉的研究与大量的一致录音研究深度的音高,听者当他们听到一个一致的性能。在早期的研究Ternstrom (1991)、感性与专家听众调查实验,在其他方面,首选的水平距散射齐声声乐表演。距散射原始论文中定义的标准偏差的声音意味着F0-the平均F0计算每个音符的持续时间的歌。作者使用合成刺激与不同级别的散射,并发现当听众容忍14美分的散射,首选水平一致的音高分散范围在0和5美分之间。这些发现表明,虽然歌手之间的轻微偏移距是首选,他们应该足够小,这样整体的声音仍然被视为一个独特的音调。从一致的输入信号中提取这种独特的音调,我们使用单声道F0估计,在以下介绍。

2.5单声道F0估计

尽管一致的表现通常被认为是单声道信号,根据它们包含音高和时间偏差的大小,他们可以为单声道F0更具挑战性的追踪者比单身歌手录音。在这项工作中,我们评估的性能一致两个单声道F0 SOTA方法跟踪表演看哪个性能更好。我们假设一个可靠F0轮廓提取一个一致的信号接近其旋律内容,可以用于进一步的分析和综合应用,我们详细的在下一个部分。我们考虑一个知识型F0追踪,脓素,和数据驱动的F0追踪,绉。

脓素(Mauch和迪克森,2014年)是一个以知识为基础的基于众所周知的阴算法(F0跟踪方法de Cheveigne Kawahara, 2002)。阴是语音和音乐的时域单声道F0追踪信号基于自相关函数(ACF)。在这种方法中,作者提出一个修改的区别功能基于ACF,在那里他们找到相应的周期信号。脓素后来引入概率的阴,在多个F0候选人连同他们的概率计算,然后选择一个F0值/分析框架通过隐马尔可夫模型(HMM)和维特比解码。

绉(卷积表示音高估计)(金正日et al ., 2018)是一种数据驱动的F0跟踪算法基于深卷积神经网络运营的时域波形。网络的输出是一个360维输出向量, y ̂ ,每360个节点的特定F0值相关联美分用20美分的决议,涵盖六个八度。输出F0估计计算的平均相关F0值由相应的加权值的输出 y ̂ 。F0估计是获得每个分析窗口的输入信号。

3提出了方法

本节介绍我们遵循的方法。在拟议的框架,我们实验有三个主要任务:首先,源分离模型,单独的个人一致信号从一个合唱混合物;第二,近似认为听到乐声的音调;第三,analysis-synthesis框架再生个体歌声信号可再混合在一起。

3.1源分离

我们评估的性能一组SOTA模型对音乐而且语音源分离应用于我们的目标(SATB合唱团)。我们首先选择Open-Unmix模型(小公牛et al ., 2019提供SOTA),结果2018年音乐源分离任务的信号分离评估活动(小公牛et al ., 2018)(SISEC)。对于异步语音分离,我们选择Conv-TasNet (罗和Mesgarani, 2019年),它已被证明比理想的时频(TF)面具的情况下同步源分离。我们注意到,虽然该算法已经适应的任务音乐源分离(Defossez et al ., 2019;撒母耳et al ., 2020),我们使用原始的变体专门为我们的研究提出了语音源分离。这样做是因为我们想比较模型提出了音乐与语音源分离源分离时适应手头的任务。合唱是一个混合的多个声音,这种情况在语音源分离,但它也有一个音乐结构的音乐源分离可能更合适。通过比较先进的模型在这两个领域,我们可以评估模型可能更适合适应合唱源分离。

基于深度学习算法提出了两个任务在过去的几年里。虽然许多模型是基于时频表示的光谱图,最近提议模型探索基于端到端的波形分离(Lluis et al ., 2019)。假设,基于波形的源分离算法需要更大的训练比基于光谱图模型的数据量。考虑到有限的可用性的数据在我们的例子中,我们评估基于波形的源分离模型是否可以执行以及光谱图模型为基础隔离的部分SATB合唱团。这个我们比较U-Net (简颂et al ., 2017与其waveform-based)模型对源分离,操作直接在波形上,Wave-U-Net (短距起落et al ., 2018)。

3.2建模的间距一致

几个方面影响我们感知的音调一致。有些是每个歌手的相对响度对其他人,侦听器的位置,或频率范围。然而,在本文中,我们遵循奥卡姆剃刀,尽可能使用最简单的假设每个歌手的个人F0的函数,均值,因此最简单的可能表示音高感知一致的性能。因此,为了获得一个参考F0轮廓特征的旋律内容一致,我们近似一致的认为沥青的平均沿着F0由每组的歌手。然而,考虑到潜在的差异每个贡献的能源来源,我们考虑一个加权平均,每个源都有一个关联的体重(2.1节中提到的, 一个 年代 j 表示重量的女高音歌手j)。在实践中,在我们的实验中我们计算权重归一化均方根(RMS)的来源,我们可以大致将其体积。本文余下的时间我们将这个加权平均的近似认为其间距一致。在4.6节中,我们使用知觉实验验证这个近似。我们的工作数据集的多声道的性质允许RMS的计算为每个单独记录,供我们使用RMS算法librosa(麦克菲et al ., 2015)。

我们在框架的基础上计算F0加权平均只考虑积极的声音每帧。由于时机歌手之间的偏差,注意转换有一组帧,并不是所有的声音都是同步,即。报告,一个歌手开始或结束之前或之后另一个歌手。考虑到这样的段落,在每一帧的分析,我们只使用从活跃的歌手f0平均计算。

3.3合成和重新合成

一旦我们提取个人一致源于合唱混合物和建模的感知一致的信号,我们可以使用Unison-to-Solo (ut)方法,我们提出了(Chandna et al ., 2020)合成一个歌声的旋律和语言内容相关的信号。在说明了生产方法的框架图1:提取语言内容、旋律、音色一致从输入信号来生成合成一个歌声声码器特性。

图1
www.雷竞技rebatfrontiersin.org

图1。图的Unison-to-Solo (ut)方法。

从这个合成单一的歌声表示各个部分合唱的混合物,我们采用Solo-to-Unison (STU)方法,还提出了(Chandna et al ., 2020),产生一个一致的信号。见图2,斯图方法使用analysis-synthesis框架,使的音高和时间偏差,以及歌手音色变化使用声音的转换模型。合成一致的信号,因为我们的方法可以用来申请转换等转移,拉伸和其他基于分数的转换包括增加歌手唱歌的数量一致。这些合成一致信号可以使用框架见混音图7支持的合唱录音编辑更容易和有针对性的练习唱歌。

图2
www.雷竞技rebatfrontiersin.org

图2。图的Solo-to-Unison (STU)方法。

4实验

在这项工作中,我们主要执行两个实验来评估源分离模型和数据的类型隔离的任务所需的部分SATB合唱团。我们训练和评估四个模型的任务,列入(表2)。我们比较spectrogram-based U-Net模型(UNet)(简颂et al ., 2017)与其waveform-based Wave-U-Net (WaveUNet)(短距起落et al ., 2018)。我们注意到,尽管最初U-Net歌声分离提出了使用两个独立的网络预测TF面具的声音和伴奏的茎,我们使用一个网络来预测四个面具为每个应用的四个部分。这使我们能够评估如果waveform-based模型可以执行不如基于光谱图模型的任务,考虑到有限的数据用于训练。我们也比较Open-Unmix (UMX与Conv-TasNet)模型(ConvTasNet)模型。前者代表了SOTA音乐源分离,后来代表SOTA语音源分离。UMX使用四个子网,每个部分的一个。

表2
www.雷竞技rebatfrontiersin.org

表2。我们适应的模型SATB合唱团的声音隔离。

正如2.2节中所讨论的,有一个有限的数据用于训练和评估模型。虽然CSD、DCS和儿童早期开发包含多个单曲歌手/ SATB合唱团安排的一部分,有明显的重叠的歌曲出现在CSD和DCS,尽管ECD显著inter-singer泄漏痕迹。BCD最干净的数据在数据集,但只有四方录音每一部分用一个歌手。我们看到,虽然更容易获得干净的四重奏,数据真实的唱诗班每一部分录音往往有多个歌手。因此,我们需要评估如果基于四方的数据是基于满足培训深度学习的源分离模型与多个隔离部分歌手的任务。

表3总结了数据集和数据分区为每个实验和模型,我们认为我们的实验进行描述如下。

表3
www.雷竞技rebatfrontiersin.org

表3。总结为每个实验模型的训练。

4.1实验1:增量训练

在第一个实验中,我们第一次火车CSD的四种模式,与所有可能的组合歌手的歌曲受到两种情况:四方情况下,在输入的每个部分的歌手数量是有限的(四方输入),和唱诗班的情况下,我们允许所有可能的组合歌手从1到4歌手/歌曲的一部分。我们表示模型与CSD训练modelnameC,在那里modelname在{UNet,WaveUNet,UMXConvTasNet}。然后我们增加的数据来自BCD CSD四方数据。作为训练数据是使用来自BCD的四重奏,逐步增加我们这个实验”一词增量训练。“这些模型被称为modelnameCB,使用一个名称类似于前面提到的。

4.2实验2:移除ESMUC唱诗班数据泄漏

从增量训练评估模型实验中,我们不需要考虑一个数据集训练集的一部分,以避免重叠的歌曲和歌手用于培训和评估。在儿童早期开发符合这个标准,有大量inter-section泄漏,即。,presence of alto, tenor, and bass tracks in the soprano track within the tracks of the dataset. To alleviate this problem, we use a cleaning procedure using the models trained in the incremental training to clean the individual tracks of ECD before mixing them together to create the evaluation set.

我们发现一些,在增量训练实验UMXCB模型中表现最好的训练。因此,我们选择这个模型来清洁电气化学的降低(ECD)的个体是通过相应的子传递它们UMXCB。我们从儿童早期开发通过每首歌的女高音杆通过训练有素的女高音Open-Unmix模型部分清洁女高音。这个过程重复alto,中音和低音茎。这些清洗茎混合在一起,形成评估第一个实验。我们进行感性评价清洗过程,提出了在4.6节。这允许过滤干扰的唱诗班不属于目标的一部分。然后,我们考虑清洗ECD,表示作为儿童早期开发清洁,评价模型的增量训练实验。

4.3实验3:完整的训练

完整的培训实验中,我们增加训练集与儿童早期开发和DCS和训练模型在两种情况下的数据。这些模型被称为modelnameCBDE三需要我们评估他们的歌死Himmel从儿童早期开发,被排除在训练集(见表3)。排除这些录音允许评估模型在一个看不见的歌。进一步评估模型看不见的歌手,我们排除第一个歌手从每个部分CSD和使用四方的歌手(由一个歌手的每个部分和CSD表示1)歌曲CSD的评估。

4.4评价结果

本节介绍了评价指标我们考虑测量模型的性能,其次是我们获得的描述实验结果。

4.4.1的评价指标

我们评估我们的模型BSS eval集客观的度量(文森特et al ., 2006)。特别是,我们考虑的bss_eval_来源的指标,用于修饰或说明单通道信号来源。我们选择的三个指标是Source-to-Interferences比率(先生),衡量的干涉量估计源从其他来源的混合物,Sources-to-Artifacts比率(SAR),衡量源分离过程,引入的工件和Source-to-Distortion比率(SDR),它提供了一个估计的总体质量分离,而地面真理。

10/24/11结果增量训练

增量训练实验的结果进行描述图3- - - - - -5。所示的评价模型训练使用唱诗班案例数据,与所有可能的组合歌手的CSD(每个部分的第一个歌手除外),增强与四方来自BCD的数据。从儿童早期开发评价集包含所有的歌曲清洁数据集和所有歌手的混合物。图3显示了四个模型训练的特别提款权指标CSD数据,表示modelnameC和CSD数据增强四重奏BCD的数据,表示modelnameCB图4,5显示了爵士和SAR指标同样的模型,分别。

图3
www.雷竞技rebatfrontiersin.org

图3。箱线图的特别提款权的结果唱诗班例模型训练CSD (modelnameC)和CSD + BCD (modelnameCB)。

图4
www.雷竞技rebatfrontiersin.org

图4。箱线图先生的结果唱诗班例模型训练CSD (modelnameC)和CSD + BCD (modelnameCB)。

图5
www.雷竞技rebatfrontiersin.org

图5。箱线图SAR的结果唱诗班例模型训练CSD (modelnameC)和CSD + BCD (modelnameCB)。

我们注意到的性能在所有三个评价指标Wave-U-Net模型与U-Net的模型。两个模型在体系结构是相似的,这使我们能够得出这样的结论:waveform-based模型源分离一样有效spectrogram-based同行的任务隔离SATB合唱团的不同部分录音。我们还注意到Open-Unmix模型优于其他模型评估研究中尽管Conv-TasNet模型表现。这表明,音乐源分离算法更适合合唱领域模型提出了异步语音分离。然而,我们观察到SAR的Conv-TasNet模型显示了更好的结果比其他模型指标,特别是当训练CSD (ConvTasNetC)。Open-Unmix模型使用4单独的网络而U-Net和Wave-U-Net模型使用一个网络4输出面具。我们观察到,虽然Open-Unmix模型优于其他两种模型,这个改进可以归因于一个更复杂的网络结构,而不是使用独立的网络为每个来源。

我们进一步的注意,增加多个数据组合CSD BCD的四方数据导致显著改善的结果在所有模型和部分。这表明我们可以利用基于四方的数据在未来进一步训练合唱的源分离模型的情况。我们注意到球场转移也可以用于数据增加,如(单面山et al ., 2020结组评估。然而,我们没有尝试这种技术在这项研究。最后,我们还要注意,所有的模型的性能恶化男高音来说,相比其他地方,而低音部分很容易分开。我们假设这种差异是因为旋律的重叠范围的男高音和中音部分。F0的部件之间的主要特色是他们,我们相信这两部分之间的重叠范围内导致混乱。我们进一步调查这个4.5.3节。

4.4.3结果完整的训练

表4显示了模型训练的特别提款权度量数据从所有4个数据集。模型训练的结果显示这两种情况下,即四方情况下,这是局限于一个歌手部分,唱诗班情况下,它使用多个组合歌手为每个部分。

表4
www.雷竞技rebatfrontiersin.org

表4。特别提款权的结果modelname_CBDE评估ECD歌曲(13歌手的歌手组合),显示了训练数据从四方(左)和唱诗班案件(右)。

对于这个评价,我们认为3 ECD的一首歌清洁被排除在训练集,而混合形成的四重奏的茎歌手从CSD排除在外培训,CSD1(见表3)。这允许我们测试的性能模型看不见的歌曲和看不见的歌手。我们观察到有一个改善性能U-Net和Open-Unmix模型,当训练唱诗班案例数据,而Wave-U-Net和Conv-TasNet稍差当多个歌手用于训练模型。

表5为同一模型,显示了爵士的结果表6显示了SAR的结果。我们再次观察到所有模型的性能较低的男高音部分比其他部分。我们相信这是由于重叠的音高范围之间的混淆的高音和中音部分,中音和低音部分。我们还注意到U-Net和Open-Unmix模型的性能提高了在考虑唱诗班培训的案例数据,但没有持续改善Wave-U-Net和Conv-TasNet。然而,从增量训练实验中,我们观察到模型训练可以提高通过增加训练数据与多个歌手每一部分四重奏。

表5
www.雷竞技rebatfrontiersin.org

表5。爵士的结果modelname_CBDE评估ECD歌曲(13歌手的歌手组合),显示了训练数据从四方(左)和唱诗班案件(右)。

表6
www.雷竞技rebatfrontiersin.org

表6。特别行政区的结果modelname_CBDE评估ECD歌曲(13歌手的歌手组合),显示了训练数据从四方(左)和唱诗班案件(右)。

4.5 F0建模实验

在本节中,我们提出的评价单声道F0追踪器(见2.5节)在两个不同的场景。我们首先考虑一个参考一致创建个人歌手来自同一个声音的混合部分,并评估预测F0追踪器的性能对近似引用旋律内容(cf 3.2节)。

第一部分的结果,我们选择F0跟踪,获得最佳性能的参考听到乐声第二次评估。在这种情况下,我们将参考听到乐声替换为上述听到乐声提取的源分离方法。这样的过程使一个完全自动化的提取一个唱诗班的旋律内容部分给定一个唱诗班混合物作为输入。

4.5.1数据集

F0建模实验我们选择录音来自ECD CSD和录音。正如2.2节中提到的,这些数据集手动为每个茎的F0更正注释的所有歌曲。在本手册修正导致F0的同时,也就是说,接近近似认为,我们承认注释器的感知可能会引入一些偏见F0标签。

歌手每部分的数量是不同的两个数据集:四个歌手每一部分CSD,在儿童早期开发2到5。这些数据集的每首歌,我们为每个SATB部分创建一致的混合物。我们评估共有14表现一致。

4.5.2结果

本节介绍了F0建模实验的结果。表7总结评价的结果与两种不同的单声道F0追踪器估计一致的球场表现。而原始的音高准确度(战)只有措施的比例表示帧F0的估计是正确的(在一半半音程),总体精度(OA)度量也认为表达检测:它代表帧的比例是正确的音高和表达。我们需要考虑这两个方面为我们的任务(音高和表达)。因此,我们选择绉进一步的实验,平均分数更高的办公自动化。绉输出表达信心随着F0值预测。因此,我们应用一个阈值决定是否一个框架的信心是有声的或无声的笑。我们计算这个阈值的平均阈值最大化OA在外部的记录集。特别是,我们从Cantoria选择四个单声道录音数据集(单面山,2022)2从DCS和8单声道录音。我们manually-corrected F0注释所有12个录音,我们考虑在评价参考。在这一过程中,我们获得一个最优阈值为0.7,我们采用以下实验。

表7
www.雷竞技rebatfrontiersin.org

表7。评价结果单声道F0追踪器在地面上的真理一致混合物。我们使用引用旋律内容如3.2节所述。结果平均在歌曲和语音部分。标准偏差显示在括号中。

图6显示第二个实验的结果,即。,the evaluation of CREPE applied to the unison signals extracted by Open-Unmix, grouped by song. We present the results for四方例(图6每部分),模型训练的歌手,和唱诗班例(图6 b每一部分,模型训练与多个歌手)。让我们回想一下,唱诗班的输入记录,即。每一部分,多个歌手。

图6
www.雷竞技rebatfrontiersin.org

图6。总体精度获得与绉Open-Unmix的输出。(一)结果四方情况(每一部分模型训练一个歌手)。(B)结果唱诗班每一部分案例(模型训练与多个歌手)。歌曲开始标签与SC和SG指歌曲从儿童早期开发歌曲标签开头CSD指CSD的歌曲。

我们获得一个更高的OA CSD歌曲曾被用作训练源分离模型比ECD歌曲被排除在训练。这些结果表明,绉可以用来有效地近似一致的感知音调信号从源中提取分离模型,即使对歌曲不用于培训源分离模型。

4.5.3截面评价

定性检查的一个小子集源分离结果显示连续的语音部分之间有些困惑。定量地评估这一现象,我们进行一个简短的截面评估,即。,we repeat the F0 estimation evaluation using the F0 from another voice section as reference. These evaluations reveal some confusion especially between alto and tenor (up to a RPA of 56%), and soprano and alto (up to 58%). In both scenarios, the confusion happens from the higher pitch voice to the lower one, i.e., the algorithm extracts the alto voice instead of the soprano, and not vice-versa. Furthermore, we found that all confusions with an RPA above 40% belong to songs from ECD collection and not CSD. These results confirm the limitations we detect in the source separation numerical evaluation, where alto and tenor voices obtain worse performances.

4.6感知评估

我们使用主观听力测试进行感知评价的结果提出了方法。我们评估这项工作的三个结果:源分离,独自歌唱合成,ECD的清洗过程。源分离,我们专注于以下标准:音频质量,旋律内容相似,和分离质量,即。从其他声音,水平的出血。独自歌唱合成而言,我们的目标是验证我们的近似一致的F0的加权平均个人F0的贡献。因此,我们关注的是旋律相似性合成和原来的一致。最后,我们评估清洗源于儿童早期开发的过程中,为了消除从其他歌手流血。

4.6.1感性评价方法

主观听力测试相关的分离,工作人员提供的三个例子从每一个女高音,中音,中音和低音部分分开使用Open-Unmix模型训练数据集的三种变体。参与者还提供了混合物作为参考和地面真理的一部分作为一个锚和被要求给每个目标的例子而言,隔离部分与其他部分的规模(0−5)。与质量有关的问题,类似的例子是提供给参与者,但他们要求这些例子在输出的音频质量方面,考虑到文物和其他扭曲,可能被添加在分离过程中。对于这些听力测试中,我们使用了分离输出从Open-Unmix模型,例如,UMXC,UMXCB,UMXCBDE

评价坚持加权平均F0的旋律或近似认为用于模型的单音调一致,参与者被要求评价单个歌声的旋律的相似性与加权平均合成个体声音的和谐一致的参考记录。这个合成是使用ut系统提出了完成的(Chandna et al ., 2020)。此外,参与者被要求评价一致从混合物中分离一部分相同的标准在[0−5]。一个问题提供了为每个SATB部分。最后,评估儿童早期开发个人茎的清洁,我们要求参与者的原始和清洁版本部分给出的一个例子相同的部分从清洁CSD数据集。

4.6.2感性评价结果

主观听力测试的结果所示表8,9。有12个参与我们的评估,其中大多数之前的音乐训练。表8显示了听力测试的结果和分离质量标准。评级为每个被除以规范化的问题给出的评级的参考部分问题。它可以观察到高音和中音部分的分离被评为高于高音和低音部分,与观察的客观评价。它也可以观察到分离的评级模型训练只有CSD高于增加的模型训练数据。这也是与客观评价的结果相反。类似的趋势是质量标准,与评级低于alto的高音部分,中音和低音部分。

表8
www.雷竞技rebatfrontiersin.org

表8。规范化MOS主观听力测试的结果与分离和质量标准。

表9
www.雷竞技rebatfrontiersin.org

表9。规范化MOS主观听力测试的结果数据集有关儿童早期开发的清洁和adherance一致合成的旋律。

结果听力试题与坚持一致标准的旋律,ECD的清洗过程数据集所示表9。我们观察到清洗信号被评为高于原始信号的高音和中音部分而中音和低音部分的情况则正好相反。我们相信较低评级的清洗信号给后面部分是由于文物在分离过程中引入信号。我们还观察到单嗓音信号合成使用个人的加权平均数的歌手一起被评为高于分离部分的坚持旋律一致的信号。这支持了我们的假设,可以使用加权平均数作为一个单一的有效表示音高一致认为在听录音。

5应用程序

前面几节中给出的分析可以为多个应用程序结合SATB合唱团相关分析和合成。一旦分离,一致茎可以混音强调特定的唱诗班的一部分,或删除一个个人合唱练习,例如,一个歌手可能想把他们从其他地区的混合物和他们一起唱。同样的,一致的F0分离信号的分析可以使用随Unison-to-Solo (ut)和Solo-to-Unison (STU)网络在我们以前的工作(Chandna et al ., 2020)生成材料对个人或集体合唱练习。见图7 b,UTS模型提取语言内容, z ̂ v ,对于每一个一致的茎,v∈{年代,一个,T,B},并使用这些信息提取的F0, F 0 ̂ v ,合成一个唱歌的声音信号,yv,代表的感知内容一致的信号。合成这种信号本身可以是有趣的,尤其是对转录的目的,使用一个自动转录系统(歌词德米雷尔et al ., 2020)。进一步合成步骤之前,如pitch-shifting和音频转换时间拉伸可以应用于估计的内容,这样用户可以获得一个修改后的信号为他们的实践。

图7
www.雷竞技rebatfrontiersin.org

图7。图的完整的提出了框架。给定一个输入记录multi-singer合唱的录音,xC论文的第一部分,提出了使用(一)源分离技术来获得每个茎基本一致, x ̂ v U ,在那里v∈{年代,一个,T,B}。这项工作的第二部分着重于分析和合成听到乐声,我们目前为一组包含的应用程序(B)独奏的一致,可选的音频转换pitch-shifting一样,(C)独奏一致,(D)混音。

我们还提出了一个斯图模型来生成一个一致从一个混合物没有乐器伴奏的唱歌的声音信号(图7 c)。这个模型使用语音输入信号的转换来生成各种克隆并添加时间和螺距偏差来创建一个一致的效果。这样一个模型可以用来创建修改的混音SATB合唱团的记录yc,见图7 d。这部分的额外的应用程序是一代的记录与多个完整的唱诗班歌手/声音,给定一个四重奏记录作为输入。

在这项研究中,我们测试的有效性模型转换和重新合成一个完整的唱诗班录音。所示图7,我们首先使用一个从3.1节源分离模型,例如,UMXCBDE分离女高音,中音,中音和低音一致零件从一个完整的唱诗班混合物。这是紧随其后的是内容提取和重新合成为每个部分生成个人单独的语音信号。我们运用互换±1半音程的部分在这个步骤中,它对应于生产模型。然后我们使用斯图模型为每个创建一致的信号转换部分,然后再混合在一起。

此外,我们现在在相应的网站上一些音频的例子。

6结论

我们进行了一个初步涉足SATB合唱录音源分离。我们适应四个最近提议数据驱动源分离模型对音乐和语言的任务分离女高音,女低音,中音和低音的声音从一个合唱混合物。实验中,我们考虑一些最近发布的数据集的合唱训练和评估源分离模型和发现模型提出了音乐源分离更适合这个任务比源分离提出了演讲。我们也发现waveform-based模型是一样有效的模型使用谱图等中介表示,基于这四方的数据可以有效地用于训练模型每一部分分开多个声音一致。这些发现提供了基础为未来的工作在这一领域深度学习基础源分离模型实现端到端的波形分离。由于难以记录个人歌手合唱部分,很可能未来数据集SATB合唱团将在四方格式和这些数据可以用于增加培训源分离模型。我们注意进一步扩增音高变化等,用于单面山et al。(2020)结组的评估,还可以用于数据增加,但并不被认为是在这项研究中,我们还表明,模型训练较少但干净的数据可用于清洗inter-singer泄漏可能出现在SATB录音。

进一步,我们分析一致在SATB唱歌的声音,通过感知听力测试,并表明,感觉旋律的声音一致性能可以用加权平均的近似f0个人歌手一致。这个加权平均可以估计单声道F0跟踪算法,数据驱动和以知识为基础的。最后,我们提出一个分离和再混合系统,可用于修改合唱录音实践和教学目的。系统利用本文研究以及模型由美国早些时候re-synthesise个人SATB合唱团的歌声信号分离部分。近似认为沥青用于合成这还允许修改信号。我们提供的例子,这样的修改补充材料。我们注意到合成的质量可以通过改善提高每个组成组件的框架,包括源分离,单声道F0估计,语言建模和合成技术。我们也相信增加数据以及对应如音高变化可以提高组件的性能。我们希望通过本研究可以为未来在这一领域的研究工作奠定基础。

数据可用性声明

他们可以在这里找到:合唱数据集:{https://zenodo.org/record/1286485},Dagstuhl ChoirSet: {https://zenodo.org/record/3897181ESMUC唱诗班数据集}:{https://zenodo.org/record/5848989},Cantoria数据集:{https://zenodo.org/record/5878677}。

道德声明

涉及人类受试者的研究回顾和批准的机构伦理审查委员会的项目(CIREP)大学Pompeu布拉(UPF)。患者/参与者提供了他们的书面知情同意参与这项研究。

作者的贡献

所有作者研究的概念和设计。PC和DP源进行分离实验,而HC组织一致的数据库和执行分析录音。DP进行的一个数据集的数据清理。PC和HC设计听力测试和电脑负责创建它。所有作者都参与寻找听力测试的参与者。电脑,HC,例如,DP写了第一个版本的手稿,手稿和所有作者修改,以及批准提交的版本。

资金

这部分工作是由欧盟委员会支持下TROMPA项目(H2020 770376),和项目音乐AI (PID 2019 - 111403 gb - i00 / AEI / 10.13039 / 501100011033)由西班牙Ministerio de Ciencia Innovacion y大学(MCIU)和Estatal de Investigacion通讯社(AEI)。

的利益冲突

作者声明,这项研究是在没有进行任何商业或财务关系可能被视为一个潜在的利益冲突。

出版商的注意

本文表达的所有索赔仅代表作者,不一定代表的附属组织,或出版商、编辑和审稿人。任何产品,可以评估在这篇文章中,或声称,可能是由其制造商,不保证或认可的出版商。

补充材料

本文的补充材料在网上可以找到:https://www.雷竞技rebatfrontiersin.org/articles/10.3389/frsip.2022.808594/full补充材料

引用

号手,。,Pardo, B., and Seetharaman, P. (2020). A Study of Transfer Learning in Music Source Separation.arXiv预印本arXiv: 2010.12650

谷歌学术搜索

Chandna, P。,单面山,H。,Gómez, E. (2020). “A Deep Learning Based Analysis-Synthesis Framework for Unison Singing,” in21学报》国际社会对音乐信息检索会议(ISMIR),598 - 604。

谷歌学术搜索

绝壁,S。,Hancox, G., Morrison, I., Hess, B., Kreutz, G., and Stewart, D. (2010). Choral Singing and Psychological Wellbeing: Quantitative and Qualitative Findings from English Choirs in a Cross-National Survey.j:。艺术健康1,19-34。doi: 10.1386 / jaah.1.1.19/1

CrossRef全文|谷歌学术搜索

单面山,h (2022)。数据驱动的音高合唱录音的内容描述。西班牙巴塞罗那:博士学位论文,大学Pompeu FabraTo出现

谷歌学术搜索

单面山,H。,Gómez, E., and Chandna, P. (2019). “A Framework for Multi-F0在建模Satb合唱团录音。计算会议程序的声音和音乐(马拉加、西班牙):SMC),447 - 453。

谷歌学术搜索

单面山,H。,Gómez, E., Martorell, A., and Loáiciga, F. (2018). “Analysis of Intonation in Unison Choir Singing,” in学报》音乐感知和认知的国际会议(ICMPC)(奥地利格拉茨),125 - 130。

谷歌学术搜索

单面山,H。,麦克菲,B。,Gómez, E. (2020). “Multiple F0 Estimation in Vocal Ensembles Using Convolutional Neural Networks,” in21学报》国际社会对音乐信息检索会议(ISMIR),302 - 309。

谷歌学术搜索

Defossez,。,Usunier, N., Bottou, L., and Bach, F. (2019). Music Source Separation in the Waveform Domain.arXiv预印本arXiv: 1911.13254

谷歌学术搜索

戴,J。,Dixon, S. (2017). “Analysis of Interactive Intonation in Unaccompanied SATB Ensembles,” in《国际社会对音乐信息检索会议(ISMIR)(苏州、中国),599 - 605。

谷歌学术搜索

戴,J。,Dixon, S. (2019). Singing Together: Pitch Accuracy and Interaction in Unaccompanied Unison and Duet Singing.j . Acoust。Soc。美国145年,663 - 675。doi: 10.1121/1.5087817

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

de Cheveigne。,Kawahara, H. (2002). Yin, a Fundamental Frequency Estimator for Speech and Music.j . Acoust。Soc。美国111年,1917 - 1930。doi: 10.1121/1.1458024

CrossRef全文|谷歌学术搜索

德米雷尔E。,一个hlbäck, S., and Dixon, S. (2020). “Automatic Lyrics Transcription Using Dilated Convolutional Neural Networks with Self-Attention,” in2020年国际神经网络(IJCNN)联合会议(IEEE)。doi: 10.1109 / ijcnn48605.2020.9207052

CrossRef全文|谷歌学术搜索

Devaney J。,Mandel, M. I., and Fujinaga, I. (2012). “A Study of Intonation in Three-Part Singing Using the Automatic Music Performance Analysis and Comparison Toolkit (AMPACT),” in《国际社会对音乐信息检索会议(ISMIR)(葡萄牙的波尔图街头),511 - 516。

谷歌学术搜索

戈夫,M。,Depalle, P. (2020). “Score-informed Source Separation of Choral Music,” in21学报》国际社会对音乐信息检索会议(ISMIR),231 - 239。

谷歌学术搜索

简颂,。,Humphrey, E. J., Montecchio, N., Bittner, R. M., Kumar, A., and Weyde, T. (2017). “Singing Voice Separation with Deep U-Net Convolutional Networks,” in18学报》国际社会对音乐信息检索会议(ISMIR)

谷歌学术搜索

金,j·W。,年代一个lamon, J., Li, P., and Bello, J. P. (2018). “Crepe: A Convolutional Representation for Pitch Estimation,” in《IEEE国际会议音响、演讲和信号处理(ICASSP)(加拿大卡尔加里),161 - 165。doi: 10.1109 / ICASSP.2018.8461329

CrossRef全文|谷歌学术搜索

比赛中,L。,Morrison, I., Clift, S., and Camic, P. (2012). Benefits of Choral Singing for Social and Mental Wellbeing: Qualitative Findings from a Cross-National Survey of Choir Members.j .公开表示“状态”。健康11日,选手。doi: 10.1108 / 17465721211207275

CrossRef全文|谷歌学术搜索

Lluis F。,Pons, J., and Serra, X. (2019). End-to-end Music Source Separation: Is it Possible in the Waveform Domain?ProcInterspeech,4619 - 4623。doi: 10.21437 / interspeech.2019 - 1177

CrossRef全文|谷歌学术搜索

罗,Y。,Chen, Z., Hershey, J. R., Le Roux, J., and Mesgarani, N. (2017). “Deep Clustering and Conventional Networks for Music Separation: Stronger Together,” in2017年IEEE国际会议音响、演讲和信号处理(ICASSP) (IEEE),61 - 65。doi: 10.1109 / icassp.2017.7952118

CrossRef全文|谷歌学术搜索

罗,Y。,Mesgarani, N. (2018). “Tasnet: Time-Domain Audio Separation Network for Real-Time, Single-Channel Speech Separation,” in2018年IEEE国际会议音响、演讲和信号处理(ICASSP) (IEEE),696 - 700。doi: 10.1109 / icassp.2018.8462116

CrossRef全文|谷歌学术搜索

罗,Y。,Mesgarani, N. (2019). Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation.Ieee / acm反式。朗音频讲话。过程。27日,1256 - 1266。doi: 10.1109 / taslp.2019.2915167

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

时光,E。,Wichern, G., Seetharaman, P., and Le Roux, J. (2019). “Cutting Music Source Separation Some Slakh: A Dataset to Study the Impact of Training Data Quality and Quantity,” inProc, IEEE的研讨会上应用信号处理音频和声学(WASPAA) (IEEE)。doi: 10.1109 / waspaa.2019.8937170

CrossRef全文|谷歌学术搜索

Mauch, M。,Dixon, S. (2014). “pYIN: A Fundamental Frequency Estimator Using Probabilistic Threshold Distributions,” inIEEE国际会议音响、演讲和信号处理(ICASSP)(佛罗伦萨,意大利),659 - 663。doi: 10.1109 / icassp.2014.6853678

CrossRef全文|谷歌学术搜索

麦克菲,B。,Raffel, C., Liang, D., Ellis, D. P., McVicar, M., Battenberg, E., et al. (2015). “Librosa: Audio and Music Signal Analysis in python,” inPython程序的科学会议(美国德克萨斯州:奥斯丁),年龄在18岁至25岁之间。doi: 10.25080 /改称- 7 - b98e3ed - 003

CrossRef全文|谷歌学术搜索

麦克劳德,。,施拉姆,R。,年代teedman, M., and Benetos, E. (2017). Automatic Transcription of Polyphonic Vocal Music.达成。科学。7日,1285年。doi: 10.3390 / app7121285

CrossRef全文|谷歌学术搜索

Meseguer-Brocal G。,Peeters, G. (2019). Conditioned-u-net: “Introducing a Control Mechanism in the U-Net for Multiple Source Separations,” in《国际社会对音乐信息检索会议(ISMIR),159 - 165。doi: 10.5281 / zenodo.3527766

CrossRef全文|谷歌学术搜索

Morise, M。,Yokomori, F., and Ozawa, K. (2016). World: a Vocoder-Based High-Quality Speech Synthesis System for Real-Time Applications.IEICE反式。正,系统。E99。D, 1877 - 1884。doi: 10.1587 / transinf.2015edp7457

CrossRef全文|谷歌学术搜索

佩雷斯,E。,年代trub, F., de Vries, H., Dumoulin, V., and Courville, A. C. (2018). “FiLM: Visual Reasoning with a General Conditioning Layer,” in美国第32 AAAI会议上人工智能

谷歌学术搜索

彼得曼,D。Chandna, P。单面山,H。Bonada, J。,Gómez, E. (2020). “Deep Learning Based Source Separation Applied to Choir Ensembles,” in21学报》国际社会对音乐信息检索会议(ISMIR),733 - 739。

谷歌学术搜索

钱,K。,Zhang, Y., Chang, S., Yang, X., and Hasegawa-Johnson, M. (2019). “Autovc: Zero-Shot Voice Style Transfer with Only Autoencoder Loss,” in国际会议上机器学习,5210 - 5219。

谷歌学术搜索

Rafii, Z。,Liutkus, A., Stöter, F.-R., Mimilakis, S. I., and Bittner, R. (2017). The {MUSDB18} Corpus for Music Separation.研究数据。doi: 10.5281 / zenodo.1117372

CrossRef全文|谷歌学术搜索

Rosenzweig, S。单面山,H。韦斯C。,年代cherbaum, F., Gómez, E., and Müller, M. (2020). Dagstuhl ChoirSet: A Multitrack Dataset for MIR Research on Choral Singing.反式。Int, Soc。音乐正。检索(Tismir)3,98 - 110。doi: 10.5334 / tismir.48

CrossRef全文|谷歌学术搜索

罗欣,t D。桑德博格,J。,Ternström, S. (1986). Acoustic Comparison of Voice Use in Solo and Choir Singing.j . Acoust。Soc。美国79年,1975 - 1981。doi: 10.1121/1.393205

CrossRef全文|谷歌学术搜索

撒母耳,D。,Ganeshan, A., and Naradowsky, J. (2020). “Meta-learning Extractors for Music Source Separation,” inICASSP 2020 - 2020年IEEE国际会议音响、演讲和信号处理(ICASSP)(IEEE),816 - 820。doi: 10.1109 / icassp40776.2020.9053513

CrossRef全文|谷歌学术搜索

Sarkar, S。,Benetos, E., and Sandler, M. (2020). “Choral Music Separation Using Time-Domain Neural Networks,” in学报DMRN + 15:数字音乐研究网络研讨会(数字音乐中心QMUL),7 - 8。

谷歌学术搜索

施拉姆,R。,Benetos, E. (2017). “Automatic Transcription of a Cappella Recordings from Multiple Singers,” inAES国际会议上语义音频(音频工程学会)。

谷歌学术搜索

Scirea, M。,Brown, J. A. (2015). “Evolving Four Part harmony Using a Multiple Worlds Model,” in第七届国际联合会议上计算情报学报》(IJCCI) (IEEE),220 - 227。doi: 10.5220 / 00055952022002271

CrossRef全文|谷歌学术搜索

短距起落,D。,Ewert年代。,Dixon, S. (2018). “Wave-u-net: A Multi-Scale Neural Network for End-To-End Audio Source Separation,” in19学报》国际社会对音乐信息检索会议(ISMIR),334 - 340。

谷歌学术搜索

小公牛,F.-R。Liutkus,。,Ito, N. (2018). “The 2018 Signal Separation Evaluation Campaign,” in国际会议上潜变量分析和信号分离(施普林格),293 - 305。doi: 10.1007 / 978 - 3 - 319 - 93764 - 9 - _28

CrossRef全文|谷歌学术搜索

小公牛,F.-R。、Uhlich年代。,Liutkus, A., and Mitsufuji, Y. (2019). Open-unmix - a Reference Implementation for Music Source Separation.4、1667。doi: 10.21105 / joss.01667

CrossRef全文|谷歌学术搜索

苏,L。,Chuang, T.-Y., and Yang, Y.-H. (2016). “Exploiting Frequency, Periodicity and Harmonicity Using Advanced Time-Frequency Concentration Techniques for Multipitch Estimation of Choir and Symphony,” in《音乐信息检索(ISMIR)国际会议上美国纽约,393 - 399。

谷歌学术搜索

桑德博格,j . (1987)。科学的歌唱的声音(迪卡尔布,伊利诺斯州(美国):北伊利诺伊大学出版社)。

Ternstrom,美国(1991年)。感知评价的声音分散齐声合唱的声音。STL-Quarterly掠夺。身份的代表。32岁,041 - 049。

谷歌学术搜索

Ternstrom,美国(2002年)。合唱音响——迄今发表的科学研究的概况。演讲中,音乐听问:掠夺。身份的代表。43岁,001 - 008。

谷歌学术搜索

文森特,E。,Gribonval, R., and Fevotte, C. (2006). Performance Measurement in Blind Audio Source Separation.IEEE反式。朗音频讲话。过程。14日,1462 - 1469。doi: 10.1109 / tsa.2005.858005

CrossRef全文|谷歌学术搜索

韦斯C。,年代chelcht, S. J., Rosenzweig, S., and Müller, M. (2019). “Towards Measuring Intonation Quality of Choir Recordings: A Case Study on Bruckner’s Locus Iste,” in20学报》国际社会对音乐信息检索会议(ISMIR)(代尔夫特,荷兰),276 - 283。

谷歌学术搜索

脚注

1https://zenodo.org/record/5848990

2Cantoria数据集包含的多轨录音SATB四方,在这里可以看到:https://zenodo.org/record/5851069

关键词:音频信号处理、深度学习合唱,源分离、一致、歌唱合成

引用:Chandna P, H单面山,彼得曼D和戈麦斯E(2022)基于深度学习的框架,用于源分离、分析和合成合唱集合体。前面。Proc团体。2:808594。doi: 10.3389 / frsip.2022.808594

收到:2021年11月3日;接受:07年3月2022;
发表:2022年4月05。

编辑:

文武王英国萨里大学

审核:

Akinori Ito保持、东北大学、日本
Emmanouil Benetos英国伦敦大学玛丽皇后

版权©2022 Chandna,单面山,彼得曼和戈麦斯。这是一个开放分布式根据文章知识共享归属许可(CC)。使用、分发或复制在其他论坛是允许的,提供了原始作者(年代)和著作权人(s)认为,最初发表在这个期刊引用,按照公认的学术实践。没有使用、分发或复制是不符合这些条件的允许。

*通信:Pritish Chandna,pritish.chandna@voicemod.net

下载