？？？听歌跳舞？？？

2020-12-14 本文已影响0人 Valar_Morghulis

https://github.com/verlab/Learning2Dance_CAG_2020

https://www.verlab.dcc.ufmg.br/motion-analysis/cag2020/

通过学习技术合成人体运动正在成为一种越来越流行的方法，以减轻新的数据采集需求，以产生动画。学会从音乐中自然地移动，也就是说，跳舞，是十个人中最复杂的动作之一。每一个舞蹈动作都是独一无二的，但这些动作保持了舞蹈风格的核心特征。由于运动流形结构的非欧几里德几何结构，用经典的卷积和递归神经模型来解决这个问题的大多数方法都要经历训练和可变性问题。针对音频信息自动生成舞蹈的问题，设计了一种基于图卷积网络的舞蹈自动生成方法。我们的方法使用了一种基于输入音乐音频的对抗性学习方案来创建自然运动，保留了不同音乐风格的关键动作。我们用生成方法的三个量化指标和一个用户研究来评估我们的方法。结果表明，在不同的实验中，所提出的GCN模型优于基于音乐的最新舞蹈生成方法。此外，我们的图形卷积方法更简单，更容易训练，能够产生更真实的运动风格，关于定性和不同的定量指标。它还提出了一个视觉运动知觉质量可与真实运动数据相媲美。数据集和项目可在以下网站公开获取：https://www.verlab.dcc.ufmg.br/motion-analysis/cag2020。

计算机图形学中持久的重大挑战之一是为虚拟化身提供可信的动画。人类在进行诸如行走、跑步、跳跃或跳舞等活动时有一系列不同的动作。在过去的几十年里，这种运动的建模已经委托给运动捕捉系统。尽管高技能的艺术家利用捕捉到的运动数据取得了显著的成果，但人类的运动具有丰富的时空分布，各种不同的运动形式层出不穷。此外，人的运动还受到复杂的情境感知因素的影响，包括听觉感知、人的年龄和性别等身体条件以及文化背景。

通过学习技术合成运动正在成为一种越来越流行的方法，以减轻捕捉新的真实运动数据以生成动画的需求。运动合成已经被应用到许多应用中，比如娱乐用的图形动画、机器人技术和带有人群的多模态图形渲染引擎[21]，仅举几个例子。每个人的动作都有其特殊性，但这些动作保留了动作风格的特征（如行走、跳跃或跳舞），我们通常能够毫不费力地识别出这种风格。当设置虚拟化身的动画时，最终目标不仅是将一个运动从一个真实的人类重新定位到一个虚拟角色，而且体现出与原始人类运动相似的运动。换言之，实现逼真动画的关键步骤是学习运动分布，然后从中提取样本（即新运动）。例如，一个具有挑战性的人体运动是舞蹈，动画师的目标不是创造模仿真实姿势的化身，而是制作一组与音乐编排相匹配的姿势，同时保持个人的品质。

在这篇论文中，我们提出使用对抗性训练和卷积图网路架构（GCN）来合成舞蹈动作的问题。舞蹈是一种具有代表性和挑战性的人体运动。舞蹈不仅仅是表演预先定义好的、有组织的运动动作，它还包括自我表达的步骤和序列。在舞蹈动作中，舞者的特殊性和动作的特点对舞蹈风格的识别起着至关重要的作用。因此，我们工作中的一个中心挑战是综合考虑以下三个主要方面的一组姿势：首先，运动必须是可信的，即与真实运动相比，盲目评估应该呈现出相似的结果；其次，合成的动作必须保留音乐编排典型表演中的所有特征；第三，每一组新的姿势不应该严格等同于另一组，换句话说，当为一个新的化身生成一个动作时，我们必须保持个体的品质。图1说明了我们的方法。

从声音中创造动作与具体的音乐认知范式有关。它将感知和行为、物理环境条件和主观用户体验（文化遗产）结合起来[30]。因此，如何将真实的人体运动合成为包含运动方面的运动仍然是一个富有挑战性和活跃的研究领域[13,55]。对运动进行分布建模是一个强大的工具，它可以提供各种各样的运动，同时又不会消除所绘制的每个样本的单独特征。此外，通过调节这些分布，例如，使用像音乐这样的音频信号，我们可以选择与输入信号相匹配的运动子群体。生成模型在学习数据分布方面已显示出令人印象深刻的结果。几十年来，通过机器学习的进步，这些模型得到了改进，拓宽了对数据学习模型的理解。特别是，深度学习技术的进步产生了前所未有的有效和丰富的技术相结合，能够预测和生成数据。结果是，在不同领域的任务中获得了高度精确的结果。爆炸首先是在计算机视觉界感受到的。从使用卷积神经网络（CNN）在图像分类中获得高精度分数到使用生成对抗性网络（GAN）[16]，计算机视觉领域已经受益于深度学习方法的一些改进。计算机视觉和计算机图形学领域也取得了重大进展，通过使用几种类型的传感器处理场景中的多模态数据。这些进展归因于最近兴起的学习方法，特别是卷积神经网络。此外，这些方法已经被用于从多模态源合成数据，并且音频数据是实现最令人印象深刻的结果之一，如[9]所述。

最近，基于图的网络作为一种有前途和有效的方法来处理结构已知的问题。一个典型的方法是Kipf和Welling[26]的工作，其中在半监督分类任务中使用了直接对图结构数据进行操作的卷积体系结构。由于图形是人体骨骼的自然表示，文献中提出了几种利用GCN来估计和生成人体运动的方法。例如，Yanet al.[55]提出了一种基于GCNs的框架结构，它通过从高斯过程（GP）中抽样随机向量来生成一组骨架姿态。尽管该框架能够创建一组模仿每个孩子的动作的姿势，但该框架不提供对运动生成的任何控制。如前所述，我们的方法也使用GCN来合成人体运动，但与Yanet al.的工作不同，我们可以使用音频数据控制运动的风格，同时保持最后动作的合理性。我们认为，人的骨骼具有图结构模型，其运动遵循与时间相关的复杂姿势序列，并且使用使用对抗性训练的卷积图网络可以更好地模拟定义和组织的运动集。

在这种背景下，我们提出了一种人工老化音频数据来合成运动的架构。我们的方法开始编码一个声音信号来提取音乐风格使用CNN架构。音乐风格和时空潜在向量被用来调节一个GCN架构，该架构在对抗状态下训练，以预测随时间变化的2D人体关节位置。用户研究和量化指标的实验表明，我们的方法输出者形成了最先进的方法，并提供了合理的动作，同时保持了不同舞蹈风格的特点。

本文的贡献可概括如下：

一种新的基于听觉数据的条件GCN结构。在我们的方法中，我们进一步推进了对抗式学习，以提供具有时间依赖性的多模态数据学习；

一个新颖的多模态数据集，包含了人们跳舞时不同音乐风格的音频、运动数据和视频

2相关工作

声音和运动

最近，我们见证了从动画片到新的建筑风格的转变。例如，Bregleret al.[4]通过重新排列训练输入视频中的嘴图像以匹配新音轨的音素序列，来创建一个受试者说出他们最初不说的短语的视频。在同一方向上，Weiss[52]应用数据驱动的多模态方法来生成二维视频逼真的视听“谈话头”，使用F0和Mel倒谱系数作为声学特征来建模语音。为了根据节奏、速度和强度等音乐特征合成人体运动，Shiratri和Ikeuchi[42]根据节奏和表演者的手、脚和重心的变化建立了关键姿势。然后，他们使用音乐和运动特征向量来选择与音乐和运动强度相匹配的候选运动片段。尽管取得了令人印象深刻的结果，但当关键帧位于音乐的快速片段时，该方法失败了。

Cudeiroet al.[9]提出了一种编码-解码网络，它使用从深度语音中提取的音频特征[19]。该网络根据主题标签生成逼真的三维面部动画，以学习不同的个人说话风格。为了使人脸网格变形，Cudeiro等人在低维嵌入空间中对音频特征进行编码。尽管他们的模型能够概括出看不见的对象的面部网格结果，但他们报告说，最终的动画与自然捕捉到的真实序列相距甚远。此外，引入一种新的风格是很麻烦的，因为它需要一组4D扫描与音频配对。Ginosaret al.[13]通过将音频映射到姿势，实现从语音到手势的转换，从而产生手臂和手的运动。他们使用了一种对抗性训练，在这种训练中，U-Net体系结构将编码的音频输入转换为2D姿势的时间序列。为了产生更真实的结果，鉴别器根据每对随后生成的姿势之间的差异进行条件化处理。然而，他们的方法是特定于主题的，不能推广到其他演讲者。

与我们更相关的工作是Lee等人提出的方法[29]。作者使用一个复杂的架构来合成舞蹈动作（表现为一系列2D姿势），给出一段输入音乐。他们的体系结构是基于一个精心设计的分解到合成的框架，并经过了对抗性学习计划的训练。我们的基于图形卷积的方法，反过来，更简单，更容易训练，并产生更真实的运动风格，关于定性和不同的定量指标。

生成图卷积网络

自从Goodfellow等人[16]的开创性工作以来，生成性对抗网络（generative atterial networks，GAN）已经成功地应用于许多难题，尤其是在合成新信息方面，例如图像[25]、运动[6]和姿势估计[7]，等等。Mirza和Osindero[36]提出了条件GANs（cGAN），为数据生成提供了一些指导。Reedet al.[41]从文本中合成真实的图像，证明cANS也可以用于解决多模态问题。图卷积网络（GCN）是近年来兴起的一种强大的数据学习工具，它利用嵌入在n维欧几里德向量空间之外的几何特性，如图和简单复形。在我们的上下文中，与经典cnn相反，GCNs可以模拟运动流形空间结构[22,56,55]。Yanet al.[56]应用GCNs来模拟人体运动并对行为进行分类。在从输入视频中提取每个帧的二维人体姿态后，利用时空图卷积网络（ST-GCN）对骨骼进行处理。Yanet al.继续利用GCNs的表示能力，提出了卷积序列生成网络（CSGN）[55]。通过对高斯过程中的相关潜在向量进行采样并使用时间卷积，CSGN结构能够生成时间相干的长人体动作序列作为骨架图。我们的方法比[56，55]更进一步。它根据声学数据（即音乐）生成基于人体骨骼的图形运动序列。通过对运动分布的调节，我们的方法不仅可以学习创造出合理的人体运动，而且可以从不同的领域学习音乐风格的特征动作。

人体姿势估计与预测

运动合成和运动分析问题得益于人体姿势估计方法的精度提高。从图像中进行人体姿势估计，则得益于最近出现的大数据集[32,1,18]，这些数据集具有注释关节的位置，以及从二维图像到三维人体形状的密集对应[5,31,54,18,28,24,27]。大量的注释数据使得预测和模拟人体运动的重要里程碑成为可能[51,17,12,11,48]。最近，使用递归神经网络（RNN）进行时间序列预测的趋势在几种人体运动预测框架中变得流行起来[11，35，12]。然而，预测中的位姿误差累积允许在有限的未来帧范围内进行预测[17]。Guiet al.[17]建议通过使用两个全局递归鉴别器应用对抗性训练来克服这个问题，这两个全局递归鉴别器同时验证预测的序列级合理性及其与输入序列的一致性。Wanget al.[48]提出了一种网络体系结构，通过空间分量对运动的时空变异性进行建模，以进行特征提取。然而，众所周知，这些RNN模型难以训练，且计算繁琐[37]。正如[29]所指出的，无论输入如何，RNN产生的运动趋向于以特定姿势运动。

转移与人体动作

已有大量的前人研究工作[44,39,50,6,15]研究了具有特定运动风格的合成运动。大多数方法将问题表述为将特定的运动样式传输到输入运动[53，44]，或将运动从一个字符传输到另一个字符，通常称为运动重定目标[14，8，46]。最近的方法探索了深度强化学习，以模拟特定风格的基于物理的运动[38，33，39]。另一个活跃的研究方向是将运动从视频传输到视频[50,6,15]。然而，从音频中产生文体运动的研究还不多见，仍然是一个富有挑战性的研究领域。Villegaset al.[47]提出了一种基于高层结构提取的视频生成方法，根据这种结构如何及时演化来调整新帧的创建，从而防止像素级误差预测累积。他们的方法被用于长期视频预测人类的行为，使用二维人体姿势作为高级结构。

Wang等人[49]讨论了如何通过使用一系列自动编码器来使用对抗性学习来产生人体运动。作者主要研究了三个任务：运动合成、条件运动合成和运动风格转换。作为我们的工作，他们的框架能够根据样式标签参数化生成条件运动，但是没有与之相关的多模态。Janget al.[23]提出了一种受序列到序列模型启发的生成运动流形的方法。作为一个显著的缺点，他们的方法在创建超过10秒的运动时性能下降，这使得该方法不适合生成长序列。另一方面，我们的方法可以根据不同的音乐风格创建长的动作序列，利用对手GCN的能力生成新的长的，但可以识别的动作序列。

三。方法论

我们的方法被设计用来根据音乐风格合成一系列类似人类舞蹈的二维人体姿势。具体地说，我们的目标是估计一个运动M，它为给定的输入音乐音频提供了最佳匹配。M是N个人体姿势的序列，定义如下：

我们的方法由三个主要组件组成，如图3所示。我们开始训练一个1D-CNN分类器来定义输入的音乐风格。然后，将分类结果与高斯过程（GP）生成的时空相关latent向量相结合。GP允许我们从分布在函数上的高斯噪声采样点，每个函数的采样点之间具有相关性。因此，我们可以从不同频率的函数中得到点。这种信号频率的变化使我们的模型能够推断出哪个骨骼关节负责更长时间的运动，并探索各种各样的姿势。潜矢量的目的是保持每个关节超时运动的空间一致性。最后，我们利用潜矢量进行人体运动生成。在生成器的训练阶段，我们使用潜在向量来输入一个图卷积网络，该网络在对抗性的环境下训练，并由oracle算法定义舞蹈风格。在测试阶段，我们用1D-CNN分类器代替oracle。因此，我们的方法有两个训练阶段：i)在测试阶段使用的音频分类器的训练，以及ii）使用音乐风格来调节动作生成的对抗机制的GCN训练。

3.1条。声音处理与风格特征提取

我们的运动生成是由一个潜在的矢量控制的，这个向量编码来自音乐风格的信息。在本文中，我们使用声音网络[3]架构作为一维CNN的主干。1D-CNN接收波形的声音并输出最有可能的音乐风格，考虑三个等级。分类器在由107个音乐文件组成的数据集中训练，并分为三个音乐舞蹈风格：芭蕾舞萨尔萨和迈克尔·杰克逊（MJ）。

为了找到最佳的超参数，我们进行了10次交叉验证，并保留了最佳模型来预测音乐风格以调节生成器。与需要2D预处理声谱图的作品[2,20]不同，我们的架构是一维的，直接在波形中工作。

3.2条。用于运动生成的潜空间编码

为了创建跟随音乐风格的动作，同时保持运动的特殊性和时间上的连贯性，我们构建了一个潜在向量，将提取的音乐风格与来自高斯过程的时空相关信号相结合。值得注意的是，我们的潜在向量不同于Yan等人[55]的工作，因为我们使用音频分类提供的信息来调节我们的潜在空间。用于约束运动生成的信息，以及用于创建我们的潜在空间的信息，是每种mu-sic风格的可训练的密集特征向量表示。稠密的音乐风格向量表示就像一个范畴词典，它将一个舞蹈风格类映射到一个更高维度的空间。

然后，我们将时间相干随机噪声与音乐风格表现相结合，以产生随时间变化的相干运动。因此，最终的潜在向量是将音频类的密集可训练表示与在特征维数上的相干时间信号连接的结果。当音频是不同音乐风格的混合时，这种连接在我们的方法生成具有多种舞蹈风格的合成动作的能力中起着关键作用。换言之，与一般的条件生成模型不同，条件作用仅限于一个类，我们可以随着时间的推移对多个类进行条件化。

表示潜在向量的最终张量的大小为（2C；T；V），其中烛光的大小与相干时间信号相同。在最后一个音符中，T的生成与这个向量的生成成正比。在运动生成器中传播后的最终运动将有16T=N帧；因此，我们可以通过改变潜在向量的维数来生成任意FPS和长度的样本。此外，由于通道的维度限制了学习，我们可以随着时间的推移改变调节舞蹈的风格。

高斯过程产生我们的随机噪声z和舞蹈风格的密集表示是用于条件我们的模型。两个数据的组合用作发电机的输入。

3.3条。运动合成论文的条件对抗GCN

为了产生逼真的动作，我们使用一个经过对抗策略训练的图形卷积神经网络（GCN）。对抗性条件训练的核心思想是在mini-max博弈中，学习两个网络相互竞争时的数据分布。在我们的例子中，运动生成器G试图创建与运动训练集中的运动样本相似的运动样本，而运动鉴别器D试图将生成的运动样本（假）与训练数据集的真实运动（真实）区分开来。图3说明了培训方案。

发电机

我们的generator-Gis体系结构主要由三种类型的层组成：时间和空间上采样操作和图形卷积。当使用GCNs时，对抗训练中出现的一个挑战是需要在空间和时间维度上对潜在向量进行上采样，以适应运动空间M（方程1）

时间上采样层由两倍于时间维的转置2D卷积组成，忽略每个层的输入形状。受Yan等人[55]的启发，我们还在我们的架构中加入了一个空间上采样层。该层使用邻接矩阵A定义的聚合函数来操作，该函数将具有V顶点和E边的图S（V；E）映射到更大的图S上

在生成器的第一层，我们有一个节点包含总共N个特征；这些特征表示我们的潜在空间（一半来自高斯过程，一半来自音频表示）。后续层的特征通过上采样和聚集运算来计算。最后一层输出一个包含25个节点的图形，其中包含每个骨骼关节的（x；y）坐标。例如，在图4中，从右到左，我们可以看到上采样操作，从一个有一个顶点的图移动到一个包含三个顶点的新图

在应用了时间和空间上采样操作后，我们的生成器使用Yanet al.[56]定义的图形卷积层。这些层负责创建图之间的时空关系。首先对一个时间点进行采样，然后对一个顶点进行空间采样，然后对三个顶点进行卷积运算。我们重复这三个操作，从3个顶点上采样到11个顶点，最后从11个顶点上采样到25个顶点，这表示最后的姿势。图3-（a）显示了这个GCN架构。

鉴别器

鉴别器D具有与生成器使用的相同的体系结构，但是使用下采样层而不是上采样层。因此，所有转置的2D卷积被转换为标准2D卷积，并且空间下采样层遵循相同的上采样操作过程，但是使用具有可训练权重的聚集矩阵B，不同于生成器学习的权重。由于聚集是从一个大的图G到一个较小的图G，最终的聚集由

在鉴别器网络中，特征向量被符号化到每个节点：第一层包含一个有25个节点的图，其特征向量由归一化空间上的（x；y）坐标和输入运动的类别组成。在随后的层中，每个节点的特征通过下采样和聚集操作来计算。最后一层只包含一个节点，该节点输出的输入数据是假的还是真的。图3-（b）说明了鉴别器架构。

对抗训练

考虑到运动生成器和鉴别器，我们的条件对抗网络旨在最小化二进制交叉熵损失：

其中，生成器的目标是使鉴别器的误差最大化，而鉴别器的目标是最小化等式5所示的分类伪真误差。

发生器G在训练阶段使用的数据是一对时间相干潜在向量z，其中有一个真实的运动样本x，以及由音乐分类器给出的y值，该值可以推断音频的舞蹈风格。

为了改进生成的运动结果，我们使用一个运动重建损失项，在N个运动帧上的所有骨骼中应用L1距离，如下所示：

因此，我们的最终损失是运动重构和c-GAN鉴别器损耗的加权和

其中lamadb加权重建项。lamadb值是根据经验选择的，并且在整个训练阶段都是固定的。关于lamadb大小的最初猜测遵循了Wang等人[50]选择的值。

我们在最后的运动中应用三次样条插值来去除最终产生的运动帧M中的高频伪影

4视听舞蹈数据集

我们建立了一个新的数据集，由人们跳舞不同音乐风格的成对视频组成。该数据集用于训练和评估音频运动生成方法。我们将样本分成训练集和评估集，其中包含三种音乐/舞蹈风格的多模态数据：芭蕾舞、迈克尔杰克逊和莎莎舞。这两组数据由两种数据类型组成：从公开获取的舞蹈演员视频中精选出的视觉数据构成音乐风格的代表性动作，以及来自我们训练的风格的音频数据。图5显示了我们数据集的一些数据示例。

为了收集有意义的音频信息，我们从YouTube上选择了几个播放列表，并以伴奏/歌手的名字作为搜索查询。音频是从搜索的结果视频中提取出来的，并重新采样为16KHz的标准音频。对于视觉数据，我们从收集符合音乐风格、有代表性动作的视频开始。每一段视频都是通过为我们的数据集中的每一种舞蹈风格选择有代表性的动作，在感兴趣的部分进行人工裁剪。然后，我们标准化整个数据集的运动速率，并将所有视频转换为每秒24帧（FPS），保持帧数和演员移动速度之间的恒定关系。我们用OpenPose估计每个视频的25个2D人体关节姿势。每个运动样本被定义为一组64帧连续的二维人体姿势。

为了提高数据集中估计姿势的质量，我们利用视频中的人体动力学来处理关节缺失检测。由于在短的帧间隔内关节不会发生突变运动，我们重新创建一个缺失的关节，并应用其父关节的变换链。换句话说，我们通过使子关节随时间跟随父关节的运动来推断丢失的关节位置。因此，我们可以在我们的数据集中保留未检测到关节的帧。

.1条。运动增强

我们还进行了运动数据增强，以增加可变性和运动样本的数量。我们使用第3.2节中描述的高斯过程，在腿部和手臂的关节中随时间增加时间相干噪声。此外，我们还执行了时间偏移（步幅）来创建新的运动样本。对于训练集，我们收集了69个样本，并应用了时间相干高斯噪声和大小为32的时间偏移。在评估数据集中，我们收集了229个样本，由于样本数量较少，我们只对莎莎舞和芭蕾舞采用了32个大小的时间偏移，而对迈克尔·杰克逊应用了16个大小的时间偏移（见表1）。时间高斯噪声不应用于评估集中。我们数据集的统计数据如表1所示。产生的视听数据集包含数千个连贯的视频、音频和运动样本，这些样本代表了所考虑的舞蹈风格的特征动作。1

我们使用相同的架构和超参数进行评估，但在没有数据扩充的情况下，Fr'echet初始距离（FID）度量的性能比使用数据扩充时要差。此外，我们观察到这些动作并没有表现出可变性，舞蹈风格也没有得到很好的描绘，在最糟糕的情况下，身体动作很难被注意到。

5实验和结果

为了评估我们的方法，我们进行了几个实验，从音频信息评估运动合成的不同方面。我们还将我们的方法与Lee等人[29]提出的最新技术（以下简称D2M）进行了比较。我们选择将我们的方法与D2M进行比较，因为其他方法都存在一些主要缺点，使得与我们的方法进行比较不合适，例如[13]中的骨架结构不同。不幸的是，由于D2M的公开实现中缺少一些组件，因此在音频预处理步骤中几乎不需要进行调整。我们通过选择可被28整除的音频的最大长度来标准化输入音频数据，定义为asL，并将其重塑为一个维度张量，以匹配其体系结构的输入维度。

实验是以下是：我)我们进行了一个感性的用户研究，使用一个盲的评估用户试图识别舞蹈动作的舞蹈风格。除了我们对《盗梦空间》和《盗梦空间》中的《盗梦空间》和《盗梦空间》中的《盗梦空间》这类视频，我们通常也会选择《盗梦空间》中的《盗梦空间》和《盗梦空间》中的用户对《盗梦空间》的评价方法（如《盗梦空间》中的《盗梦空间》和《盗梦空间》中的《盗梦空间》中的视频，我们通常会选择什么样的方式来评价《盗梦空间》中的《盗梦空间》，或者说我们的，和GAN测试[43]。

5.2

我们对60名用户进行了一项感性研究，收集了每个用户的年龄、性别、计算机视觉/机器学习体验以及对不同舞蹈风格的熟悉程度。图6显示了参与者的配置文件。

知觉研究由45个随机排序的测试组成。对于每个测试，用户观看由vid2vid使用生成的一组姿势合成的视频（没有声音）。然后，我们让他们把合成视频中的动作关联起来，认为它们属于某个音频类：芭蕾舞、迈克尔·杰克逊或莎莎舞。在每一个问题中，用户被要求听每一类的一个音频来帮助他们对视频进行分类。这组问题由15个由我们的方法生成的运动视频，15个D2M生成的视频[29]和15个从我们的训练数据集中提取的真实动作视频组成。我们对所有数据应用了相同的变换，每个视频都有一个化身，用一个尺寸大致相同的骨架来执行运动。我们在三种舞蹈风格中平均分配了15段视频。

从表2和图6中，我们得出以下观察结果：首先，我们的方法获得了与实际数据相似的运动感知性能。第二，我们的方法比D2M方法有很大的优势。因此，我们认为我们的方法能够生成真实的运动样本，同时考虑到以下两个因素方面：一)我们的表现类似于盲研究中真实运动数据的结果；ii）用户在对我们生成的运动进行分类时显示出更高的准确性。此外，就单个运动的质量而言，图7和图8显示，我们的方法还能够生成样本之间具有运动可变性的样本。

我们用难度指数和项目区分指数两个统计检验来检验问题的效度。难度指数通过确定正确回答问题的用户比例（即准确性）来衡量回答一个项目的难易程度。另一方面，项目区分指数衡量一个给定的测试题如何区分掌握动作风格分类的用户和没有掌握动作风格分类的用户。我们的方法分析是基于Luger和Bowles[34]描述的指导方针。表2显示了研究中所有问题的指数平均值。我们可以清楚地看到，我们的方法的问题具有更高的难度指标值，这意味着参与者更容易正确回答问题，在某些情况下，甚至比真实的运动数据更容易回答。关于辨别指数，我们指出，这些问题不足以区分参加测试者的能力水平，因为判别指数值在0到0:29之间的项目不被认为是好的选择者[10]。这些结果表明，我们的方法和从真实序列中获得的视频对大多数用户来说是自然的，而由[29]生成的视频是融合的。

5.3条。定量评价

为了更详细地评估学习分布和实际分布之间的相似性，我们使用了常用的Fr'echet初始距离（FID）。我们使用从[56]中提出的动作识别ST-GCN模型中提取的运动特征来计算FID值，类似于[55，29]中使用的度量。我们使用相同的超参数集训练ST-GCN模型50次。经过训练的模型在几乎所有50个训练试验中的准确率得分都高于90%。用于训练特征向量抽取器的数据没有用于训练本文中评估的任何方法。表3显示了FID指标的结果。

我们还计算了GAN Train和GAN测试度量，这两个著名的GAN评估度量[43]。为了计算GAN序列度量值，我们将ST-GCN模型训练到一个由我们的方法生成的舞蹈运动样本集和另一个由D2M生成的运动样本集组成的集合中，然后在评估集（真实样本）中对模型进行测试。在评价集中训练同一分类器得到GAN测试值，并在生成的运动集合中进行测试。对于每个指标，我们进行了50轮训练，并报告了平均准确度，标准差见表3。与D2M相比，我们的方法获得了更好的性能。

我们还可以注意到生成器在某些舞蹈风格中表现更好。由于有些动作比其他动作更复杂，我们的生成器的性能可以更好地合成与舞蹈风格相关的特定音频类相关的不太复杂的运动。例如，Michael Jackson风格包含了更丰富的运动集合，骨骼关节在各种配置中旋转和平移。另一方面，芭蕾风格由较少的姿势组成，因此更容易合成。

5.4条。定性评价

图7、8和9显示了一些定性结果。我们可以注意到，D2M生成的序列呈现出一些明显的舞蹈风格固有的特征，但它们并不是沿着整个序列呈现的。例如，在图7中，可以看到最后生成的骨架/帧看起来像旋转，通常在芭蕾表演中看到，但是之前的姿势并不表示与这种舞蹈风格有任何关联。相反，我们的方法生成通常与芭蕾动作相关联的姿势，例如用伸展的手臂旋转躯干。

图8显示，对于所有三种舞蹈风格，动作特征都被保留下来。此外，图9中的实验1表明，我们的方法对音频风格的变化有很高的响应，因为我们的分类器按顺序作用于后续的音乐部分。这使它能够生成视频，表演者在其中执行不同风格的动作。综上所述，这些结果表明，我们的方法有能力创造高度区分和合理的舞蹈动作。请注意，在质量上，我们在所有舞蹈风格上都优于D2M，包括芭蕾舞风格，这是D2M精心打造的。图9中的实验2还表明，我们的方法可以从给定的输入音乐中生成不同的序列。由于我们的模型是以音频分类管道中的音乐风格为基础，而不是以音乐本身为基础，因此我们的方法在保持每种舞蹈风格的学习动作特征的同时，展示了产生各种动作的能力。

本文提出了一种从音乐合成人体运动的新方法。与以前的方法不同，我们使用图卷积网络来解决这个问题。我们使用音频数据来调节动作生成，并根据舞蹈风格产生逼真的人体动作。与最新技术相比，我们取得了定性和定量的性能。在FID、GAN训练和GAN测试指标方面，我们的方法优于随音乐跳舞。在我们的研究中，我们也观察到了一个与我们的参赛者相似的舞蹈动作。

此外，我们提出了一个新的包含视听数据的数据集，这些数据集被精心收集来训练和评估设计用于在舞蹈场景中合成人体运动的算法。我们的方法和数据集是培养产生人体运动的新方法的一步。作为未来的工作，我们打算将我们的方法扩展到三维人体运动，这将允许我们在不同的动画框架中使用生成的运动。我们还计划通过添加更多的舞蹈风格来增加数据集的大小

？？？听歌跳舞？？？

猜你喜欢

热点阅读