https://netease-gameai.github.io/ChoreoMaster/
ChoreoMaster 논문에서는 음악을 Input으로 받아 그에 맞는 춤동작을 생성하는 framework를 제안하고 있다. 결과 영상을 보면, 음악에 어울리는, 꽤나 퀄리티가 좋은 동작을 생성해내는 것을 알 수 있다.
전체적인 구조를 살펴보면 위와 같다. Choreographic Oriented Choreomusical Style Embedding 부분과 Choreographic-Oriented Choreomusical Rhythm Embedding 부분을 나눠서 살펴보자.
1. Choreographic Oriented Choreomusical Style Embedding
Style consistency는 dance composition 에서 가장 중요한 요소이다. 가장 확실하고 직접적으로 Style consistency를 지키는 방법은 카테고리를 나눠서 synthesis 알고리즘이 음악과 같은 카테고리에 있는 동작만 pick하도록 하는 것이지만..이 방법에는 한계가 많다.
본 논문에서는 choreomusical embedding network를 사용하여 music과 dance style간의 connection을 implicitly하게 학습하도록 하였다.
일단 unpaired labeld music data와 dance data를 사용하여 music classfication system(E_M)과 dance classfication system(E_D)을 각각 학습시킨다. 그리고 paired music and dance data를 사용하여 2개의 classfiation의 결과로 나오는 feature(Z_m, Z_D) 를 unified embedding space에 맵핑시키는 것을 학습시킨다. 이때 pair를 이루는 music과 dance는 유사한 style을 가지므로 unified embedding space 상에서 가깝게 위치하도록 학습을 시키게 된다.
(* music과 dance의 style을 같은 embedding space 상 맵핑시킬 수 있다는 것이 가장 중요한 점!)
2. Choreomusical Rhythm Embedding
Music은 여러 악기 track, vocal 등으로 구성되고 각 track은 그들만의 beat pattern을 가지고 있다. dance 동작의 beat pattern을 Music의 어떤 beat pattern과 맞춰줘야 하는지 결정해야하는데...이건 쉬운 일이 아니다!
그래서..rhythmic relationship between music and dance를 더 잘 이해하기 위해서, 전문가에게 database에 있는 dance의 beat pattern을 manually하게 specify 하게 하고, synchronized dance로부터 music의 beat pattern을 이끌어내었다.
이러한 labelling 결과를 분석하여, 각 meter마다 beat pattern을 2진 벡터로 나타낼 수 있음을 알게 되었다. 본 논문에서 사용하는 database의 dance motion들은 모두 4 beat meters로 구성되어 있기 때문에, 여기서 제안하는 rhythm signature들은 8비트로 구성되어있다.
짝수번째 비트는 Regular beats의 존재여부를 나타낸다. (1: 존재함, 0: 존재하지 않음)
홀수번째 비트는 Half beats(2개의 regular bits 사이의 rhythmic points)의 존재여부를 나타낸다. (1: 존재함, 0: 존재하지 않음)
두 rythm signatrues 사이의 distance는 Hamming distance에 의해 defined 되는데, regular beat를 강조하기 위해, regular beats의 weight는 1.0으로 주고, half beat의 weight는 0.5로 주게 된다.
이러한 위의 아이디어를 바탕으로, music과 dance의 rhythm embedding을 효과적으로 얻을 수 있는 rhythm signature classfication network를 설계하였다.
위의 네트워크 그림을 보면 3개의 블록으로 구성되어 있다. E_MR과 E_DR은 music과 dance에서 각각 feature를 뽑는 block이다. 이들은 E_RS에서 합쳐지게 되는데 이 블록이 rhythm signature classfication을 수행한다.
이때 주의깊게 봐야하는게 Style embedding vector Z_M은 E_MR과 같이 E_RS에 들어가고, Z_D는 E_DR과 같이 E_RS에 들어간다. (style과 rhythm이 아주 밀접한 관련이 있기 때문에 rhythm signature를 결정할 때 style 정보를 같이 주는 듯하다. 실제로 장르에 따라 rhythm이 급격하게 변하고, 같은 장르 내에서는 rhythm이 유사하다고 한다.)
실제로 synthesis하는 부분은 motion graph 구조길래..보지 않았다..!ㅎㅎ
필요하면 봐야지~