6. Limitation
diffusion model을 사용하다보니 느린 것이 가장 문제임. 오디오 기반 모션 생성의 품질을 개선하는 것이며 오프라인 생성에 중점을 두고 있으므로 합성 속도를 최적화하는 것에는 어떤 노력도 기울이지 않았음. 실시간 상호작용이나 게임 엔진 통합에는 적절하지 않음
그리고 의도적인 제스처와 dancing에 필요한 모든 측면을 다 capture하지는 못함.
- gesture의 경우에는 음성의 의미를 이해하고 gesture를 생성하지는 못함
- dance의 경우에도 저차원의 음성 데이터를 넣어주기 때문에 구조적인것만 고려해서 dance를 만들어내게 됨
그리고 각 expert network가 확률적 분포의 교차점에 집중하여 모션을 만들어내는게 강점일수도 있고 약점일수도 있음. 수학적으로는 보간이 되는게 맞지만 우리의 직관과 맞지 않을 수 있음 예를 들어 아까 보았던 dance랑 격투를 interpolation하면 대부분의 경우 이 활동 중 어느것에도 참여하지 않아서 덜 흥미로워 보임
7. Conclusion and future work
future work로 출력 생성속도를 높이고 텍스트까지 고려해서 음성에 동기화 되는 의미있는 모션을 만드는걸 future work로 계획중
1. Introduction
인간 모션을 자동적으로 생성하는 것은 다양한 분야에서 중요하며, 모션은 음향이나 비전과 같은 다양한 모달리티 context에 의해 발생하므로 적절하게 움직이려면 맥락을 고려해야한다. 그 중에서 오디오 정보가 중요한 역할을 하는 두 모션 문제는 댄스랑 speech gesture이고 gesture과 dance가 커뮤니케이션이나 문화적인 측면에서 중요한 이유에 대해 설명하고 있음
audio-driven motion 생성은 어려운 이유에 대해 설명하고 있음. 오디오에 결정적이지 않기 때문임. 일반적으로 동기화는 되지만 결정론적으로 결정되지는 않기 때문에 한 오디오에 대해서도 다양한 모션이 나올 수 있음. 이런건 단순한 모델로는 학습하기가 어렵고, 납득할만한 모델이 없으면 수동으로 노동을 할 수 밖에 없음
다행히 확산모델의 등장으로 위의 작업이 가능해졌고 contribution을 정리하고 있음.
- • 우리는 Conformers(3절)를 사용하여 제스처와 댄스 모션을 생성할 수 있는 diffusion model 선도
- • 제안된 방법을 사용하여 스타일 제어를 시연하였고 style 강도를 조절할 수 있는 classifier-free guided를 사용함
- • 다양한 댄스 장르를 포함하고 있는 고품질의 오디오와 모션 데이터셋을 제공함
- • diffusion model의 product of expert 모델을 시연하고 interpolation하는 방법을 시연함
그리고 여러 baseline과 비교하는 실험을 진행했음.
내가 쓴다면?
1) 인간의 모션은 인간의 다양한 감정들을 표현하고 생각을 표현할 뿐만 아니라 표현력을 높여주는 매우 중요한 수단임. 메타버스나 virtual human 의 사실감과 퀄리티를 높여주기 위해서는 이러한 인간 모션을 잘 구현해내는게 필수적임
2) 기존의 방법들을 소개해주며, 기존의 방법들은 gesture와 dance 모두 잘 수행하는 일반화된 모델이 없었으며, 특히 dance의 경우 스타일의 표현이 모호하다는 한계가 존재했음. 이러한 한계들은 실제로 현장에 적용하기엔 한계가 있다는걸 시사함
3) 우리는 diffusion model과 conformer를 사용한 독창적인 구조로 이러한 한계를 극복하였음. 우리의 모델은 gestuere와 dance motion 둘다 적용할 수 있을 뿐만 아니라 춤의 스타일이 매우 명확하게 나타나 이전까지 볼 수 없었던 놀라운 모션 퀄리티를 보여준다.
4) 우리는 스타일 control 뿐만 아니라 데이터셋도 제공했고 product of expert 모델을 사용하여 interpolation도 가능하다