첫번째 문단
speech-driven facial animation은 여러 분야에서 관심을 받고 있으며, 상업적으로 사용하기 위해 보통 사전에 작성된 script에 의해 facial expression을 제어하는데 이는 시간과 돈이 많이 든다.
이러한 문제에 딥러닝을 이용하면
1) high quality의 animation을 만들 수 있을 뿐만 아니라
2) 비용을 훨씬 절감할 수 있다.
두번째 문단
하지만 current method는 facial expression에서 emotion으로 인한 variation을 무시하고 있는데, emotion은 굉장히 중요한 표현적 요소이기 때문에 facial animation에서 이가 없게 되면 불쾌한 골짜기를 유발할 수 있다. 그런데 emotional information은 speech에 섞여있기 때문에 이러한 부분을 추출하는 것은 쉬운 일이 아니다.
이전 2D facial animation method에서는 emotion을 encoding해서 user가 바꿀 수 있게 하고 speech로부터 content feature만 학습하도록 함. 이러한식으로 emotion code로 다루게 되면 speech에 담겨있는 emotion 정보와 생성되는 표정 사이에 충돌이 발생하게 된다.
세번째 문단
이러한 문제를 다루기 위해 우리는 새로운 방법을 제안하였는데 여기서는 emotion disentangling encoder와 emotion-guided feature fusion decoder를 key contribution으로 사용하였다.
emotion disentangling encoder에서는 2개의 audio feature extractor를 사용해 content와 emotion 각각에 대해 별도의 latent space를 생성할 수 있도록 하였고 cross-reconstruction loss를 통해 speech로부터 두 요소의 분리를 잘 할 수 있도록 하였다.
emotion guided feature fusion decoder는 Transformer module을 통해 여러 타입의 feature로부터 52개의 blend shape coefficient를 출력하도록 하였다.
네번째 문단
제안된 네트워크를 훈련하기 위해 emotional speechs와 대응되는 3D facial expression이 필요한데 public하게 사용할 수 있는 해당 데이터셋이 존재하지 않기 때문에 3D-ETF라는 pseudo-3D emotional talking face dataset을 생성하여 사용하였다. 3D-ETF는 blend shape coefficient로 표현이 되는데 의미론적으로 유의미한 blendshape이기 때문에 다양한 캐릭터 간의 전이가 가능하다.
다섯번째 문단
main contribution 정리
* speech로부터 emotion이 잘 드러나는 3D facial animation을 생성할 수 있는 end-to-end neural network 제안
* emotion disentangling encoder를 도입하여 emotion과 content를 분리
* 새로운 dataset인 3D-ETF 제안
내가 다시 쓴다면?
첫번째 문단
speech-driven facial animation는 본질적으로 굉장히 복잡. 표정을 통해 감정이 드러나면서도 speech에 맞게 lip-sync도 맞춰줘야함
두번째 문단
즉 speech-driven facial animation은 speech-driven한 motion과 emotional motion 두 motion은 시공간적으로 특성이 다르기 때문에 이러한 애니메이션을 잘 생성하기 위해는 speech로부터 content 요소와 emotion 요소를 잘 분리하는 것이 매우 중요하다
세번째 문단
우리는 이를 해결하기 위해 emotion disentangling encoder를 도입하여 두 요소를 잘 분리해 emotion이 잘 드러나면서도 speech에 lip-sync가 잘 맞는 facial animation을 생성할 수 있었다.
네번째 문단
또한 해당 encoder를 통해 오디오에 드러나는 emotion을 잘 포착하여 speech의 emotion에 적절한 facial animation을 만들어낼 수 있도록 하였다. 그래서 같은 content를 다른 emotion으로 말하는 audio input을 각각 넣어주면 해당 Input의 감정에 적절한 facial animation을 생성
다섯번째 문단
이러한 네트워크를 학습하기 위해선 대용량의 speech-driven emotional 3D face dataset이 필수적인데 이러한 데이터가 부족하기 때문에 우리는 2D dataset에서 blend shape reconstruction method를 통해 자체적인 대용량의 데이터셋을 생성함