기존 내용 정리
첫번재 문단
speech로부터 3D 아바타의 얼굴을 animating하는 것은 가상환경이나 게임 등 다양한 곳에 적용될 수 있다.
1. 이때 speaker의 특성에 구애받지 않고 다양한 speaker의 음성 데이터를 처리할 수 있어야하고,
2. speech content랑 입의 모양이 일치해야한다.
그리고 emotion이 facial expression을 통해 드러나게 되는데, 이 분야는 잘 연구되고 있지만 speech를 하는 동안의 emotion modeling은 연구되지 않았다.
두번째 문단
주요한 이슈는 emotion을 expressing하는 것과 audio에 맞게 입모양을 맞추는 것 사이의 충돌이 일어난다는 점이다.
이를 해결하기 위해 우리는 EMOTE network를 제안하였는데, 이 network를 쓰면 lip-sync를 해치지 않으면서도 적절한 emotion을 전달할 수 있는 animation을 만들 수 있음
세번째 문단
emotional speech dataset이 존재하지 않아서 emotional speech에 대한 3D facial animation은 연구되지 않음
그래서 우리는 EMOTE를 MEAD dataset을 사용해서 학습시켰는데, 이 dataset은 emotional video dataset으로, 이 dataset에 reconstruction method를 사용해서 학습을 시킴
네번째 문단
그냥 단순하게 FaceFormer같은 SOTA method 사용해서 학습시키면, speech-dependent motion이랑 emotion-dependent motion이 결합되어, 자연스럽지 않은 중간수준의 움직임이 만들어져서 emotion control이 안됨
다섯번째 문단
facial animation은 시간적으로간 공간적으로 구분되는 두 factor의 결합 결과임
<temporal>
-> speech로 인한 입의 움직임은: 매 순간 오디오와 일치해야하므로 시간적으로 high frequency
-> emotion은 긴 시간동안 지속되는 현상이라 lower temporal frequency
<spatial>
-> speech로 인한 움직임은 입 주변에 localized 됨
-> 반면 facial expression은 얼굴 전체 영역에서 표현됨
우리는 speech로 인한 얼굴 움직임과 emotion으로 인한 감정 움직임의 시간적 공간적 차이가 두 현상을 분리할 수 있게 만들어준다고 가설을 세움
여섯번째 문단
lip reading consistency loss의 경우에는 frame 마다 loss를 적용했고,
emotion과 관련된 loss는 sequence level로 loss를 적용함
그리고 emotion이랑 content를 분리하는 메커니즘을 제안하여, model을 훈련시키는데 적용하였음
일곱번째 문단
SOTA network를 사용하여 navie하게 훈련시키면 불안정하고 자연스럽지 않은 결과가 나옴
생성되는 motion이 자연스럽고 temporally consistent하게 하기 위해
1) temporal transformer-based VAE를 사용하여 facial motion prior를 훈련시키고
2) speech audio와 prior의 latent space를 mapping시켜주는 regressor를 training시킴
여덟번째 문단
이를 통해 EMOTE는 립 싱크가 일치하면서도 emotion을 control할 수 있는 high quality의 facial animation을 생성할 수 있음.
아홉번째 문단
contribution 정리
1) speech-driven 3D facial animation의 semantic emotion을 editing할 수 있는 방법을 최초로 제안
2) content와 emotion을 분리시킬 수 있는 새로운 메커니즘을 제안
3) facial motion에 대한 statistical prior을 사용해서 자연스러운 표정 생성
4) bidirectional non autoregressive 구조를 가지고 있는데 이는 이전의 autoregressive transformer-based 구조보다 훨씬 효율적
새로 작성한다면?
첫번째 문단
speech facial animation은 굉장히 복잡한 문제다.
facial animation의 특성상, 표정을 통해 감정이 드러나기도 하면서 speech에 맞게 lip-sync도 맞춰야한다.
두번째 문단
이러한 speech driven animation의 emotion을 control하는 것은 특히 쉽지 않은 문제이다. emotional speech driven animaton은 시간적으로나 공간적으로 분리되는 두 요소의 결합으로 볼 수 있는데
temporal하게 high frequency하고 공간적으로 한정적인 speech driven motion과 temporal하게 low frequency하고 넓은 공간에 걸쳐 일어나는 emotion driven motion의 결합이다.
speech driven animation을 control하기 위해서는 두 요소를 분리할 수 있어야하는데, 두 요소가 복합적으로 얽혀있기 때문에 분리하는 것은 쉬운 일이 아니다.
세번째 문단
이러한 복잡한 문제의 특성뿐만 아니라 emotional speech에 대한 scan dataset이 존재하지 않는다.
이때문에 emotional speech driven facial animation 연구 주제는 거의 다루어지지 않았다. 기존 연구들은 거의 다 speech driven animation만 생성하고, emotion을 정보로 control할 수 있지 않다.
네번째 문단
우리는 dataset이 존재하지 않는 문제를 해결하기 위해 video로부터 여러 SOTA reconstruction method를 사용해 pseduo ground truth를 생성하는 방법을 사용하였다.
다섯번째 문단
이러한 dataset을 사용하더라도 dataset이 많은 요소의 복합적인 결과로 나타나기 때문에 단순한 SOTA network 아키텍쳐를 사용하면 학습이 잘 안되는데,
우리는 transformer based VAE구조를 가진 motion prior를 먼저 학습시키고, speech 및 style 정보를 넣어주었을 때 mapping을 시키는 regressor를 학습시키는 방법으로 이 문제를 해결하였다. 이러한 구조를 사용하면 자연스러운 facial animation을 만드는 것이 가능
여섯번째 문단
이러한 효과적인 구조를 사용하더라도 앞서 설명한 것처럼 두 factor에 의한 움직임이 복합적으로 결합되어 있어 emotion으로 인한 움직임과 speech로 인한 움직임을 완전히 분리하는 것은 불가능하다. 그래서 우리는 emotion과 content를 분리시키는 새로운 메커니즘을 제안하였다. 이 방법을 통해 우리는 생성되는 speech facial animation의 emotion을 control할 수 있게 되었다.
일곱번째 문단
우리는 복잡한 speech driven facial animation에서 emotion을 control하기 위해 다음과 같은 방법을 사용했고 성공적인 결과물을 만들어내었다.
1) dataset이 없어 한번도 다루어지지 않은 문제를 여러 SOTA method를 사용해 자체적인 pseudo groudtruth를 만들어서 사용
2) motion prior를 사용하여 효과적으로 facial animation을 생성
3) emotion과 content를 분리하는 새로운 메커니즘 제시
4) 결론적으로, speech driven 3D animation의 emotion을 control할 수 있는 최초의 방법을 제시