0-1. System overview 설명 * speech와 원하는 style의 짧은 reference motion clip을 Input으로 받아 speech에 적절하면서도 원하는 style을 가지는 gesture를 생성해냄. * framework는 총 3개의 component로 이루어져있는데, 1) speech encoder 부분, 2) style encoder 부분, 3) gesture generator 부분으로 이루어져있음 speech encoder 부분은 raw audio data를 받아서 speech embedding sequence로 변형시킴 style encoder 부분은 reference style animation clip을 받아서 style을 capture하는 fixed size emb..