Super Kawaii Cute Cat Kaoani '연구/논문 리뷰' 카테고리의 글 목록 (2 Page)
728x90

연구/논문 리뷰 29

An Implicit Physical Face Model Driven by Expression and Style 논문리뷰(1)- Background

An Implicit Physical Face Model Driven by Expression and Styles의 Background 개념을 정리하는 글이다. Human bodies와 face -> activation object로, 내부적으로 형태를 변화시킬 수 있다. facial simulation에서는 이러한 actuation mechanism은 D_M(변형되지 않은 facial space)상에서 정의된 actuation tensor field를 사용하여 modeling한다. actuation tensor field는 local 3x3 symmetric matrices A들로 이루어져있는데 이 matrix들은 수축방향(contractile directions)과 정도에 대한 정보를 포함하고 있으며..

Listen, Denoise, Action!Audio-Driven Motion Synthesis with Diffusion Models 논문리뷰 (4) - Limitation, Concolusion, Introduction

6. Limitation diffusion model을 사용하다보니 느린 것이 가장 문제임. 오디오 기반 모션 생성의 품질을 개선하는 것이며 오프라인 생성에 중점을 두고 있으므로 합성 속도를 최적화하는 것에는 어떤 노력도 기울이지 않았음. 실시간 상호작용이나 게임 엔진 통합에는 적절하지 않음 그리고 의도적인 제스처와 dancing에 필요한 모든 측면을 다 capture하지는 못함. gesture의 경우에는 음성의 의미를 이해하고 gesture를 생성하지는 못함 dance의 경우에도 저차원의 음성 데이터를 넣어주기 때문에 구조적인것만 고려해서 dance를 만들어내게 됨 그리고 각 expert network가 확률적 분포의 교차점에 집중하여 모션을 만들어내는게 강점일수도 있고 약점일수도 있음. 수학적으로는 ..

Listen, Denoise, Action!Audio-Driven Motion Synthesis with Diffusion Models 논문리뷰(3) - 실험2

네버엔딩 실험...논문 지인짜 길다ㅋㅋㅋㅋㅋㅋ흑 5 PRODUCTS OF EXPERT DIFFUSION MODELS 이 세션에서는 classifier-free guidance 아이디어를 확장해서 여러 diffusion model을 결합하는 product of expert 아이디어에 대해 설명하고 있음. 5.1 Theory 원래 classifier free guidance 식은 위와 같음 근데 이제 위의 식 두 개를 섞어 s_1의 스타일을 (1-lambda)만큼 반영하고 s_2의 스타일을 lambda만큼 반영하는 식으로 확장시켰음. 즉 두 스타일을 blend할 수 있음. 이걸 guided interpolation이라고 부를거임. 0이랑 1 사이에 속하지 않는 값을 골라서 특정 스타일이 더 명확하게 보이게 ..

Listen, Denoise, Action! Audio-Driven Motion Synthesis with Diffusion Models 논문리뷰 (2)-실험

본 포스트는 Listen, Denoise, Action! Audio-Driven Motion Synthesis with Diffusion Models 논문에서 진행한 실험의 내용들을 정리하는 글이다. 4.1 데이터 처리 및 모델링 접근 방식 실험 4.2 일반적인 평가 프레임워크 4.3 두 개의 gesture generation dataset에서 우리의 방법과 기존의 방법 중 제일 나았던 방법 비교 4.4 audio-driven dance syntehsis 분야에서 우리의 방법과 기존의 최첨단 방법 비교 4.5 객관적인 지표 4.6 path-driven locomotion generation에 일반화된느 것을 보여줌 4.7 결과 요약 4.1 Data and modelling 실험에서 다섯가지 데이터셋을 사..

Listen, Denoise, Action! Audio-Driven Motion Synthesis with Diffusion Models 논문리뷰 (1)-본문

Audio에 따른 dance motion 및 gesture motion을 생성하는 방법론을 제안하는 논문이다. 결과 영상을 보면 알겠지만, stylistic한 모션의 구현을 굉장히 잘하고있다. https://www.speech.kth.se/research/listen-denoise-action/ https://www.speech.kth.se/research/listen-denoise-action/ www.speech.kth.se 본 논문에서 하고자 하는 task를 더 자세히 말하자면, 주어진 sequence of audio feature a_{1:T}로부터 선택적으로 style vector s를 포함시켜 huamn pose x_{1:T}를 생성하는 것이다. 그럼 본문 내용을 하나씩 살펴보자. Diffus..

Scheduled sampling 기법에 대한 분석 (Character Controller Using Motion VAEs)

scheduled sampling에 대한 개념은 어느정도 이해를 하였으나, 구현을 하려고 보니 막상 디테일적인 부분에서 막히는게 많았다... 그래서 코드까지 보면서 좀 더 자세히 분석을 해보려고 한다. (이 글은 Character Controller Using Motion VAEs 논문을 참고하여 본 글을 작성하였다.) 1) 각 Roll out마다 prediction length 정하기 scheduled sampling을 구현하기 위해서는 prediction length L를 각 roll-out마다 정하여야한다. 각 Roll-out에서 motion capture database로부터 start frame을 random하게 sample하고 L step동안 pose prediction을 진행한다. L은 실제..

ZeroEGGS: Zero-shot Example-based Gesture Generation from Speech 논문세미나 준비

0-1. System overview 설명 * speech와 원하는 style의 짧은 reference motion clip을 Input으로 받아 speech에 적절하면서도 원하는 style을 가지는 gesture를 생성해냄. * framework는 총 3개의 component로 이루어져있는데, 1) speech encoder 부분, 2) style encoder 부분, 3) gesture generator 부분으로 이루어져있음 speech encoder 부분은 raw audio data를 받아서 speech embedding sequence로 변형시킴 style encoder 부분은 reference style animation clip을 받아서 style을 capture하는 fixed size emb..

ZeroEGGS: Zero-shot Example-based Gesture Generation from Speech 논문리뷰

오늘두 역시나 gesture generation 관련 논문 리뷰! 작년 Siggraph Asia에서 직접 발표를 들었던 논문이라 더 반갑게 읽었던 것 같다. 그때도 생각했던거지만 다시봐도 결과물의 퀄리티가 꽤 괜찮다. 교수님 허락만 맡으면 논문세미나에서 발표할 생각이라 꽤 열심히 읽었지롱 https://arxiv.org/abs/2209.07556 ZeroEGGS: Zero-shot Example-based Gesture Generation from Speech We present ZeroEGGS, a neural network framework for speech-driven gesture generation with zero-shot style control by example. This means s..

Speech Gesture Generation from the Trimodal Context of Text, Audio and Speaker Identity 논문 리뷰

집중안되는데 용케 다 읽었다..고생했으 https://arxiv.org/abs/2009.02119 Speech Gesture Generation from the Trimodal Context of Text, Audio, and Speaker Identity For human-like agents, including virtual avatars and social robots, making proper gestures while speaking is crucial in human--agent interaction. Co-speech gestures enhance interaction experiences and make the agents look alive. However, it is difficult ..

728x90
728x90