Super Kawaii Cute Cat Kaoani '연구/논문 리뷰' 카테고리의 글 목록

연구/논문 리뷰 23

Emotional Speech-Driven Animation with Content-Emotion Disentanglement(EMOTE) 논문리뷰

하고자 하는 것Audio Input과 Emotion labels을 받으면, 해당 emotion에 적절하면서도 audio input에 맞는 speech facial animation을 생성할 수 있는 EMOTE framework 제안Datasetemotional speech에 대한 dataset은 존재하지 않음. 그래서 emotional video dataset인 MEAD dataset에서 reconstruction method 사용해서 생성한 data 사용.MEAD dataset에 포함된 감정 label을 사용하는 것이 아니라 emotion feature를 따로 extract해서 사용EMOCA’s public available emotion recognition network를 사용해서 emotion f..

Character Controllers Using Motion VAEs -> conditional VAE 구현

Character Controllers Using Motion VAEs의 conditional VAE 부분을 기존에도 구현해서 사용하고 있었는데...다시 보니까 빠뜨린게 왜이렇게 많냐ㅠ 다시 확실하게 정리할 필요가 있을 것 같아서 코드 분석 & 논문에서 필요한 내용을 가져와 정리할 예정이다. 전체 코드는 아래의 링크에서 볼 수 있다. https://github.com/electronicarts/character-motion-vaes/tree/main GitHub - electronicarts/character-motion-vaes: Character Controllers using Motion VAEs Character Controllers using Motion VAEs. Contribute to el..

An Implicit Physical Face Model Driven by Expression and Styles 논문리뷰(3) - Introduction 정리 및 다시 쓰기

기존의 Introudction 첫번째 문단 Facial animation은 컴퓨터 그래픽스에서 중요. 기존의 Facial animtation은 캐릭터마다 의미적으로 대응되는 blend shape rig를 설정해두고, 같은 표정을 지을 때는, 같은 blendshape 값을 직접적으로 넣어주는 식으로 캐릭터의 표정을 만들어냄 두번째 문단 이렇게 되면 expression을 수행할때마다 나타나는 개별적인 style을 무시하게 된다. 이런 style 정보들을 앞에서와 같은 방식으로 다루게 되면 style 정보가 blendshape 값에 baked되어버리게 됨 따라서 본 연구에서는 expression과 style 모두를 다룰 수 있는 모델을 제안하고자 함 세번째 문단 style은 서로 다른 근육 activation..

An Implicit Physical Face Model Driven by Expression and Styles 논문리뷰(2) - Framework 정리

1. 논문 소개 An Implicit Physical Face Model Driven by Expression and Styles는 Siggraph Asia 2023에 디즈니리서치에서 발표한 논문으로, data-driven implicit neural physics model을 기반으로 한 새로운 face model을 제안하고 있다. https://www.youtube.com/watch?v=-qM_XUv-JhA 기존의 facial animation들은 보통 blendweight vector로 expression을 정의하여 다루게됨. 이때, 캐릭터마다 대응되는 blendshape rig를 설정하고, 같은 blendshape weight 적용해서 그들만의 style로 expression을 수행하도록 한다. ..

An Implicit Physical Face Model Driven by Expression and Style 논문리뷰(1)- Background

An Implicit Physical Face Model Driven by Expression and Styles의 Background 개념을 정리하는 글이다. Human bodies와 face -> activation object로, 내부적으로 형태를 변화시킬 수 있다. facial simulation에서는 이러한 actuation mechanism은 D_M(변형되지 않은 facial space)상에서 정의된 actuation tensor field를 사용하여 modeling한다. actuation tensor field는 local 3x3 symmetric matrices A들로 이루어져있는데 이 matrix들은 수축방향(contractile directions)과 정도에 대한 정보를 포함하고 있으며..

Listen, Denoise, Action!Audio-Driven Motion Synthesis with Diffusion Models 논문리뷰 (4) - Limitation, Concolusion, Introduction

6. Limitation diffusion model을 사용하다보니 느린 것이 가장 문제임. 오디오 기반 모션 생성의 품질을 개선하는 것이며 오프라인 생성에 중점을 두고 있으므로 합성 속도를 최적화하는 것에는 어떤 노력도 기울이지 않았음. 실시간 상호작용이나 게임 엔진 통합에는 적절하지 않음 그리고 의도적인 제스처와 dancing에 필요한 모든 측면을 다 capture하지는 못함. gesture의 경우에는 음성의 의미를 이해하고 gesture를 생성하지는 못함 dance의 경우에도 저차원의 음성 데이터를 넣어주기 때문에 구조적인것만 고려해서 dance를 만들어내게 됨 그리고 각 expert network가 확률적 분포의 교차점에 집중하여 모션을 만들어내는게 강점일수도 있고 약점일수도 있음. 수학적으로는 ..

Listen, Denoise, Action!Audio-Driven Motion Synthesis with Diffusion Models 논문리뷰(3) - 실험2

네버엔딩 실험...논문 지인짜 길다ㅋㅋㅋㅋㅋㅋ흑 5 PRODUCTS OF EXPERT DIFFUSION MODELS 이 세션에서는 classifier-free guidance 아이디어를 확장해서 여러 diffusion model을 결합하는 product of expert 아이디어에 대해 설명하고 있음. 5.1 Theory 원래 classifier free guidance 식은 위와 같음 근데 이제 위의 식 두 개를 섞어 s_1의 스타일을 (1-lambda)만큼 반영하고 s_2의 스타일을 lambda만큼 반영하는 식으로 확장시켰음. 즉 두 스타일을 blend할 수 있음. 이걸 guided interpolation이라고 부를거임. 0이랑 1 사이에 속하지 않는 값을 골라서 특정 스타일이 더 명확하게 보이게 ..

Listen, Denoise, Action! Audio-Driven Motion Synthesis with Diffusion Models 논문리뷰 (2)-실험

본 포스트는 Listen, Denoise, Action! Audio-Driven Motion Synthesis with Diffusion Models 논문에서 진행한 실험의 내용들을 정리하는 글이다. 4.1 데이터 처리 및 모델링 접근 방식 실험 4.2 일반적인 평가 프레임워크 4.3 두 개의 gesture generation dataset에서 우리의 방법과 기존의 방법 중 제일 나았던 방법 비교 4.4 audio-driven dance syntehsis 분야에서 우리의 방법과 기존의 최첨단 방법 비교 4.5 객관적인 지표 4.6 path-driven locomotion generation에 일반화된느 것을 보여줌 4.7 결과 요약 4.1 Data and modelling 실험에서 다섯가지 데이터셋을 사..

Listen, Denoise, Action! Audio-Driven Motion Synthesis with Diffusion Models 논문리뷰 (1)-본문

Audio에 따른 dance motion 및 gesture motion을 생성하는 방법론을 제안하는 논문이다. 결과 영상을 보면 알겠지만, stylistic한 모션의 구현을 굉장히 잘하고있다. https://www.speech.kth.se/research/listen-denoise-action/ https://www.speech.kth.se/research/listen-denoise-action/ www.speech.kth.se 본 논문에서 하고자 하는 task를 더 자세히 말하자면, 주어진 sequence of audio feature a_{1:T}로부터 선택적으로 style vector s를 포함시켜 huamn pose x_{1:T}를 생성하는 것이다. 그럼 본문 내용을 하나씩 살펴보자. Diffus..

Scheduled sampling 기법에 대한 분석 (Character Controller Using Motion VAEs)

scheduled sampling에 대한 개념은 어느정도 이해를 하였으나, 구현을 하려고 보니 막상 디테일적인 부분에서 막히는게 많았다... 그래서 코드까지 보면서 좀 더 자세히 분석을 해보려고 한다. (이 글은 Character Controller Using Motion VAEs 논문을 참고하여 본 글을 작성하였다.) 1) 각 Roll out마다 prediction length 정하기 scheduled sampling을 구현하기 위해서는 prediction length L를 각 roll-out마다 정하여야한다. 각 Roll-out에서 motion capture database로부터 start frame을 random하게 sample하고 L step동안 pose prediction을 진행한다. L은 실제..

728x90
728x90