Super Kawaii Cute Cat Kaoani '분류 전체보기' 카테고리의 글 목록 (3 Page)
728x90

분류 전체보기 167

VQ-VAE 이해하기

VAE에 대해선 다들 알고 있을 것이다. 내가 작성했던 아래의 포스트에서도 VAE에 대한 설명을 제공하고 있다.https://chickencat-jjanga.tistory.com/3 VAE 설명들어가기에 앞서 * AE와 VAE는 이름이 유사하지만, 수학적으로는 아무런 관련이 없음 * VAE는 Generative model임! * Generative model? training data가 주어졌을 때 이 data가 sampling 된 분포와 같은 분포에서 새로chickencat-jjanga.tistory.comVAE를 간단하게 복습해보자면, VAE(Variational Autoencoder)는 데이터를 잠재 공간(latent space)으로 압축한 후 다시 복원하는 방법론을 제공한다. VAE는 잠재 공간을..

Forking Workflow 정리

연구실 홈페이지 관리자가 되었는데,,,git에 익숙하지 않아 업데이트 할 때마다 찾아보려니 너무 귀찮아서ㅎㅎ내가 보려고 정리하는 글...CASE1) 내가 업데이트하고자 할 때1. 공식 저장소의 update를 fork로 생성한 본인 계정의 저장소에 반영하기$ git pull upstream master2. branch 생성# develop 이라는 이름의 branch를 생성한다.$ git checkout -b developSwitched to a new branch 'develop'# 이제 2개의 브랜치가 존재한다.$ git branch* develop master3. 수정 작업 후 add, commit, push주의사항 push 진행시에 branch 이름을 명시해주어야 한다# develop 브랜치의 수정..

기타/git 2024.08.01

EmoTalk: Speech-Driven Emotional Disentanglement for 3D face Animation 논문리뷰(2) - Introduction 다시 쓰기

첫번째 문단speech-driven facial animation은 여러 분야에서 관심을 받고 있으며, 상업적으로 사용하기 위해 보통 사전에 작성된 script에 의해 facial expression을 제어하는데 이는 시간과 돈이 많이 든다. 이러한 문제에 딥러닝을 이용하면1) high quality의 animation을 만들 수 있을 뿐만 아니라2) 비용을 훨씬 절감할 수 있다.  두번째 문단하지만 current method는 facial expression에서 emotion으로 인한 variation을 무시하고 있는데, emotion은 굉장히 중요한 표현적 요소이기 때문에 facial animation에서 이가 없게 되면 불쾌한 골짜기를 유발할 수 있다. 그런데 emotional information..

EmoTalk: Speech-Driven Emotional Disentanglement for 3D face Animation 논문리뷰(1) - framework 정리

https://ziqiaopeng.github.io/emotalk/ EmoTalkSpeech-driven 3D face animation aims to generate realistic facial expressions that match the speech content and emotion. However, existing methods often neglect emotional facial expressions or fail to disentangle them from speech content. To address this iziqiaopeng.github.ioSpeech-driven 3D face animation aims to generate realistic facial expressions..

[논문 리뷰] Taming Diffusion Probabilistic Models for Character Control

SIGGRAPH 2024에 발표된 해당 논문의 코드를 사용하려고 한다. 그 전에 모델의 동작에 대해 확실하게 이해할 필요가 있어서 그 내용에 대해 정리하고자 한다.3.1 Motion Diffusion ModelMotion Diffsuion Model은 diffusion probabilistic model을 통해 모션 데이터를 생성하며,확산 과정과 디노이징 과정으로 나뉘는데확산과정에서는 초기 모션 데이터에 노이즈를 점진적으로 추가하고디노이징 과정에서는 신경망을 사용하여 노이즈를 역으로 제거하게 된다.3.2 Conditional Autoregressive Motion Diffusion Model본 논문에서 사용하는 구조는 Motion Diffusion Model을 확장한 Conditional Autoregr..

Emotional Speech-Driven Animation with Content-Emotion Disentanglement(EMOTE) 논문리뷰 - Introduction 다시 작성

기존 내용 정리첫번재 문단speech로부터 3D 아바타의 얼굴을 animating하는 것은 가상환경이나 게임 등 다양한 곳에 적용될 수 있다.1. 이때 speaker의 특성에 구애받지 않고 다양한 speaker의 음성 데이터를 처리할 수 있어야하고,2. speech content랑 입의 모양이 일치해야한다. 그리고 emotion이 facial expression을 통해 드러나게 되는데, 이 분야는 잘 연구되고 있지만 speech를 하는 동안의 emotion modeling은 연구되지 않았다. 두번째 문단주요한 이슈는 emotion을 expressing하는 것과 audio에 맞게 입모양을 맞추는 것 사이의 충돌이 일어난다는 점이다. 이를 해결하기 위해 우리는 EMOTE network를 제안하였는데, 이 n..

Supervised Contrastive Learning 코드 분석

supervised contrastive learning을 하기 위해 공개된 코드를 사용해야할 일이 생겼다. 아무리 가져온 코드라 하더라도 이해하지 않고 사용하는건 말이 안되는 것 같아, 해당 코드를 분석하는 포스트를 작성하고자 한다.🍀 코드 출처: https://ffighting.net/deep-learning-paper-review/self-supervised-learning/supervised-contrastive-learning/ Supervised Contrastive Learning - 딥러닝 논문 리뷰Supervised Contrastive Learning 논문의 핵심 내용을 리뷰합니다. Supervised Contrastive Learning의 제안 방법을 살펴봅니다. 마지막으로 성능 비..

Emotional Speech-Driven Animation with Content-Emotion Disentanglement(EMOTE) 논문리뷰

하고자 하는 것Audio Input과 Emotion labels을 받으면, 해당 emotion에 적절하면서도 audio input에 맞는 speech facial animation을 생성할 수 있는 EMOTE framework 제안Datasetemotional speech에 대한 dataset은 존재하지 않음. 그래서 emotional video dataset인 MEAD dataset에서 reconstruction method 사용해서 생성한 data 사용.MEAD dataset에 포함된 감정 label을 사용하는 것이 아니라 emotion feature를 따로 extract해서 사용EMOCA’s public available emotion recognition network를 사용해서 emotion f..

Triplet Loss 이해하기(개념, 수식, 주의사항)

Triplet LossTriplet Loss는 딥러닝 기반의 임베딩 학습에서 자주 사용되는 손실 함수이다. 해당 손실 함수를 사용하면, 주어진 데이터들의 관계를 고려하여 임베딩 공간에서 특정한 거리를 유지하도록 학습하는데 도움을 준다. Triplet Loss는 이름에서도 추측할 수 있듯이 세가지 샘플(triplet set)로 구성된 입력 데이터(Anchor, Postive, Negative)를 사용하여 정의된다. Triplet Loss의 구성요소1) Anchor(A): 기준이 되는 데이터 포인트2) Postive(P): Anchor와 같은 클래스에 속하는 데이터 포인트3) Negative(N):Anchor과 다른 클래스에 속하는 데이터 포인트 Triplet Loss의 목표Triplet Loss의 주요 목..

Soft Actor-Critic(SAC) 컨셉 이해

Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor에서 제안하는 방법론에 대한 컨셉을 이해하는 글이다. 1. Soft Actor-Critic(SAC)란? SAC는 오프-폴리시(off-policy) 액터-크리틱(actor-critic) 기반 딥 강화학습 알고리즘이다. SAC의 기본 아이디어는 "standard maximum reward reinforcement leraning에 entropy term을 추가해서 단순히 reward를 최대화하는 것 뿐만이 아니라, 엔트로피를 최대화하면서 정책의 탐험을 장려"하는 것이다. 즉, task를 수행하면서 가능한 무작위로 행동하려고 하기 때문에,..

728x90
728x90