Super Kawaii Cute Cat Kaoani '분류 전체보기' 카테고리의 글 목록 (10 Page)
728x90

분류 전체보기 167

ZeroEGGS: Zero-shot Example-based Gesture Generation from Speech 논문리뷰

오늘두 역시나 gesture generation 관련 논문 리뷰! 작년 Siggraph Asia에서 직접 발표를 들었던 논문이라 더 반갑게 읽었던 것 같다. 그때도 생각했던거지만 다시봐도 결과물의 퀄리티가 꽤 괜찮다. 교수님 허락만 맡으면 논문세미나에서 발표할 생각이라 꽤 열심히 읽었지롱 https://arxiv.org/abs/2209.07556 ZeroEGGS: Zero-shot Example-based Gesture Generation from Speech We present ZeroEGGS, a neural network framework for speech-driven gesture generation with zero-shot style control by example. This means s..

Pytorch로 dataset 구성하기

딥러닝 모델을 학습시키기 위해 가장 먼저 필요한 준비물은 "데이터"이다. 주어진 데이터를 효과적으로 활용하기 위해, pytorch에서는 Dataset 클래스를 제공하고 있다. pytorch의 Dataset 클래스를 활용해서 학습을 위한 데이터셋을 어떻게 만들 수 있을지 알아보자. step1. 클래스 정의 사용할 모듈은 다음과 같다. import os import torch from torch.utils.data import Dataset from PIL import Image import torchvision.transforms as transforms 커스텀 데이터셋을 만들기 위해 클래스를 만들어보자. class MyBaseDataset(Dataset): def __init__(self, x_data,..

연구/PyTorch 2023.07.27

Speech Gesture Generation from the Trimodal Context of Text, Audio and Speaker Identity 논문 리뷰

집중안되는데 용케 다 읽었다..고생했으 https://arxiv.org/abs/2009.02119 Speech Gesture Generation from the Trimodal Context of Text, Audio, and Speaker Identity For human-like agents, including virtual avatars and social robots, making proper gestures while speaking is crucial in human--agent interaction. Co-speech gestures enhance interaction experiences and make the agents look alive. However, it is difficult ..

blender에서 keyframe들 scaling 시키기 (Timeline 창, 코드 이용)

blender에서 keyframes들을 일정한 비율로 늘리거나 줄여 keyframe 총 개수를 바꾸는 방법이다. 방법1: Blender 창에서 하는 방법 1) Timeline 창 띄우기 위와 같이 창을 띄우면 animation 정보가 Timeline 창에 나타난다. 키보드 A를 누르면 모든 animation 전체가 클릭된다. 2) scaling 시키기 참고로 현재 frame을 기준으로 scaling 된다. 보통의 경우 current frame을 첫번째 frame으로 맞춰놓고 사용하면 된다. 키보드 S 버튼을 누르면 기준 frame(현재 frame)을 기준으로 마우스 커서의 위치에 따라 원하는 만큼 scaling 시킬 수 있다. 커서를 이리저리 옮기면서 원하는 만큼 keyframe들이 scaling 되었다..

연구/Blender 2023.07.18

Pytorch 사용해서 간단한 Neural Network 설계하기

https://tutorials.pytorch.kr/beginner/blitz/neural_networks_tutorial.html 신경망(Neural Networks) 신경망은 torch.nn 패키지를 사용하여 생성할 수 있습니다. 지금까지 autograd 를 살펴봤는데요, nn 은 모델을 정의하고 미분하는데 autograd 를 사용합니다. nn.Module 은 계층(layer)과 output 을 반환하는 for tutorials.pytorch.kr 위의 글을 보면서, 내가 이해하기 쉽게 정리한 내용이다. 난 정리하면서 이해하는 편이라...처음 보는 사람들은 위의 글을 참고하는게 더 이해가 쉬울듯하다. 1. Neural Network 설계 설계해볼 Neural Network는 숫자 이미지를 분류하는 신..

연구/PyTorch 2023.07.17

ChoreoMaster: Choreography-Oriented Music-Driven Dance Synthesis 논문 정리

https://netease-gameai.github.io/ChoreoMaster/ ChoreoMaster Networks ChoreoMaster netease-gameai.github.io ChoreoMaster 논문에서는 음악을 Input으로 받아 그에 맞는 춤동작을 생성하는 framework를 제안하고 있다. 결과 영상을 보면, 음악에 어울리는, 꽤나 퀄리티가 좋은 동작을 생성해내는 것을 알 수 있다. 전체적인 구조를 살펴보면 위와 같다. Choreographic Oriented Choreomusical Style Embedding 부분과 Choreographic-Oriented Choreomusical Rhythm Embedding 부분을 나눠서 살펴보자. 1. Choreographic Orien..

mel spectrogram 관련 조사 + 어떻게 뽑아내는지

연구 관련해서 음성 데이터를 사용할 일이 생겼다. 보통 음성 데이터를 Raw data로 사용하면 용량이 너무 커지므로 딥러닝에서는 음성의 feature를 추출하여 사용한다. 이때 가장 많이 사용하는 음성 특징 추출 방법이 mel spectrogram이다. 이번 글에서는 mel spectrogram이 무엇인지, 그리고 어떻게 뽑아내는지에 대해 알아보고자 한다. 1. mel spectrogram이란? 소리의 파형을 인간이 들을 수 있는 범위로 줄인 mel scale로 다운 스케일한 이후, 그 파형을 그림으로 그린 모양이다. 2. 어떻게 뽑아낼 수 있을까? librosa library를 사용하면 된다. 스크립트를 보면 다음과 같다. audio_file = "sound.wav" y, sr = librosa.lo..

연구/오디오 2023.07.05

blender에서 한 model의 facial motion을 다른 model에 적용하기

default fbx model에 저장되어있는 facial motion data를 custom fbx model에 적용하는 과정을 담아보았다. 나만 볼 것 같고..내가 기억 안날까봐 정리하는거니까 친절하게 서술하지 않을거다! * 상황 정리 default fbx model의 face mesh의 shape keys는 총 53개이고, 그 중 사용하는 shape keys는 39개였다. custom fbx model의 face mesh의 shape keys는 약 70개 정도였고, 여기에 default fbx model이 사용하는 39개의 shape keys는 모두 포함되어있다. facial motion data가 담겨있는 fcurves의 default fbx model과 custom fbx model 모두 39개..

728x90
728x90