Super Kawaii Cute Cat Kaoani 치킨고양이짱아 공부일지

전체 글 142

Learning Music Reprsentation with WAV2VEC 2.0 논문리뷰

Wav2vec 2.0 이 speech representation과 같은 분야에서 효과적인 성능을 보이는 것은 지난 포스트를 통해 확인할 수 있었다. 하지만 내가 하고자하는건 music representation이라 music representation에도 wav2vec 2.0이 효과적인 성능을 보이는지 좀 더 알아볼 필요가 있었다. 이와 관련된 내용을 "Learning Music Reprsentation with WAV2VEC 2.0" 이라는 논문에서 확인할 수 있다. https://arxiv.org/pdf/2210.15310.pdf 본 논문에서는 wav2vec 2.0을 pretraining 단계에서부터 음악을 통해 학습시켜 wav2vec 2.0 모델이 pitch나 Instrument를 인코딩하는 Lat..

연구/오디오 2023.12.05

wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations

wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations 논문에 대한 간단한 요약이다. https://arxiv.org/abs/2006.11477 wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations We show for the first time that learning powerful representations from speech audio alone followed by fine-tuning on transcribed speech can outperform the best semi-supervised methods whil..

연구/오디오 2023.11.29

Batch normalization vs Input normalization 이해하기

Batch normalization과 Input normalization은 모두 데이터 정규화 기술이지만, 방식과 적용되는 시점에서 차이가 있다. 1) Batch normalization Batch normalization은 각 mini batch의 평균과 표준편차를 계산하고, 이를 사용하여 입력을 정규화하는 방식이다. normalization 작업이 별도의 과정으로 떼어진 것이 아니라 신경망 안에 포함되어, normalization 작업 역시 학습과정에서 같이 조절되게 된다. 즉, 각 레이어마다 정규화하는 레이어를 두어, 변형된 분포가 나오지 않도록 조절하는 것이 batch normalization이다. normalization 작업 역시 학습 과정에서 조절된다. 따라서 위의 식에서 베타와 감마는 학습..

수업정리 6) Kubernetes in action

Pod관련있는 하나 이상의 containers 집합depolyment(배포)의 basic unit이다.each pod는 자신만의 IP, hostname, process, newtork interface 및 다른 Resource를 가진다.-> 위의 그림을 보면 하나의 worker node에 두 개 이상의 pod가 있을 수 있으며 각 pod마다 ip가 다름 -> 참고로, pod는 컨테이너의 실행단위이며, depolyment는 애플리케이션의 배포와 업데이트를 관리하는 쿠버네티스 리소스. depolyment를 사용하여 pod를 만들고 관리할 수 있음.Behind the Scenes1) 'kubectl' 명령을 사용하여 쿠버네티스에 depolyment를 생성하도록 지시한다. depolyment는 쿠버네티스에서 애..

수업정리 3-1) P2P

Paradigm shift of computing Model80, 90년대) 워크스테이션이나 고정된 서버가 있고 client로 PC가 있음 2000년대) peer-to-peer로 넘어감Client/Server 아키텍쳐서버는 powerful, reliable 해야함클라이언트는 최소한의 리소스만 가지고 있어야함ex) WWW(Http), FTP, Web service(http 말하는게 아니라 별도의 웹서비스가 있었음. 프로토콜도 별도로 soup라는게 있었음)Client/Server Limitation모든걸 서버가 처리하다보니 scalability 측면에서 제한이 무조건 있게 된다.물리적으로 communication line의 용량 제한이 있을수밖에 없음. request를 모두 같은 지점에서 처리하다보니 병목현..

Listen, Denoise, Action!Audio-Driven Motion Synthesis with Diffusion Models 논문리뷰 (4) - Limitation, Concolusion, Introduction

6. Limitation diffusion model을 사용하다보니 느린 것이 가장 문제임. 오디오 기반 모션 생성의 품질을 개선하는 것이며 오프라인 생성에 중점을 두고 있으므로 합성 속도를 최적화하는 것에는 어떤 노력도 기울이지 않았음. 실시간 상호작용이나 게임 엔진 통합에는 적절하지 않음 그리고 의도적인 제스처와 dancing에 필요한 모든 측면을 다 capture하지는 못함. gesture의 경우에는 음성의 의미를 이해하고 gesture를 생성하지는 못함 dance의 경우에도 저차원의 음성 데이터를 넣어주기 때문에 구조적인것만 고려해서 dance를 만들어내게 됨 그리고 각 expert network가 확률적 분포의 교차점에 집중하여 모션을 만들어내는게 강점일수도 있고 약점일수도 있음. 수학적으로는 ..

Listen, Denoise, Action!Audio-Driven Motion Synthesis with Diffusion Models 논문리뷰(3) - 실험2

네버엔딩 실험...논문 지인짜 길다ㅋㅋㅋㅋㅋㅋ흑 5 PRODUCTS OF EXPERT DIFFUSION MODELS 이 세션에서는 classifier-free guidance 아이디어를 확장해서 여러 diffusion model을 결합하는 product of expert 아이디어에 대해 설명하고 있음. 5.1 Theory 원래 classifier free guidance 식은 위와 같음 근데 이제 위의 식 두 개를 섞어 s_1의 스타일을 (1-lambda)만큼 반영하고 s_2의 스타일을 lambda만큼 반영하는 식으로 확장시켰음. 즉 두 스타일을 blend할 수 있음. 이걸 guided interpolation이라고 부를거임. 0이랑 1 사이에 속하지 않는 값을 골라서 특정 스타일이 더 명확하게 보이게 ..

728x90
728x90