Super Kawaii Cute Cat Kaoani '연구/오디오' 카테고리의 글 목록
728x90

연구/오디오 4

Learning Music Reprsentation with WAV2VEC 2.0 논문리뷰

Wav2vec 2.0 이 speech representation과 같은 분야에서 효과적인 성능을 보이는 것은 지난 포스트를 통해 확인할 수 있었다. 하지만 내가 하고자하는건 music representation이라 music representation에도 wav2vec 2.0이 효과적인 성능을 보이는지 좀 더 알아볼 필요가 있었다. 이와 관련된 내용을 "Learning Music Reprsentation with WAV2VEC 2.0" 이라는 논문에서 확인할 수 있다. https://arxiv.org/pdf/2210.15310.pdf 본 논문에서는 wav2vec 2.0을 pretraining 단계에서부터 음악을 통해 학습시켜 wav2vec 2.0 모델이 pitch나 Instrument를 인코딩하는 Lat..

연구/오디오 2023.12.05

wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations

wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations 논문에 대한 간단한 요약이다. https://arxiv.org/abs/2006.11477 wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations We show for the first time that learning powerful representations from speech audio alone followed by fine-tuning on transcribed speech can outperform the best semi-supervised methods whil..

연구/오디오 2023.11.29

실시간으로 mel spectrogram 생성하기

이때까지 오디오 파일 전체를 로드하고 거기서 mel spectrogram을 다 만들어놓은 뒤, 만들어 놓은 mel spectrogram 에서 필요한 부분들을 뽑아서 사용했었는데, 이제 오디오로부터 mel spectrogram을 실시간으로 생성해야하는 상황(런타임)이 생겨버렸다. dataset을 생성할 때 오디오 파일 전체를 로드한 뒤 mel sepctrogram을 생성했기 때문에, 실시간으로 mel spectrogram을 생성할 때에도, 오디오 파일 전체를 로드했을 때와 최대한 비슷한 mel spectrogram feature를 매 순간순간마다 만들어야한다. mel spectrogram 자체가 Window를 가지고 미래 시점까지의 데이터까지 반영해서 만드는 것이다 보니 조금 딜레이는 생길 수 밖에 없지만..

연구/오디오 2023.10.10

mel spectrogram 관련 조사 + 어떻게 뽑아내는지

연구 관련해서 음성 데이터를 사용할 일이 생겼다. 보통 음성 데이터를 Raw data로 사용하면 용량이 너무 커지므로 딥러닝에서는 음성의 feature를 추출하여 사용한다. 이때 가장 많이 사용하는 음성 특징 추출 방법이 mel spectrogram이다. 이번 글에서는 mel spectrogram이 무엇인지, 그리고 어떻게 뽑아내는지에 대해 알아보고자 한다. 1. mel spectrogram이란? 소리의 파형을 인간이 들을 수 있는 범위로 줄인 mel scale로 다운 스케일한 이후, 그 파형을 그림으로 그린 모양이다. 2. 어떻게 뽑아낼 수 있을까? librosa library를 사용하면 된다. 스크립트를 보면 다음과 같다. audio_file = "sound.wav" y, sr = librosa.lo..

연구/오디오 2023.07.05
728x90
728x90