Super Kawaii Cute Cat Kaoani 'mel spectrogram' 태그의 글 목록
728x90

mel spectrogram 2

실시간으로 mel spectrogram 생성하기

이때까지 오디오 파일 전체를 로드하고 거기서 mel spectrogram을 다 만들어놓은 뒤, 만들어 놓은 mel spectrogram 에서 필요한 부분들을 뽑아서 사용했었는데, 이제 오디오로부터 mel spectrogram을 실시간으로 생성해야하는 상황(런타임)이 생겨버렸다. dataset을 생성할 때 오디오 파일 전체를 로드한 뒤 mel sepctrogram을 생성했기 때문에, 실시간으로 mel spectrogram을 생성할 때에도, 오디오 파일 전체를 로드했을 때와 최대한 비슷한 mel spectrogram feature를 매 순간순간마다 만들어야한다. mel spectrogram 자체가 Window를 가지고 미래 시점까지의 데이터까지 반영해서 만드는 것이다 보니 조금 딜레이는 생길 수 밖에 없지만..

연구/오디오 2023.10.10

mel spectrogram 관련 조사 + 어떻게 뽑아내는지

연구 관련해서 음성 데이터를 사용할 일이 생겼다. 보통 음성 데이터를 Raw data로 사용하면 용량이 너무 커지므로 딥러닝에서는 음성의 feature를 추출하여 사용한다. 이때 가장 많이 사용하는 음성 특징 추출 방법이 mel spectrogram이다. 이번 글에서는 mel spectrogram이 무엇인지, 그리고 어떻게 뽑아내는지에 대해 알아보고자 한다. 1. mel spectrogram이란? 소리의 파형을 인간이 들을 수 있는 범위로 줄인 mel scale로 다운 스케일한 이후, 그 파형을 그림으로 그린 모양이다. 2. 어떻게 뽑아낼 수 있을까? librosa library를 사용하면 된다. 스크립트를 보면 다음과 같다. audio_file = "sound.wav" y, sr = librosa.lo..

연구/오디오 2023.07.05
728x90
728x90