사진 : 2D / 영화 : 2D + 시간축 = 3D
사진 : Conv2D / 영화 : Conv3D
그렇다면,
소리 : frequency + time = 2D
음색을 담은소리 : 2D + 배음축(고도차) = 3D
소리 : Conv2D / 음색소리 : Conv3D
어떨까?
음색을 잡아내는 것을 특징추출이라고 생각하고,
사진에서 쓰이는 기법들과 비슷하게 생각하고 있었는데,
소리에 의미를 더하는 개념으로,
임베딩 + 영상처리를 하는 쪽과 연관지어 보면 다른 생각이 날 듯 하다.
transformer로 영상을 generator하는 모델을 보면 좋겠다.
일단은 spectrogram은 2D 시각화만 가능하고,
3D로 보여지는 음악에 관련된 시각그래프가 있는지도 알아보고.
728x90
'Diary' 카테고리의 다른 글
데이터 수집처 (0) | 2023.03.11 |
---|---|
이해는 하는게 아니고 오는거다 (0) | 2023.03.07 |
죽음에 관련된 AI Generator (0) | 2023.02.25 |
영어 공부는 AI 처럼 (0) | 2023.02.22 |
머신러닝과 인간. 그 끝의 딥러닝 (0) | 2023.01.18 |
댓글