3D 음악

사진 : 2D / 영화 : 2D + 시간축 = 3D

사진 : Conv2D / 영화 : Conv3D

그렇다면,

소리 : frequency + time = 2D

음색을 담은소리 : 2D + 배음축(고도차) = 3D

소리 : Conv2D / 음색소리 : Conv3D

어떨까?

음색을 잡아내는 것을 특징추출이라고 생각하고,

사진에서 쓰이는 기법들과 비슷하게 생각하고 있었는데,

소리에 의미를 더하는 개념으로,

임베딩 + 영상처리를 하는 쪽과 연관지어 보면 다른 생각이 날 듯 하다.

transformer로 영상을 generator하는 모델을 보면 좋겠다.

일단은 spectrogram은 2D 시각화만 가능하고,

3D로 보여지는 음악에 관련된 시각그래프가 있는지도 알아보고.

728x90

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

AI를 모르고서야 어찌