대극장 공간 특성상 뮤지컬, 콘서트, 다양한 크로스오버 장르의 대형 포맷 공연이 많이 이루 어지는데, 다양한 대관팀 요청에 부응하고자 Schoeps, Neumann, Sennheiser, DPA등 유수의 고품질 마이크를 다량 보유하고 있으며, 무선 마이크는 Sennheiser사 EM3732 시리즈를 32 채널 보유함으로써 서울시예술단 공연에도 적극적으로 사용하고 있습니다.
M씨어터는 중극장 규모로 프로시니엄 형태의 전문 공연장입니다. 1, 2층에 609석 규모를 갖추고 있으며,주요공연장르는뮤지컬및연극,콘서트 등으로무대위배우와관객간친밀도가높은 공연장입니다. 대극장과 마찬가지로 STAGETEC 사 AURUS가 조정실 메인 믹서이며, L-acoustics 사 KIVA의 L-C-R 어레이 시스템으로 구성되어 있습니다.
S씨어터는 블랙박스형 공연장으로 다양한 시도 가 가능한 가변형 공연장입니다. 2018년도에 개관 하였으며, 다양한 장르의 실험적이고 도전적인 예 술가의작품을공연할수있는300석내외의공연
SSM STAGE SOUND MAGAZINE 2022 - Quarter II Vol. 02
장으로써 풍부한 아날로그/디지털 인프라 구성으 로 자유로운 시스템 구성이 용이합니다. 또한, 객석 상부에는 텐션그리드를 설치하고 있어 여러 가지 실험적인 형태의 음향시스템 구성이 가능하며 객석 측벽, 그리드 곳곳에 다양한 오디오 인프라를 이용해 이머시브 형태의 공연 진행도 가능합니다.
세종체임버홀은 실내악 전문홀로 실내악, 리사
이틀 등에 적합한 어쿠스틱 홀입니다. 무대와 객석
이 나뭇잎 형태의 6각형 구조로 이루어져 있으며,
객석뒤로갈수록측벽간거리가짧아지는리버스
팬형태로한층풍성한음향을즐길수있습니다.
또한, 열린 천장구조로 되어있어 후기 잔향시간이
긴 편이며, 측벽을 톱니바퀴 모양으로 만들어 무대
소리는 잘 전달되지만, 객석 소음은 산란시켜 무대
로전달을막아줍니다.잔향시간이긴데비해초기
반사음은강해명료도또한높은것이홀의특징
입니다. 좌석별 최대 음압차는 3dB 이내이며,
엇갈린좌석배치를통해시야를가리지않고균일
하고풍부한음향으로개관이래많은클래식연주
자들의 공연이 이어지고 있는 클래식 전문 공연장
STAGE
대극장 메인스피커
입니다. SOUND
대극장 메인콘솔 DIGICO SD7
L-Acoustics DV-DOSC
SSM STAGE SOUND MAGAZINE 5 0
THE PERFECT SYSTEM FOR ANY STAGE
AVID VENUE | S6L Unified Platform
수 많은 엔지니어들에게 인정받은 S6L 워크플로우와 사운드 퀄리티를 그대로 유지하면서
엔지니어가 원하는 다양한 스케일과 예산을 충족시키는 새로운 VENUE | S6L Unified Platform을 소개합니다. 하드웨어, 소프트웨어, 쇼파일의 100% 호환성을 제공하는 유일한 통합형 라이브 사운드 플랫폼을 만나보십시오.
주식회사 고일 ᅵ 사이트 바로가기 www.koil.co.kr
서울특별시 중구 퇴계로 187, 국제빌딩 8층 | TEL 02.2271.0030
Avid 공식 Distributor
어디서나 완벽한 사운드
Digital 9000과 6000은 까다로운 라이브 프로덕션 환경,
험한 RF환경에 알맞게 설계되어 선택의 폭이 좁은 전문가에게 추천합니다.
Digital 9000
THE WIRELESS
MASTERPIECE.
Digital 6000 시스템은 매우 까다로운 RF 상황에서도 뛰어난 사운드 품질과 풍부한 다이내믹 레인지를 제공합니다. Digital 9000 시스템은 직관적인 조작과 우수한 성능으로 탁월한 음질을 전송하고 12개의 다양한 마이크 헤드를 선택 할 수 있는 기회를 제공하여 전문가에게 폭넓은 경험을 선사합니다.
Digital 6000
No compromise.
젠하이저 공식 파트너
주식회사 고일 ᅵ 사이트 바로가기 www.koil.co.kr
서울특별시 중구 퇴계로 187, 국제빌딩 8층 | TEL 02.2271.0030
CONTENTS
TECHNICAL REPORT
Immersive Live System Panning Algorithm
이머시브 라이브 시스템 패닝 알고리즘
글|최찬규
다산에스알 기술연구소장, (사)무대음향협회 서울지부 기술위원
최근 들어 극장 영화 콘텐츠나 넷플릭스를 비롯한 OTT용 콘텐츠 제작에 돌비 애트모스 (Dolby Atmos)가 표준화되어 사용하는 추세다. 영화나 게임과는 다르게 음악 믹싱에서는 여전히 스테레오 포맷이 일반적이다. 하지만 영상뿐만이 아니라 음악 제작에서도 공간감 있는 사운드 구현을 위해 실감음향에 대한 요구가 높아지고 있다. 2021년 6월 애플 뮤직에서 돌비 애트모스 (Dolby Atmos)를 기반으로 하는 공간 음향 (Spatial Audio) 음악 스트리밍 서비스를 시작했다. 음악 제작과 유통 시스템에 새로운 바람이 불기 시작한 것이다. 라이브 공연에서도 스윗 스팟의 범위를 넓히고, 악기의 위치와 공간감을 더욱더 효과적으로 표현하기 위한 새로운 믹싱 방법들이 적용되고 있다.
2021년 (사)무대음향협회 서울지부 세미나 중
사운드 믹싱에서 소리의 위치를 지정하거나 소리의 움직임을 표현하는 것을 패닝 기법이라고 한다. 패닝 기법에는 크게 소리의 크기(진폭)와 시간차를 이용하는 방법이 있다. 또한, 이 두 가지를 복합적으로 적용하거나 변형한 패닝 방법들이 이머시브 렌더링 엔진에 활용하고 있다.
라이브 사운드에 사용되는 이머시브 렌더링 엔진은 스피커 제조사에서 자사의 제품과 연동 하는 형태와 독립적인 하드웨어 엔진 기반의 제품으로 나눌 수 있으며, 별도의 하드웨어가 필요 없는 소프트웨어 기반의 제품이 있다. d&b audio- technik의 DS100, L-Acoustics의 L-ISA, Meyer Sound의 Spacemap GO가 대표적인 스피커 제조사 기반의 제품이며, Barco의 IOSONO, Astro Sparial Audio의 SARA II는 독립적인
53
하드웨어 기반의 렌더링 엔진이다. 별도의 하드 웨어가 필요 없는 소프트웨어 기반의 대표적인 렌더링 엔진으로는 FLUX사의 Spat Revolution이 있다. 하드웨어 기반의 렌더링 엔진은 전용 하드웨어가 있어야만 소프트웨어가 구동되기 때문에 직접 체험해 보기에는 문턱이 높다. 반면에 스프트웨어 기반의 렌더링 엔진은 상대적으로 가격이 저렴하고 데모 버전만 설치해도 충분히 3D 입체음향 믹싱을 구현해 볼 수 있는 장점이 있다. 이머시브 사운드 시스템에서 가상 음원의 위치와 공간감을 현실감 있게 재현하기 위해 사용하는 다양한 패닝 방법과 원리에 대해 살펴보도록 하겠다.
1. 인체의 청각 특성과 소리의 위치 파악 1.1 소리의 방향 감지
패닝기법에대한설명에앞서인체가소리를 인지하는 원리에 대한 이해가 필요하다. 우리는 소리를 듣고 방향과 거리, 공간의 특성을 인지한다. 이것은 우리에게 두 개의 귀가 있어서 가능하다. 이것을 양이 효과(binaural effect)라고 한다. 우리의귀는약17cm정도의거리를두고구형태의 머리 사이에 위치한다. 또한, 귓구멍 바깥쪽에는 혼의 역할을 하는 귓바퀴가 있다. 귓구멍 안쪽으로 고막이 있으며 한쪽이 막힌 구조로 무지향 콘덴서 마이크와 비슷한 특성을 갖는다. 귀는 무지향 특성이지만 배플 역할을 하는 머리와 혼 역할을 하는 귓바퀴의 영향으로 지향 특성이 생긴다. 이런 인체의 구조 때문에 두 귀에 들어오는 소리의 미세한 시간, 위상, 크기와 음색의 변화가 발생하고 소리의 위치 파악이 가능하다.
SSM STAGE SOUND MAGAZINE 2022 - Quarter II Vol. 02
1.1.1 Lateral 수평 방향의 소리인지
인체가 소리의 방향성을 인지하는 방법은 두 귀에 도달하는 음원의 시간 차이(ITD, interaural time different)와 레벨 차이(ILD, interaural level different) 때문에 가능하다. 음원이 귀와 수평 높이에 한쪽으로 치우쳐져 있다면 분명 왼쪽 귀와 오른쪽귀에도달하는소리는차이가날것이다.그 미세한 차이를 이용해서 우리는 방향과 거리, 공간감을 구분할 수 있다. 오른쪽에서 소리가 들릴 때소리는오른쪽귀에먼저도달하고두귀사이의 거리만큼의 시간 차이를 두고 왼쪽 귀에 도달할 것이다. 머리의 크기보다 파장이 작은 고주파수의 경우에는 배플 역할을 하는 머리에 의해 회절이 발생하지 않고 반사가 이루어지기 때문에 왼쪽 귀에는 상대적으로 소리가 작게 들린다. 실험 결과에 따르면 500Hz~800Hz (음원에 따라 다름) 이하 대역에서는 양쪽 귀의 시간 차이에 의해서, 1.5kHz 이상의 대역에서는 양쪽 귀의 음량 차이에 의해서 소리의 방향성을 인지한다고 알려져 있다. 이것은 보통의 머리 지름이 800Hz 이하 주파수 파장의 절반보다 작고, 1.5kHz 이상 주파수 파장보다 크기 때문이다. 800Hz ~1.5kHz 대역 에서는 시간 차이와 음량 차이를 함께 이용해서 방향을 인지한다.
[그림 1] Interaural Time Difference (ITD), Interaural Level Difference (ILD)
SSM STAGE SOUND MAGAZINE 5 4
CONTENTS
1.1.2 앞/뒤, 수직 방향의 소리인지
그러면 수직 방향의 방향성 인식은 어떻게 이루어지는지 살펴보자. 앞뒤나 머리 위에 있는 소리는좌우귀에같은시간과크기로들리기 때문에 수평 방향보다 방향을 인지하기가 쉽지 않다. 소리의 방향에 따라 머리의 모양과 크기, 목, 어깨, 몸통, 특히 귓바퀴에 의해서 미세한 주파수 특성의 변화가 발생한다. 우리는 그 미세한 변화를 감지해서 소리의 방향을 알 수 있다.
특히 앞쪽의 소리는 귓바퀴에서 반사음의 경로 차에 의해 간섭이 발생하고 뒤에서 오는 소리는 음영이 발생하여 주파수 특성이 변하게 된다. 위에서 오는 소리는 어깨 반사음이, 아래에서 오는 소리는 몸통과 어깨에 가려진 소리가 들리게 된다. 즉,양쪽귀에인지되는소리는음원의높이에따라 귓바퀴의 공명 특성과 어깨에서 반사되는 반사음의 세기에 따라 주파수응답 특성이 달라진다. [그림 2]는 소리의 수직 입사 방향에 따라 귓바퀴의 영향으로 6kHz~16kHz 대역에서 보강(peak)과 감쇠(notch)가 발생하는 주파수가 다르게 나타 나는 것을 보인다.
[그림 2] 소리의 수직 방향에 따라 귓바퀴의 영향으로 보강(peak)과 감쇠(notch)가 발생한다. (Marshall Long, 2014)
1.2 소리의 거리 감지
ILD, ITD와 머리전달함수(HRTF, head- related transfer function)는 인체가 소리의 방향을 인지하는 데 중요한 역할을 하지만 소리의 거리를 파악하는 데는 추가적인 정보가 더 필요하다. 소리의 크기나 초기 반사음의 지연 시간, 직접음과 잔향음의 비율, 움직임의 속도, 고음의 감쇠 정도를 복합적으로 인지하여 거리를 파악할 수 있다.
1.2.1 소리의 크기(Loudness)
소리 크기는 음원이 놓인 거리를 파악하는데 주요한요소다.멀리있는소리는더작게들리고 가까이 있는 소리는 크게 들리는 것은 당연하다. 우리는 일상생활을 하면서 목소리, 동물, 자동차 소리등을들으면대략의거리를파악할수있다. 멀리서 나는 큰 폭발음이나 아주 가까이에서 들리는작은모깃소리를듣고그거리를쉽게 인지할수있다.이것은우리가음원의특성에따라 음량의 크기를 예상할 수 있기 때문이다. 예상한 소리보다 크기가 작다면 보다 멀리 있다고 느낄 것이다. 소리의 크기 변화에 따라 음원이 다가오거나 멀어진다는 것도 알 수 있다.
1.2.2 초기 반사음의 지연 시간(Initial time delay)
초기 지연 시간은 직접음이 도달하고 초기 반사음이 도달하는 시간의 차이를 나타낸다. 시간차가 짧다는 얘기는 음원이나 청취자가 반사면에 가까이 있다는 것이고 지연 시간이 길다는 얘기는 반사면에서 멀리 있다는 것을 의미한다. 체적이 큰 공간은 작은 공간보다 직접음과 반사음의 지연 시간 차이가 크다. 이러한 원리를 이용하여 소리에 잔향을 부가할 때 초기
55 SSM|이머시브라이브시스템패닝알고리즘
[그림 3] 직접음과 초기 반사음의 시간 차이로 공간의 크기나 음원과 벽면의 거리를 파악할 수 있다.(https://
developer.oculus.com/resources/audio-intro-
지연 시간의 길이를 조절하여 공간의 크기 표현이 가능하다. 무향실이나 사막과 같이 열린공간에서 는 반사음이 없어서 거리를 파악하는 데 어려움이 있다.
1.2.3 직접음과 반사음의 비율(Ratio of direct sound to reverberant sound)
소리의 상대적인 거리감을 표현하는데 직접음과 반사음의 비율을 이용한다. 울림이 있는 공간에 서는 음원으로부터 직접 도래하는 직접음과 벽이나 바닥, 천장을 부딪쳐 오는 반사음과 잔향음이 있다. 음원과 청취자가 가까우면 직접음의 비율이 높다가 거리가 멀어지면 어느 지점에서 이 비율이 같아 지는 지점이 나타난다. 이때의 음원과 청취자의 거리를 임계거리(critical distance)라고 한다. 직접음 대 반사음 비는 음악 믹싱에서도 자주 사용한다. 악기나 보컬의 거리감을 멀리하기 위해서는 잔향음을 상대적으로 더 부가하고, 가깝 게 느끼게 하기 위해서는 잔향음을 줄인다. 앞에서 설명한 음량과 잔향음을 적절하게 조절하면 음원의 거리감을 더욱더 잘 표현할 수 있다.
SSM STAGE SOUND MAGAZINE 2022 - Quarter II Vol. 02
1.2.4 물체의 움직임 빠르기(Motion parallax)
소리의 움직이는 속도도 거리를 파악하는 데 역할을 한다. 파리와 비행기가 같은 거리를 날아간다고 하면 같은 시간 동안 파리가 이동한 각도가 훨씬 크게 표현될 것이다. 이것은 비행기가 훨씬 멀리서 움직이기 때문이다. 같은 비행기 소리여도 이동하는 속도가 빠르다면 상대적으로 가까운 거리에 있다고 느껴질 것이다.
1.2.5 고음 감쇠(High-frequency attenuation)
공기는 소리의 파동을 전달하는 매질이다. 공기 중에서 소리가 이동할 때 거리가 멀어지면 음량이 감소하는데 저음보다 고음이 더 감소하는 성질이 있다. 이것을 Air-Loss라고 한다. 멀리 있는 소리는 가까이 있는 소리보다 음량도 작아지지만, 고음 성분이 더 많이 감소하기 때문에 소리가 먹먹하게 들린다. 고음 감쇠는 공기 온도와 습도에 영향을 받는다. 습도가 낮으면 고음 감쇠가 더 많이 발생한다. 온도는 습도에 따라 다르게 영향을 주는데 습도가 낮고 온도가 높은 사막의 경우에 고음 감쇠가 가장 크게 발생한다. 영상에 포함된 소리의거리감을표현할때공간배경에따라고역 감쇠량을 적절히 조절할 필요가 있다. 또한, Air-Loss는 음향시스템의 튜닝에도 중요한 고려 대상이다.
[그림 4] 상대 습도가 낮을수록 주파수가 높을수록 흡음율은 올라간다. 공기의 상대 습도와 온도에 따라 고음의
흡음율이 달라진다. ( Barry Truax, 1999)
SSM STAGE SOUND MAGAZINE 5 6
CONTENTS
1.3 두 스피커 사이의 가상(phantom) 이미지 형성 원리
앞서인체는두귀에들어오는소리의시간차이와 음량차이로음원의수평방향을인지할수있다는 것을 살펴봤다. 1963년 프란센 (Franssen)은 두 스피커 사이의 시간차와 음량차에 따른 가상 (phantom) 이미지 형성 메커니즘을 규명 하였다. [그림 6]을 보면 X축은 두 스피커의 시간차, Y축은 음량차를 나타내며, 두 축의 교차점에서 팬텀 이미지가 형성된다. 이 데이터는 음성과 같은 광대역 신호에서 스테레오 신호의 음상을 표현하는 데 활용된다. 현재의 스테레오 마이킹 기법은 대부분 이 데이터를 기반으로 한다.
1.3.1 스테레오 시스템의 음량차, 시간차에 따른 음상 이동
LR 스테레오 시스템 중앙에서 같은 레벨로 소리를듣게되면두스피커중앙에서가상이미지 (phantom center)가 형성된다는 것을 알 수 있다. 한쪽 스피커의 볼륨을 올리면 볼륨이 커지는 스피커 쪽으로 이미지가 움직이며, 10dB 이상의 음량 차이가 발생하면 반대편 스피커에서는 소리가 나지 않는 것처럼 느끼게 된다. 한쪽 스피커에 딜레이를 걸게 되면 딜레이가 걸리지 않는 스피커 쪽으로 음상이 이동하는데, 음량이 같을 때 3ms 이내의 시간차 안에서 정위감이 형성된다. 한 쪽 스피커에서 3ms 이상 빠르게 소리가 들어오면 반대쪽 스피커에서는 소리가 재생되지 않는 것처럼 느끼게 된다. 예를 들어 오른쪽 채널의 소리가 1ms 빠르고 5dB 크다면 [그림 5]의 ┼ 지점에 음상이 정위된다.
[그림 5] 스테레오 시스템에서 좌우 스피커의 음량, 시간 차이에 따른 가상 음원의 형성 위치 ( John Eargle, 2005)
1.3.2 스테레오 시스템의 스윗 스팟 한계
반사음이 없는 야외 공연장에서 LR 메인 스피커에 모노 음원을 재생하고 객석 중앙에서 소리를 들어보면 무대 쪽에서 음상이 정위된다. 하지만 한두 걸음 옆으로 옮기면 이동한 쪽 스피커 방향 쪽으로 정위감이 이동한다는 것을 경험할 수 있다. 스테레오 시스템에서 정위감을 느낄 수 있는 스윗 스팟을 유지하기 위해서는 청취 지점에서 두 스피커의 음량 차이는 10dB 이내, 시간 차이는 3ms보다 짧아야 한다는 것이다. 이것은 스테레오 스피커 시스템을 적용한 현장에서 팬텀 이미지에 의한 정위감, 공간감을 느낄 수 있는 스윗 스팟 구역이 대단히 협소하다는 것을 나타낸다. 이러한 정위감 문제를 보완하기 위해 영화관이나 뮤지컬 공연장에서는 센터 스피커를 추가한 LCR 시스템 을 적용한다. 최근에는 스윗 스팟의 범위를 넓히고 가상 음원의 방향감과 공간감을 높이기 위해 이머시브 렌더링 엔진을 이용한 다채널의 스피커 시스템을 적용하고 있다.
57 SSM|이머시브라이브시스템패닝알고리즘
[그림 6] 스테레오 시스템은 정위감과 공감감을 느낄 수 있는 스윗 스팟의 범위가 좁다. WFS는 실제 음장을 구현하여
어느 위치에서도 소리의 정위감을 느낄 수 있다.
2. 3D 입체음향 구현 방법
입체음향 구현을 위해서는 가상 음원의 위치와 공간감을 실제와 유사하게 표현해야 한다. 가상 음원의 위치와 공간감을 표현하는 방법은 마이크로 현장음을 녹음하는 방법과 공간 데이터에 음원을 렌더링하는 방법이 있다. 3D 오디오의 제작과 전송, 재생 방식에는 채널 기반, 객채 기반, 장면 기반 오디오로 나눌 수 있다.
2.1 바이노럴 오디오
앞서보았듯이사람은두귀를통하여3차원공간의 소리를인지한다.이러한특성을두귀또는 바이노럴 효과(binaural effect)라고 한다. 바이 노럴 효과에 영향을 미치는 특성을 음원에 적용 하면 헤드폰이나 이어폰 같은 2채널 출력만으로도 입체음향을 재현할 수 있다. 이러한 오디오 재생 방법을 바이노럴 오디오(binaural audio)라고 한다.
SSM STAGE SOUND MAGAZINE 2022 - Quarter II Vol. 02
2.1.1 머리 전달 함수(Head-Related Transfer Function, HRTF)
인체는 소리의 방향에 따른 미세한 변화를 감지하여 방향을 인지하는데, 이런 변화를 일으키 는 특성을 측정하여 전달함수 형태로 나타낸 것을 머리전달함수(Head-Related Transfer Function, HRTF)라고 한다. HRTF는 무향실에서 인체의 머리 형상에 소형 무지향 마이크를 삽입한 더미 헤드를 이용하여 전방위의 소리를 측정하여 만든 다. 이렇게 만든 HRTF 데이터를 이용하면 특정 음원을 3차원 공간상에 정위시켜 입체음향 콘텐 츠를 제작할 수 있다.
[그림 7] HRTF는 무향실에서 더미헤드를 이용하여 전방위의 소리를 측정하여 데이터베이스화 한다. (https:// www.princeton.edu/3D3A/HRTFMeasurements.html)
2.1.2 바이노럴 레코딩
사람의 상반신 모양의 더미 헤드(dummy head) 마이크로 현장음을 직접 녹음을 하면 더미 헤드의 귓바퀴 부분에 설치한 마이크를 통해 바이노럴 음원을 제작할 수 있다. 이러한 음원 제작방식을 바이노럴 레코딩이라고 하는데 별도의 신호처리 과정 없이 음원만을 이용하여 정확한 입체감을 느낄 수 있다. 유튜브에서 바로 옆에서 속삭이는
SSM STAGE SOUND MAGAZINE 5 8
CONTENTS
듯한 ASMR 음원을 제작할 때 이러한 바이노럴 레코딩 방식을 사용한다. 하지만 더미 헤드와 개개인의 신체적 특성이 달라서 동일한 공간감을 느끼지 못할 수 있다.
2.1.3 바이노럴 렌더링(binaural rendering)
개별 오디오 신호를 HRTF 데이터베이스로 필터링하여 방향감, 공간감을 반영해주는 일련의 신호처리 과정을 바이노럴 렌더링(binaural rendering)이라고 한다. 비디오 게임을 예로 들면, 하나의 총소리 음원은 HRTF 데이터를 이용해서 사용자를 중심으로 모든 방향에 가상 음원을 위치시킬 수가 있다. HRTF는 3D 사운드의 공간화 기술의 핵심 요소이다. 하지만 사람마다 양 귀 사이의 거리, 머리의 크기, 귓바퀴의 모양 등이 달라서 다른 사람의 머리전달함수를 사용하여 합성한 신호를 들었을 경우 음원이 의도한 위치에 정위되지 않을 수도 있다.
[그림 8] 바이노럴 레코딩, 바이노럴 렌더링
2.2 채널, 객체, 장면 기반 오디오
공간상에 음원의 위치는 방향과 거리로 표현할 수 있다. 음원과 그것의 위치를 저장, 전송, 재생하는 방법에 따라 채널, 객체, 장면 기반 오디오로분류할수있다.채널기반오디오와객체 기반오디오의가장큰차이점은음원이특정 채널에 고정되느냐 공간상의 특정한 지점에 위치하느냐이다.
2.2.1 채널 기반 오디오(Channel based audio)
채널 기반 오디오는 각각의 채널에 대해서 사전에 정의한 스피커 위치에 채널별로 일대일 녹음하여 재생하는 방식이다. 모노, 스테레오, 멀티채널(5.1, 7.1, ...) 등은 전통적인 채널 기반의 오디오 전송/재생 방식이다. 채널 기반으로 믹싱한 사운드 트랙은 각 채널에서 재생하는 소리가 정해져 있고 각각의 채널은 별도의 오디오 렌더링 없이 사전에 정의한 스피커 채널로 일대일 맵핑하여 출력한다. 즉5.1채널의L,C,R,Ls,Rs,LFE신호는그대로 5.1 채널 L, C, R, Ls, Rs, LFE 스피커로 재생된다. 그래서 콘텐츠 제작 단계에서부터 청취자의 청취 환경(헤드폰, 스테레오 스피커, 멀티 채널)에 맞게 채널 구성을 결정해야 한다. 만약 청취자가 사전 정의된 스피커 위치와 공간의 크기가 다른 곳에서 청취하게 되면 제작자가 의도한 음상이나 공간감이 왜곡되어 전달될 수 있다. 또한, 각 채널의 소리가 고정돼 있어서 AR/VR에서 요구하는 상호작용을 재현하는 데 한계가 있다.
59 SSM|이머시브라이브시스템패닝알고리즘
2.2.2 객체 기반 오디오(object based audio), 메타데이터(metadata)
객체 기반 오디오는 사물의 소리를 음원 객체로 정의하고, 사물의 움직임에 따른 소리의 변화를 메타데이터(방향, 거리)로 저장한다. 이렇게 음원 객체와 메타데이터로 인코딩한 신호는 영화관 같은 곳에서 다시 디코딩하고 스피커 구성에 맞게 렌더링해 제작자가 의도한 소리의 위치와 공간을 재현한다. 객체 기반 오디오는 독립된 음원 객체와 음원의 위치 정보만 있어서 재생하는 스피커 구성이나 채널 수에 제약을 받지 않는다. 스테레오 에서 360°입체음향까지 청취자의 청취 환경이 달라져도 제작자가 의도한 사운드 구현이 가능 하다. 앞에서 설명한 돌비 애트모스가 가장 대표 적인 객체 기반 오디오 렌더링 포맷이다. 돌비 애트모스의 경우 10개의 채널 기반 배드 트랙과 118개의 객체 기반 믹싱이 가능하다. 재생 공간에 구성할 수 있는 스피커 채널 수도 64개에 달한다.
[그림 9] 채널, 객체, 장면 기반 오디오
2.2.3 장면(scene) 기반 오디오
장면 기반 오디오는 음향 공간상의 특정 위치에서 정의된 모든 방향의 오디오를 포함하는 신호이며, 앰비소닉(ambisonic) 오디오라고 한다. 피델펠트 (peter Fellget)와 마이클 게존(Michael Gerzon)이 1970년대 초에 개발한 앰비소닉스 (ambisonics)는 마이크를 이용한 음장 녹음 기술이지만 최근에는 공간의 음장을 완전한 구(sphere) 형태로 녹음,
SSM STAGE SOUND MAGAZINE 2022 - Quarter II Vol. 02
재생, 전송하는 기술로 주목을 받고 있다. 음향 공간의 특성을 그대로 반영하기 때문에 장면 기반 오디오(scene-base audio) 라고 한다. 채널포맷과달리신호자체가특정스피커 채널로 고정돼있지 않기 때문에 앰비소닉으로 인코딩한 신호를 재생하려면 가상의 채널 신호로 변환하는 디코딩 과정이 필요하다. 하지만 변환 과정만 거치면 스테레오, 5.1, 7.1.2 등다양한입체음향포맷으로재생할수있다. [그림 10]은 앰비소닉 신호를 가상의 스피커 레이아웃 신호로 디코딩 하고 해당 스피커를 다시 바이노럴 신호로 렌더링하여 재생하는 단계를 나타낸다. 또한, 앰비소닉 포맷은 차수가 올라갈수록 공간 해상도가 높아진다. 1차 앰비소닉스는 FOA (first order ambisonics) 라고 하며 4개의 단일 지향성 마이크를 4개의 방향으로 배치한 A-Format과 1개의 무지향성 마이크와 3개의 양지향성 마이크를 X, Y, Z축 으로 배열한 B-format이 있다. 유튜브 360 영상에는 1차 A-Format이, 페이스북 360 영상에는 2차 A-Format을 사용한다.
[그림 10] 앰비소닉 신호를 가상의 스피커 레이아웃 신호로 디코딩하고 해당 스피커를 다시 바이노럴 신호로
렌더링한다. (Gaudio Lab, Inc., 2018)
SSM STAGE SOUND MAGAZINE
6 0
CONTENTS
3. 실감 음향(Immersive Sound) 패닝 알고리즘
3D 게임이나 VR 기술의 핵심은 시각과 청각을 이용하여 몰입감과 사실감을 전달하는 것이다. 음향에서도 청취자가 현실과 유사한 경험을 할 수 있도록 소리의 방향과 거리, 공간감과 움직임을 사실감있게표현할수있어야한다.입체음향기술 중에 실제 소리가 발생하는 장소에서 듣는 것과 유사한 청감을 재현하는 기술을 실감 음향(immer- sive sound) 기술이라고 한다.
실감 음향을 구현하는 방법은 크게 헤드폰을 이용하거나 다수의 스피커를 이용하는 방법이 있다. 최근에는 사운드바(sound bar)라고 하는 스피커 시스템을 이용하여 간편하게 입체 음향을 감상할 수 있다. 사운드바는 사용자 주위에 다수의 스피커를 배치해 실제 서라운드를 구현하는 홈씨어터와 달리, 사용자 전면에 배치한 스피커 만으로 가상 서라운드를 구현한다. 천장의 반사음 을 이용하여 돌비 애트모스까지 구현하는 제품도 다수 출시되었다. 헤드폰을 이용하는 방법은 앞서 바이노럴 오디오에서 설명하였듯이 더미 헤드 마이크를 이용하여 바이노럴 음원을 녹음하고 재생하는 방법과 머리전달함수를 이용하여 바이노럴 음원을 제작하는 방법이 있다.
다중이 모이는 공간에서는 다수의 스피커를 이용하여 실감 음향을 구현하는데, 스피커에 인가 하는 신호의 크기나 시차를 이용하여 소리의 방향 성과 공간감을 표현한다. 이러한 기술을 패닝이라 고 한다. 신호의 크기를 이용하는 대표적인 패닝 방법은 벡터 기반 방식(VBAP, vector based amplitude panning)과 앰비소닉이 있고, 시간차를
이용하는 패닝 방법은 WFS(wave field systhesis) 가 있다.
3.1 진폭 패닝(Amplitude Panning), 소리의 크기를 이용
진폭 패닝은 가장 일반적으로 사용하는 패닝 기술이다. 진폭 패닝은 스피커에 전달되는 음향 신호의 크기를 제어해서 스피커 사이에 가상의 음원을 위치시키는 원리이다. 스테레오, 2D, 3D 스피커 배치에서 진폭 패닝이 작동하는 원리를 살펴보자.
3.1.1 스테레오(pair-wise amplitude panning) 패닝
스테레오 스피커 시스템 구성은 가장 보편적인 청취 방식이다. 스테레오 청취 시스템에서 청취자 앞에 배치한 두 개의 스피커는 60°각도를 이룬다. 여기에서 θs는 가상 음원의 수평 방향이다. 여기에서추정된방향을패닝방향또는패닝 각도라고 한다. 두 스피커의 출력(gain factor)을 조절하여 패닝 방향을 결정하는 다양한 패닝 법칙(panning law)이 있다. 진폭 패닝은 스피커
[그림 11] 스테레오 시스템에서 좌우 스피커 각도와 스피커의 출력을 입력하면 가상 음원의 방향을 알 수 있다.
(Ville Pulkki, 2001)
61 SSM|이머시브라이브시스템패닝알고리즘
신호의 출력 크기(g1, g2)를 조절하여 원하는 방향(θs)에 가상의 음원을 위치시킨다. 두 스피커의 출력이 같으면 음상은 두 스피커 사이에 형성된다. 이것을 팬텀 센터라고 부른다.
가상 음원의 위치는 아래 식으로 구할 수 있다. 중심에서 좌우 스피커 각도와 스피커의 출력을 입력하면 가상 음원의 각도가 구해진다.
3.1.2 스테레오 시스템의 다양한 패닝 방법
음향 콘솔에서 좌우 스피커의 음상을 조정하기 위해 팬 포트를 사용한다. 팬 포트는 일반적으로 LR 스피커 출력의 합이 일정하게 유지되는 –3dB 패닝 법칙(constant power)을 사용한다. 앞서 보았듯이 우리가 소리의 방향과 거리를 인지하는 데는 단순한 레벨 차이만이 아니라 시간(위상), 음색, 움직이는 빠르기가 복합적으로 작용한다. [그림 12]는 Goodhertz의 Panpot라는 플러그인 의 모습이다. 레벨 패닝 이외에 Delay, Spectral, Phase를 이용하면 소리의 정위감 표현이 가능하며, 색다른 스테레오 이미지를 만들어 낼 수 있다.
SSM STAGE SOUND MAGAZINE 2022 - Quarter II Vol. 02
[그림 13] Level, Delay, Spectral, Phase를 이용한 패닝 방법
⦁
레벨(진폭) 패닝 레벨 패닝은 좌우 스피커 볼륨의 차이를 이용하는데 팬포트의 위치가 센터에 있을 때 좌우 출력이 3dB 감소하는 팬 법칙을 주로 사용한다. DAW나 오디오 콘솔에서 팬 법칙은 2.5dB, -3dB, -4.5dB, -6dB를 설정할 수 있다. -3dB 팬 법칙(Pan Law)은 스테레오 시스템에서 한쪽 스피커만 재생했을 때의 출력과 좌우 출력이 같은 센터에 있을 때의 출력이 같다. -6dB의 경우에는 모노 신호를 스테레오로 출력할 때 좌우로 패닝 된 L,R 신호의 크기와 모노로 합성된 신호의 크기가 같아진다.
[그림 12] 스테레오 시스템의 다양한 패닝 방법, 레벨 패닝 이외에 Delay, Spectral, Phase를 이용하면 색다른 스테레오
이미지를 만들 수 있다.
⦁ Delay 스테레오시스템에서한쪽스피커에미세한딜레이를 적용하면 출력 레벨을 바꾸지 않고도 반대편 스피커 쪽으로 음상이 이동한다.지연시간은약1ms일때최대효과가나타난다.지연 시간 효과는 앞서 살펴본 것처럼 인체가 좌우 귀에 도달하는 소리의 시간 차이에 의해서 저주파수의 수평 방향성을 인지하기 때문이다. 시간 지연을 이용하면 고주파수에서는 효과가 크지 않지만, 저주파수에서는 패닝 효과를 만들어 낼 수 있다.
⦁ Spectral 머리의 배플 역할로 인한 그림자 효과를 모방한 것으로 패닝 방향의 고역 대역을 강조하여 정위감을 표현한다. 이것 또한 인체의 청각 특성을 이용한 것이다. 고주파수에서는 좌우 귀에 도달하는 소리의 세기 차이로 방향을 인지하는 인체의 청각 특성을 이용하였다. [그림 14]에서 보듯이 고음으로 갈수록 감쇠 폭이 더 크게 적용된다.
⦁ Phase 가장일반적이지않은패닝방법이다.스피커의레벨변화 없이 왼쪽과 오른쪽 채널 사이에 위상을 변화시키면 음상이 중심 밖으로 펼쳐지고 넓은 음장감을 표현할 수 있다.
SSM STAGE SOUND MAGAZINE 6 2
CONTENTS
3.1.3 스윗 스팟의 범위를 넓힌 LCR 패닝
스테레오 시스템의 경우 팬텀 이미지를 이용한 공간감,정위감을느낄수있는스윗스팟의범위가 매우 좁다. 이러한 문제를 해결하기 위하여 영화관 이나 뮤지컬 공연장에는 LCR 시스템을 적용한다. 조금 규모가 있는 아날로그 콘솔이나 디지털 콘솔에는LCR패닝을적용할수있는팬포트 기능이 있다. LCR 패닝을 적용할 때는 Center Divergence의 기능을 이해할 필요가 있다. 이것은 모노채널의팬이센터에있을때L/R출력과센터 채널 출력의 비율을 나타낸다. Center Divergence 가0%일때는센터채널로출력이되지않으며 L/R은 일반적인 스테레오 패닝과 같이 동작한다. 100%일때는팬이센터에있을때센터출력으로 100% 전송되고 L/R 출력으로는 전송이 안 된다. LCR 패닝을 사용할 때 Divergence을 조정하면 채널별로다양한정위감을연출할수있다.배우의 대사의 경우 100%를 적용해서 중앙에 음상이 형성되게 하고 악기의 경우 0%를 적용해 좌우로 벌려진 스테레오 음장을 표현할 수 있다. LCR 패닝의 핵심은 전면에 3개의 스피커를 이용하여
[그림 14] LCR 시스템에서 Divergence에 따라 센터 채널의 출력 레벨에 차이가 있다. ( https://www.presonus.com/
learn/technical-articles/Lcr-Mixing)
정위감이 형성되는 스윗 스팟의 범위를 확대할 수 있다는 것이다. 이후에 설명하는 패닝 법칙에서 Spread 기능이 LCR 패닝의 Divergence와 유사하다.
3.1.4 2D 서라운드 스피커 패닝(pair-wise amplitude panning)
2D 서라운드 구성에서 스피커는 청취자와 수평인 평면상에 배치한다. 극장이나 가정용 서라운드 스피커 시스템은 5.1이나 7.1 포맷이 대표적이다. 5.1 포맷은 3개의 전면 스피커에 2개의 서라운드 그리고 저음의 효과를 내기 위한 1개의 서브우퍼 채널로 구성한다. 7.1 시스템은 5.1 시스템에 측면 서라운드 채널을 추가한 구성이다.
서라운드 스피커 시스템 패닝은 스테레오 패닝 방법과 다르지 않다. 서라운드 시스템은 전면 뿐만이 아니라 옆과 뒤쪽에 스피커를 추가하여 사방에서소리를재생할수있어서더욱높은 현장감을 전달할 수 있다. 2D 스피커 구성에도 pair-wise amplitude panning 기법을 적용하여 두 스피커 사이에 가상의 음상을 위치시킨다. 이 방법은 평면상의 두 스피커를 이용하기 때문에 가상의 음상이 한 개의 스피커 또는 두 스피커 사이에 형성한다. 가상의 음원과 스피커의 위치가 같으면 음상이 또렷하게 형성되지만 두 스피커 사이에 가상 음원이 위치하는 경우 음상이 흐릿해진다. 이렇게 가상 음원이 정위되는 위치에 따라 음상의 해상도가 달라지는 단점이 있다.
63 SSM|이머시브라이브시스템패닝알고리즘
[그림 15] 5.1 Surround Pan Law, 인접한 두 개의 스피커는 스테레오 패닝을 적용한다.
3.1.5 3D 스피커 구성에서의 패닝(triple-wise amplitude panning)
3D 스피커 구성에서는 청취자와 같은 평면상에 스피커를 구성하고, 고저감을 주기 위해 높이 스피커를 추가로 배치한다. 3D 스피커 구성에서는 가상의 음상을 위치시키기 위해 최대 3개의 스피커가 사용된다. 3개 스피커의 출력을 제어하기 위해 triplet-wise 패닝 기법을 사용한다. 다채널 3D 스피커 구성에서 스피커의 배치 구조는 삼각형 격자들로 구분할 수 있으며 가상 음원은 삼각형 격자 중 하나에 형성된다.
스테레오나 서라운드 시스템은 스피커가 청취자 귀 높이에 평면으로 배치하기 때문에 2차원 평면 음장을 구현한다. 2차원 음장으로는 우리가 일상에서 느끼는 소리의 높낮이나 공간감을 제대로 재현하기 어렵다. 소리의 높낮이를 표현하기 위해서는 평면으로 배치한 스피커 레이아웃에 높이를표현할수있는스피커를위나아래에추가 배치해야 한다. 이것을 hight 채널이라고 한다. 10여 년 전부터 영화관이나 홈시어터에서는 입체적인 공간음향 구현을 위해 Auro-3D, Dolby
SSM STAGE SOUND MAGAZINE 2022 - Quarter II Vol. 02
Atmos, DTS:X 등의 높이 채널이 추가된 3D 서라운드 포맷을 사용한다. 최근 들어서는 입체음향 구현을 위해 극장 영화나 OTT 드라마 뿐만이 아니라 음악에서도 돌비 애트모스 (Dolby Atmos) 포맷을 표준화하는 추세이다. 돌비 애트모스는 돌비 연구소가 개발한 객체기반 3D 서라운드 기술로 2012년 영화 ‘메리다와 마법의 숲’에서 처음 선보였다. 홈시어터나 스튜디오 믹싱 룸의 돌비 애트모스 채널 구성은 기존의 5.1, 7.1 서라운드 시스템에 2개 또는 4개의 천장 스피커를 추가하는 형태이다.
[그림 16] 3D 스피커 구성에서는 가상의 음상을 위치시키기 위해 최대 3개의 스피커를 사용한다. (triple-wise amplitude panning)
(Ville Pulkki, 2001)
3.2 Ambisonics(앰비소닉스)
앰비소닉스는 마이크로폰을 이용한 음장 녹음 기술이지만 최근 패닝 기법을 이용하는 음장 재현 기술 가운데 하나로 주목을 받고 있다. 기본적인 원리는 스피커를 대칭 구조로 청취자를 360°감싸도록 배치하고, 진폭 패닝(amplitude panning) 기법을 적용하여 음상을 위치시키는 방법이다. 이때 인접한 스피커 사이의 거리가 같아야 하며 모든 스피커 이득의 합은 1이다.
SSM STAGE SOUND MAGAZINE 6 4
CONTENTS
VBAP와다른점은가상음원을만들어내기위해 전체 스피커에서 소리를 재생한다는 것이다. 이 때문에 정해진 한 지점의 스윗 스팟에서는 매우 정확한 패닝 성능을 보이지만 스윗 스팟을 벗어난 영역에서는 음상이 정확하지 않다는 단점이 있다. 이러한 단점을 극복하기 위해 다수의 스피커를 이용하여 고차 앰비소닉 기술을 적용한다.
[그림 17] 앰비소닉스는 전체 스피커에서 소리를 재생하여 가상 음원을 만든다. (https://www.pathpartnertech.com/
introduction-ambisonics-360-degree-audio/)
3.3 시간, 진폭 패닝(Time, amplitude panning)
시간-진폭 패닝은 가상 음원을 위치시키기 위해 시간 지연과 출력의 변화를 동시에 적용한다. 청취 공간은 더 큰 가상의 공간 안에 있는 것으로 생각하고 스피커는 가상 공간의 열린 창으로 간주하는 방법으로 F. Richard Moore(1983)가 제안하였다.
가상 음원의 위치가 정해지면 가상 음원과 스피커 사이의 거리만큼 시간 지연과 레벨 변화를 계산하여 각 스피커 신호에 적용한다. 지연 시간과 진폭의 변화는 가상 음원과 스피커 사이의 거리에 따른 음파의 이동 시간과 거리 감쇠에 따른 진폭 변화를 기반으로 계산한다. d&b Soundscape에
적용하는 패닝 알고리즘이다.
시간-진폭 패닝은 스윗 스팟의 범위가 넓다는
장점이 있다. 하지만 이 방법을 적용하기 위해서는 스피커의 수가 많아야 하고, 가상 음원이 스피커 에서너무멀리있지않아야한다.또한,선행음 효과로 인해서 청취자가 스윗 스팟 외부에 있는 경우 청취자에게 가장 가까운 스피커 쪽으로 가상 음원이 형성될 수 있다. 움직임이 빠른 객체에 적용하기에는 지연 시간 변화가 연속적으로 발생 하기 때문에 적합하지 않을 수 있다.
3.4 딜레이 기반의 패닝 기법(WFS, wave field synthesys)
WFS는 파동이 퍼져나갈 때 파면(wave front) 상의 모든 점들은 새로운 점파원이 되고, 각 점파원의 공통 접선이 새로운 파면을 형성한다는 호이겐스(Huygens) 원리에 기반을 두고 있다. 파면상에 존재하는 점(점음원, point source)을 스피커로 대체해보면 실제 음원에 의해 생성된 파면과거의같은인공파면을생성할수있다. WFS를 구현하기 위해서는 스피커 사이의 거리를 매우 짧게(최대 10~15cm) 선형으로 배열하고,
[그림 18] 시간-진폭 패닝은 가상 음원과 스피커 사이의 거리만큼 시간 지연과 레벨 변화를 계산하여 각 스피커
신호에 적용한다.
65 SSM|이머시브라이브시스템패닝알고리즘
개별 스피커마다 시간 차이를 두고 음원을 재생하면 된다. 가상 음원의 음상은 가장 먼저 재생하는 스피커 뒤쪽에 형성되고 시간 차이가 작을수록 음원의 위치는 스피커에서 멀어진다. 시간 차이를 일정하게 증가하면 가상 음원의 거리는 무한대가 되고 평면파가 된다. 그뿐만 아니라 스피커 어레이 앞쪽에 음상을 형성하는 것도 가능하다.
WFS는 스피커 사이에 가상의 음원을 형성하는 기법이 아니라 실제 파면을 형성하기 때문에 스윗 스팟의 범위가 매우 넓다. 하지만 무한하고 연속적인 파면을 유한하고 불연속적인 스피커로 재생하기 때문에 왜곡이 발생한다. 이런 문제를 최소화하기 위해서는 각 스피커에서 재생하는 음파의 파장보다 스피커 간의 간격이 짧아야 한다. 이러한 이유로 높은 주파수까지 가상의 음원을 정확하게 구현하기에는 현실적인 어려움이 있다. 또한, WFS를 구현하기 위해서는 다량의 스피커가 필요하고 공간의 잔향이 적어야 하므로 기술적인 문제뿐만이 아니라 경제적인 어려움도 있다.
SSM STAGE SOUND MAGAZINE 2022 - Quarter II Vol. 02
4. Spat Revolution의 다양한 패닝 알고리즘
라이브 공연이나 전시, 이벤트 현장에서 더욱더 실감 나는 사운드를 구현하기 위해 이머시브 사운드(immersive sound)에 대한 관심이 높다. 이머시브 사운드 구현을 위해서는 필수적으로 가상 음원의 위치와 공간감을 구현하는 렌더링 엔진과 소프트웨어에 대한 이해가 필요하다. 가상 음원의 방향과 거리를 표현하기 위한 렌더링 엔진에서는 다양한 패닝 알고리즘을 적용한다. 이머시브 사운드 시스템 중에 L-Acoustics의 L-ISA, Meyer Sound의 Spacemap GO는 진폭 패닝 기법을, d&b audiotechnik의 DS100은 시간과 진폭을 함께 이용하는 패닝 기법을, Astro Sparial Audio의 SARA II는 WFS 방식을 이용한다고 알려져 있다. 별도의 하드웨어 없이 소프트웨어 만으로 오브젝트 기반의 이머시브 사운드를 렌더링할 수 있는 프랑스 Flux사의 Spat Revolution은 진폭, 시간, WFS 등 다양한 패닝 알고리즘을 지원한다. 이머시브 사운드를 효과적으로 구현하기 위해서는 패닝 알고리즘 각각의 특성과 장단점을 정확히 이해할 필요가 있다. Spat Revolution에 적용 가능한 다양한 패닝 알고리즘의 특성을 살펴보자.
[그림 19] WFS는 호이겐스 이론을 바탕으로 스피커를 선형으로 배열하여 파면을 인공적으로 합성하는 기술이다. (서정일, 2011)
SSM STAGE SOUND MAGAZINE 6 6
CONTENTS
4.1 Stereo Pan
스테레오 시스템의 가장 기본이 되는 패닝 법칙으로 음향 콘솔의 팬 포트의 동작과 같다. 좌/우 스피커의 레벨 차이를 이용해서 두 스피커 사이에 가상 음원을 위치시킨다. 기본적으로 팬 포트가중앙에있을때개별스피커의출력은3dB 줄어든다. 감쇠량은 –2.5, -3, -4.5, -6dB 등이 있다.
4.2 XY, AB
XY와 AB는 스테레오 시스템에서 적용하며, 스테레오 이미지를 렌더링하기 위해 널리 사용하는 듀얼 마이크 기술에서 파생된 패닝 법칙이다. XY는 단일지향성 마이크를 90도 각도로 근접 배치한 XY 스테레오 녹음 기법을 시뮬레이션 한 것이다. AB는 ORTF 기법을 시뮬레이션한 것으로 단일지향성 마이크를 110도 각도로 17cm 거리를 두고 캡슐을 배치한다.
[그림 21] Spat Revolution에서 적용 가능한 다양한 패닝 타입
4.3 Vector Based Amplitude Panning(VBAP)
벡터 기반 진폭 패닝(VBAP, Vector Base Amplitude Panning)은 진폭 패닝을 사용하여 청취자 주위에 가상 음원을 배치하는 3차원 벡터 기반의 패닝 방법으로 1997년 Ville Pulkki가 제안하였다. VBAP는 앞서 설명한 pair-wise나 triplet-wise amplitude panning에서 벡터를 이용하여 스피커에 부가하는 게인(출력) 값을 계산하는 방법이다.
67 SSM|이머시브라이브시스템패닝알고리즘
[그림 20] Spat Revolution의 7.1.4 돌비 애트모스 스피커 구성
VBAP는 스피커의 숫자에 상관없이 2차원 또는 3차원 음장을 생성할 수 있으며 구현이 쉽다는 장점이 있다. 또한, 가상의 음원은 움직이거나 정지할 수 있으며, 스피커에 둘러싸여 있는 음장의 모든 방향으로 배치할 수 있다. 단점으로는 스피커와 음원 방향이 일치하면 하나의 스피커에서 음상이 또렷하게 형성되지만, 음원이 스피커 사이에 놓이게 되면 가상 (phantom) 음원이 형성되어 음상이 흐려지는 문제가 있다.
VBAP는 적용에 있어서 몇 가지 기준이 있다. 스피커는 청취자로부터 거의 같은 거리(스윗 스팟이 매우 작다)에 있어야 한다. 스피커가 수평으로 배치될 경우 스피커는 청취자의 귀와 동일한 평면에 있어야 한다. 또한, 공간의 잔향은 크지 않아야 한다.
SSM STAGE SOUND MAGAZINE 2022 - Quarter II Vol. 02
세기 차이로 인지한다. VBIP는 700Hz 이상의 고주파수를 정위 시킬 때 VBAP를 개선하도록 설계됐다. VBAP와 같은 특징을 보이지만 고주파수의 방향성을 더욱더 선명하게 표현할 수 있다.
4.5 Dual Band Vector Based Panning(VBP Dual-Band)
듀얼 밴드 벡터 기반 패닝(Dual Band Vector Based Panning)은 VBAP와 VBIP를 결합한 하이브리드 방식이다. 진폭(amplitude) 패닝을 사용하면 저주파의 위치 파악이 좋고, 강도 (Intensity) Panning을 사용하면 고주파수의 위치 파악이더좋다.이패닝은두유형의장점을 결합하여 정위감을 더욱더 높이고자 하였다. 진폭 패닝은 크로스오버 주파수 아래에 적용되고 강도 패닝은 위에 적용된다. 크로스오버 주파수는 기본적으로 700Hz로 설정되어 있다. 이 패닝 방법도 VBAP와 동일한 기준을 적용받는다.
4.6 Layer Based Amplitude Panning(LBAP)
레이어 기반 진폭 패닝(LBAP)은 가상 음원을 둘러싼 위아래 두 개의 레이어를 사용하여 진폭 패닝(VBAP)을 수행한다. 3D 스피커 설정에서는 스피커를 높이에 따라 여러 레이어로 나뉜다. 스피커가 여러 층(layer)으로 구성돼 있을 때 같은 레이어의 패닝에는 VBAP가 적용되고, 위 아래 레이어 사이에는 레벨 가중치(크로스 페이드)가 적용된다. VBAP 3D와 LBAP의 차이점은 가상 음원을 구현하기 위해 활성화되는 스피커의 수이다. VBAP는 3개, LBAP는 4개의 스피커를 사용한다.
[그림 22] 3차원 벡터 기반 진폭 패닝(VBAP)에서는 가상 음원(P) 주위 삼각형을 이루는 3개의 스피커의 벡터값을
적용해서 개별 스피커의 진폭을 계산한다. (Ville Pulkki, 2001)
4.4 Vector Base Intensity Panning(VBIP)
벡터 기반 강도 패닝((VBIP, Vector Base Intensity Panning)은 인간의 청각 특성을 고려하여 VBAP를 변형한 것이다. 인체는 수평 방향의 소리를 700Hz 이하는 시간 차이로, 1.5kHz 이상은
SSM STAGE SOUND MAGAZINE 6 8
CONTENTS
4.7 Multiple Direction Amplitude Panning(MDAP)
VBAP는 다수의 스피커가 설치돼 있으면서도 실제로 2개나 3개의 스피커만을 사용하여 음원을 재생하기 때문에 가상 음원의 방향에 따라 음상의 해상도가 변하고 비효율적이라는 단점이 있다. 이를 해결하기 위해 Pulkki는 여러 스피커를 동시에 사용하는 MDAP(multiple-direction am- plitude panning) 패닝 방법을 제안하였다. 동시에 두개이상의가상음원벡터를생성하여하나의 가상 음원을 생성하는 MDAP 방법은 음상의 퍼짐 현상을 각도에 따라 균일하게 유지할 수 있다.
Spat Revolution에서는 MDAP 알고리즘이 따로 있지 않으며 패닝 설정 창에 Spread라고 하는 설정이 있다. Spread는 말 그대로 소리를 퍼지게 하는 기능인데, 숫자가 늘어나면 동시에 소리를 재생하는 숫자가 늘어나고 최소가 되면 pair- wise나 triple-wise처럼 소리를 재생하는 스피커가 최소가 된다. Spread를 높이게 되면 스윗 스팟의 범위가 넓어지고 가상 음원의 위치에 따른 해상도 변화를 줄일 수 있다.
[그림 23] 두 개의 패닝 방향을 이용하여 가상 음원의 음상을 넓게 한다. (Ville Pulkki, 1999)
[그림 24] Spat Revolution에서 Spread Factor의 설정에 따라 동시에 재생하는 스피커의 숫자와 크기가 달라진다.
4.8 Distance Base Amplitude Panning(DBAP)
거리 기반 진폭 패닝(DBAP, Distance Base Am- plitude Panning)은 스윗 스팟에 영향을 받지 않는 몇 가지 패닝 알고리즘 중 하나이다. DBAP는 청취자의 위치를 고려하지 않고 공간에 임의로 설치한 스피커의 실제 위치에 따라 신호 출력을 계산한다. 스피커 구성이나 스윗 스팟의 위치 설정에영향을받지않기때문에무대공연,전시, 이벤트 등 사전 정의된 스피커 레이아웃을 설정할 수 없는 여러 상황에서 유용하다.
DBAP는 가상 음원을 생성할 때 2개 또는 3개의 스피커만 이용하지 않고 모든 스피커를 활성화 한다. 개별 스피커의 출력 레벨은 청취자의 위치와 무관하게 가상 음원과 스피커 사이의 상대적인 거리에 따라 계산된다. 거리에 따른 감쇠량은 잔향이 없는 공간에서는 거리가 두 배가 되면 –6dB, 반사음이 발생하는 공간에서는 잔향의 정도에 따라 –3 ~ -5dB를 적용한다.
DBAP는 관객의 움직임이 있는 전시 이벤트나 무대 전면에 다수의 스피커를 일렬로 배열한 Frontal 방식에 적용하면 효과적이다.
69 SSM|이머시브라이브시스템패닝알고리즘
[그림 25] DBAP는 청취자의 위치와 무관하게 가상 음원과 개별 스피커의 상대적인 거리에 따라 출력 레벨을 계산한다.
4.9 K Nearest Neighbor (KNN)
KNN은스윗스팟을고려하지않는또다른패닝 방법이다. 최근접 이웃(Nearest Neighbor) 을 적용한 알고리즘으로 동시에 재생하는 최대 스피커 수를 사용자가 제한할 수 있다. 앞에서 설명한 Spreading 기능과 유사한데 ‘Nearest Neighbor Spreading’을 설정하여 각각의 음원마다 동시에 재생하는 스피커 수를 제한한다. 예를 들어, 10개의 스피커 배열에서 1-10%는 1개의 스피커를 사용 하고 11%에서 20%는 2개의 스피커를 사용한다. 만약 특정 음원이 100%로 설정되어 있다면 전체 스피커 시스템에 분산해서 출력된다. 음원마다 설정을 달리하면 소리의 방향감과 깊이감을 구분해서 표현할 수 있다.
[그림 26] KNN은 ‘Nearest Neighbor Spreading’을 설정하여 동시에 재생하는 스피커 수를 조절할 수 있다.
SSM STAGE SOUND MAGAZINE 2022 - Quarter II Vol. 02
4.10 Ambisonic Equivalent Panning (AEP)
앰비소닉 등가 패닝(AEP, Ambisonic Equiva- lent Panning)은 앰비소닉을 적용한 패닝 기법으 로, 가상의 음원을 위치 정보와 함께 완전한 구 형태의 하나의 장면으로 인코딩한다. 앰비소닉 마이크로 360°방향의 소리를 몇 개의 채널로 녹음하는 방법과 유사하다. 채널 기반 패닝과 다른 점은 출력하는 스피커 레이아웃이 정해지지 않는다는 것이다. 따라서, 스피커로 출력하기 위해서는 디코딩 과정이 필요하다. 이때 청취자의 청취 환경에 따라 스피커 레이아웃을 변경할 수 있다. 청취자의 환경에 따라 스테레오, 2D, 3D 등 다양한 스피커 구성에 대응할 수 있으며, 채널 기반과 다르게 시점이 고정돼 있지 않기 때문에 VR기기에서 영상의 시점에 따라 소리의 시점도 움직인다. 즉 정면에서 들리던 소리가 고개를 왼쪽으로 돌리면 오른쪽에서 들리게 된다. AEP는 게임이나 VR 영상처럼 360° 장면의 소리를 재현할 때 효과적인 패닝 방법이다.
[그림 27] 앰비소닉은 채널 기반과 다르게 시점이 고정돼 있지 않기 때문에 VR기기에서 영상의 시점에 따라 소리의
시점도 움직인다.
KNN(좌), VBAP(우)의 Spreading 설정
SSM STAGE SOUND MAGAZINE 7 0
CONTENTS
4.11 WFS(wave field synthesis)
음장 합성(WFS) 방식은 현재는 Spat Revol- ution에 포함되어 있지 않으나 조만간 업데이트될 예정이다. WFS는 지금까지 살펴본 소리의 크기를 이용하는 진폭 패닝과는 다르게 시간 차이를 이용하는 패닝 방법이다. 스피커 사이에 가상의 음원을 배치하는 것이 아니라 전체 스피커를 이용해실제음장을만들어내기때문에스윗 스팟의 범위가 매우 넓다는 장점이 있다. 하지만 앞서 살펴보았듯이 WFS를 구현하기 위해서는 스피커 간의 간격이 재생하려는 주파수 파장보다 작아야 하며, 스피커 어레이의 길이가 무한히 길어야만 하기에 현실적으로 적용하기 에는 어려움이 많다. 스피커 간격이 멀어지면 적용되는 주파수가 낮아져 고주파에서는 효과를 볼 수 없다는 점을 이해해야 한다. 하지만 스윗 스팟의 범위를 넓히고, 더욱 사실적인 음장을 구현하기 위한 실험적인 전시 공간에서는 충분히 활용할 수 있다.
[그림 28] 호이겐스 원리(Huyghens’ Principle를 이용한 WFS는 스피커 어레이를 이용해 실제 음장을 만들어 내기
때문에 스윗 스팟의 범위가 넓다.
지금까지 3D 입체음향 구현을 위한 패닝 알고 리즘에 대해 살펴보았다. 인체는 두 귀와 귓바퀴, 머리, 몸통 등의 신체적인 특징으로 인해 소리의 방향과 거리, 움직임을 인식한다. 이러한 바이노럴 효과를 이용하면 2채널 출력만으로도 입체음향 구현이 가능하다. 3D 오디오의 제작, 전송, 재생 방식으로는 채널, 객체, 장면 기반 오디오로 나눌 수있다.출력될채널이미리정해져있는채널기반 오디오와 다르게 객체 기반 오디오는 음원과 메타 데이터로 구성하고 있어서 스피커 구성과 관계없이 다양한형태로출력할수있다.장면기반오디오는 엠비소닉스라고 하는데, 엠비소닉 오디오는 360° 공간 전체의 음장을 포함하고 있어서 사용자와 상호작용이 필요한 게임이나 VR 영상에 활용된다.
다채널 스피커 시스템에서 가상 음원의 방향을 구현하는 방법으로는 신호의 크기를 이용하는 벡터 기반 진폭 패닝(VBAP)과 엠비소닉이 있고, 시간 차를 이용하는 패닝 방법은 WFS(wave field systhesis)가 있다. 이머시브 사운드를 효과적으로 구현하기 위해서는 패닝 알고리즘 각각의 특성과 장단점을 정확히 이해하고 렌더링 엔진의 특성과 현장 상황에 맞게 적용할 필요가 있겠다.
영화나 VR 영상에서 뿐만이 아니라 라이브
공연에서도 음원의 방향과 거리, 공간감을 더욱더
실감 나게 표현하기 위해 입체음향에 관한 관심과
요구가 높아지는 추세이다. 또한, 스마트폰의 대중
화와 다양한 음악 스트리밍 서비스의 발달로
인하여 스테레오 믹싱 뿐만이 아니라 입체음향
믹싱이 기본이 되는 시대가 도래할 것으로 예상
한다. 이러한 시대 변화에 대응하기 위해 관심을
71 SSM|이머시브라이브시스템패닝알고리즘
가질필요가있겠다. SOUND
STAGE
[참고 자료]
- 서정일, 이용주, 강경욱, 이석필, ‘멀티채널 사운드의 역사와 기술 개발 동향’, 방송공학회지 16권 4호, 2011.
- 서정훈, 정현주, 오현오, ‘VR/AR 오디오 기술 및 표준화 동향’, 한국통신학회지 (정보와통신), 2019.
- 김정훈,권기수,강태균,김남수,‘사용자맞춤형실감음향기술의현황과 전망’,한국방송·미디어공학회방송과미디어방송공학회지제19권제1호, 2014.
- 오현오, 이태규, 전세운 외 4명, ‘모바일 3D 사운드 : 바이노럴 오디오 기술 동향’, 한국방송·미디어공학회방송과 미디어방송공학회지 제19권 제1호, 2014.
- Ville Pulkki, ‘Spatial Sound Generation and Perception by Amplitude Panning Techniques,’ Ph.D Thesis, Helsinki University, 2001.
- Ville Pulkki, ‘Uniform spreading of amplitude panned vir- tual sources’, in Proceedings of the 1999 IEEE Work- shop on Applications of Signal Processing to Audio and Acoustics. Mohonk Mountain House, New Paltz, New York., 1999.
-T.Lossius,P.Baltazar,T.delaHogue,‘DBAP-Distance-BasedAmplitude Panning’, in International Computer Music Conference, 2009.
- M.A.Gerzon, ‘Panpot laws for multispeaker stereo’, in The 92nd Convention 1992 March 24-27 Vienna, Audio Engineering Society, Preprint No.3309, 1992.
- John Eargle, ‘The Microphone Book’, Focal Press, 2005.
- Marshall Long, Architectural Acoustics (Second Edition), Elsevier, 2014. - Barry Truax, ‘HANDBOOK FOR ACOUSTIC ECOLOGY’, 1999.
- https://developer.oculus.com/resources/audio-intro-localization/
- https://www.princeton.edu/3D3A/HRTFMeasurements.html
- https://doc.flux.audio/#/en_US/spat_revolution_doc/A_User_Guide
최찬규
- 다산에스알 음향연구소장 - (사)무대음향협회 기술위원 -AFMG공인강사
- 대림대학교 겸임교수
- (전)서경대학교 겸임교수
SSM STAGE SOUND MAGAZINE
7 2
SSM STAGE SOUND MAGAZINE 2022 - Quarter II Vol. 02
KLAUSYS | 클라우시스
서울특별시 마포구 토정로 37길 49, 3층
Tel : 82-2-540-7101 | Fax : 82-2-540-7102 | Email : [email protected] https://www.klausys.com/
CONTENTS
NEWS & PEOPLE
충청지부 소식지 10호 특집 기사
(사)무대음향협회 로고 디자이너 주영천(충청지부 지부장)감독 인터뷰
협회 로고 탄생의 비밀?!
취재, 사진 | 김지탁 (사)무대음향협회 충청지부 기술위원)
그동안 협회 활동을 하면서 협회 로고를 수없이 마주했었습니다.
하지만, 여기저기 알아보아도 협회 로고가 어떤 의미를 갖고 있는지, 언제 그리고 어떻게 만들어졌는지에 대해서는 잘 알려지지 않았습니다. 그런데 여러분! 사단법인 무대음향협회 로고를 충청지부 주영천 지부장이 디자인했다는 사실을 아시나요? 매우 자랑스러운 일이지요. SSM제작국과함께협회로고디자이너주영천감독을만나,그때그시간으로되돌아가기억을 떠올려보고자 합니다. 지금으로부터 약 19년 전 일입니다. 함께 가실까요?
Q. 우리 협회에서 지금 사용하고 있는 로고를 디자인 하셨다고 들었는데요. 협회 로고는 언제, 어떻게, 어떤 계기로 만들어졌나요?
A. 협회가 성장하면서 상징적인 로고가 필요한 시점이었어요. 오진수 회장이 있을 2004년도 즈음일 거예요. 지금 홈페이지 말고, 이전에 쓰던 협회홈페이지에한번올라왔었죠.안그래도내가 협회에 도움이 될 수 있는 것이 무엇일까? 생각을 하다가... 아! 이걸 해 보자 싶었는데, 한 8~9개월 걸렸어요. 왜냐, 문자를 형상화 시켜야 하느냐, 안 그러면 이미지를 형상화를 시켜야 하느냐 ... 그런데 보니까 메이어(Meyer Sound) 이런게 이미지 형상화 되어있고, 이브이(EV) 이런게 문자 형상화 되어 있단 말이죠. 이게 참 그렇더라고요. 우리가 제품이 아니잖아요, 제품이 아니다 보니까 문자 형상화는 어색했어요. KS... 당시에도 그렇게 생각했는데 KS마크... 하하. KS가 웃기잖아요.
충청지부 주영천 지부장
SK하기도 그렇고 ... 아! 그 러면 문자를 이미지화를 해야겠다. 그렇게 생각 했죠. 문자를 이미지 형상화 하려니까 울림이 떠오르고, 스피커가 울리는 형상이 자꾸만 메이어랑 비슷해지더라고요. 뭐 다르게 울릴 수가 없는 거예요. 파동을 만들어줘야 하니까...그러다가아,안되겠다.이모든걸새로 원점부터 시작하기로 하고 나서 우리 협회의 전신인 ‘소리회’를 떠올렸죠. 그래서 1소리회 이름을 적어놓고 가만히 생각을 했죠. 그러다
75 SSM|협회로고탄생의비밀
SSM STAGE SOUND MAGAZINE 2022 - Quarter II Vol. 02
보니까 ‘소리’라는 글씨가 보이길래, 이 ‘소리’로 무언가 해 보려하니, 누구든지 조금만 들여다보면 이해할 수 있으면서도 조금은 어렵기도 하고, 마크성도 띄어야 하고 여러 가지로 많이 복잡하더라고요. 처음엔 조금 딱딱하게 형상이 되더라고요. 이게 딱딱했잖아요. 2소짜에 ᄉ에다 3리짜에 ᄅ, 이렇게 하려니까 상당히 딱딱하더라고... 이 선들이 4처음엔 ᄅ이 이렇게 길었죠. 이게 조금 어색하잖아요? 너무 길어서... 그래서 5줄이다 보니 점이 된 거예요. 이 로고의 가장 핵심적인 것은 문자를 이미지로 형상화 시키면서, 형태가 보일 듯 말 듯 한 것과 여기 있는 로고에 6조그마한 움직임이 있어요. 만약 이게 없으면 너무 단순해져서 움직임을 넣었어요.
‘소리회’ 형상화 과정
Q. 처음 로고를 만들자는 이야기가 나왔을 때, 아이디어를낸다른회원도있었나요?한몇명 정도...?
A. 당시에 목원대학교에서 근무하던 신승욱 감독(현. 서울지부)이 냈지요.
Q. 다른 지부는?
A. 내가 신승욱 감독한테 권했지요. 다른 지부는 없었어요. 당시에 충청지부에서만 두 개.
Q. 충청지부 대단한데요? 그럼 당시 협회에서 공모했을때정말로두개밖에안올라왔던거 예요?
A. 여하튼, 두 개 올라와서 다행이었지. 하나만 올라갔으면 싫든 좋든 선택해야 했을지도 모르 는데, 두 개가 올라가니까 선의의 경쟁을 할 수 있었지요.
SSM STAGE SOUND MAGAZINE 7 6
CONTENTS
Q.그때자료는남아있을수있겠네요.중앙회 사무국에서 가지고 있을까요? A.그런게있겠나싶기도한데,아마당시회의 자료에 남아 있을 수 있어요. 이사회에서 회의할 때, 이사님들이 이게 무슨 글씨인지 이해를 못 했어요. 설명을 해야 하는데, 설명할 사람은 안 오고, 로고 그림만 올라와 있으니까... 그거를 유선 상으로 물어보길래, 이렇게 복잡하게 설명하면 시간도 걸리고 하니까 그냥 간단하게 설명했어요. “소리회의 소리라는 글씨가 있습니다. 찾아 보세요.” 이렇게 이야기했죠. 그러니까 그때 있었던이사님들,이제고문님들이죠.그분들이 “아... 여... 이거 소리네?” 이래 돼서, “좋아!” 이래 돼가지고, “이걸로 하자” 이렇게 결정이 된 거죠.
Q. 협회에 대한 애착, 일에 대한 열정 이런 것 말씀하시는 거죠? A.여튼...너무좋게쓸필요까지는없고,그냥관심 있으니까그렇게된거죠.그러니까그걸몇개월 생각을 했겠지. 안 그랬으면 생각을 안 했겠죠. 그거를나도몇개월생각했으니까생각이나는 거지,그냥순식간에쓱나왔다면...물론하루만에 만들 수도 있고, 5분 만에도 곡을 쓴다고 하잖아요. 예술이 탄생하듯이... 그런데 시간을 두고 죽~ 흘러나온 거라 생각도 나고 기억도 나지요. 그래서 한참이지난지금도똑같이그려낼수있는거예요. 그냥, 5분 만에 나왔어도 기억이 되겠네! 내가 천재야! 이렇게 기억되겠네. 하하.
Q. 협회의 공문이나 상장, 현수막 등 우리가 무엇이든 협회이름으로 할 때마다, 로고가 들어 가는데 보실 때마다 어떤 기분이 드나요?
A. 저는 특별한 생각이 없어요. 음... 안 찍혀 나갈 때 기분이 조금 이상하죠. 안 찍혀 나오는 수 가 한
번씩 있어요. 협회 이름만 쓰여있고, 그럴 때는 ‘아니... 이거 로고도 없이 왜 이렇게 적었지?’ 이렇게 생각은 하죠. 일단은 여기에 대해서는 협회가권한이있기때문에내그건없어요.
Q. 이 로고가 안 찍혀 나오면, 누구라도 '이게 왜 안 찍혀 나오지?' 이렇게 생각 할 것
같은데요?
A. 다행이네. 긍정적으로 봐줘서 고마워요.
Q. 만드시는 과정에서 히트를 예감하셨 는지요?
A. 아니... 로고를 잘 만들어야겠다. 이런 생각을했죠.1~2년쓰고말거는아닐
Q. 로고의 완성도가 매 우 높은데요. 미술을 배우 신 적이 있으 세요?
A. 아니요. 그냥 마음. 열정 뿐
이에요. 거기에 대한 애착을 가지니까 표출된 것이 디자인이나 이런 것으로 표출된 거지요.
77 SSM|협회로고탄생의비밀
SSM STAGE SOUND MAGAZINE 2022 - Quarter II Vol. 02
Q. 마지막 질문인데요. 2022년 새해에 하고 싶은
일이있다면말씀해주세요.
A. 협회원의 근무지 환경문제, 업무 조건의
어려움을 서로 나누며 문제점 해결에 도움 줄 수
있는 일을 하고 싶어요. 지난 한 해 감사했습니다.
여러분 새해 복 많이 받으세요! SOUND
STAGE
거고, 이거를 오랫동안 써야 하니까, 디자인. 그 생각은 많이 했어요. 2025년 30년 갔는데 ‘아유... 이거 뒤떨어 진 ... 촌스러워’ 이러면 바꾸잖아요, 마크를 ...
Q. 그런데 이 로고를 보면 유행도 안 탈 것 같아요.
A. 그렇죠? 그래서 신경 많이 썼다니깐~
Q. 로고 작업은 직접 그린 것을 스캔작업으로 완성 하셨나요? 아니면 일러스트에서 직접 그리셨나요?
A. 직접 그려서... 이 일러스트는 내가 우리 처남한테 부탁을 했지요. 이것 그대로 일러스트로 만들어 달라고, 파일로. 일러스트 파일은 컬러로 색깔 별로 해서 다 맞춰놨지요.
이번 취재를 통해 우리 후배들은 무대음향 협회의 로고가 어떻게 만들어졌고, 어떠한 의미를 담고 있는지 알게 되었습니다. 우리 협회의 역사와 우리의 일, 우리의 역할이 상징적으로 담겨있는 협회 로고가 자랑스럽 기까지 합니다. 우리의 후배와 그 다음 후 배들의 세대에도 오랜 시간 변함없이 이 로고가 소중하게 사용되길 염원합니다.
그리고 충청지부 지부장 주영천 감독의 협회에 대한 헌신과 열정에 다시 한 번 박수를 보내 드립니다.
-SSM제작국-
SSM STAGE SOUND MAGAZINE
7 8
한서BMT(주)서울시 구로구 디지털로30길 31코오롱디지털타워빌란트 2차 303호
Tel:02)2081-1691Fax:02)2081-1695 htps:/www.facebook.com/SSL-Live-Korea-107571287243126
Web:www.han-seo.co.kr
CONTENTS
TECHNICAL REPORT
Izotope RX를 이용한 오디오 리페어와 리스토어션
글|안성원 성남아트센터
목차
1. 오디오 리페어와 리스토어션이란 무엇인가? 2. 오디오 리페어, 리스토어션이 필요한 경우 3. 오디오 리페어, 리스토어션 툴 소개
4. Izotope RX 주요 기능 소개
5. 오디오 리페어, 리스토어션 작업의 한계와 작업 팁 6. 오디오 리페어, 리스토어션 작업 예시
1.오디오 리페어와 리스토어션이란 무엇인가?
오디오 리페어와 오디오 리스토어션을 한국어 로 번역하면 오디오 수리와 오디오 복원입니다. 단어의 의미에서 알 수 있듯 오디오 리페어와 리스토어션은 무언가 망가진 오디오를 수리하고 복원하는 작업입니다. 두 단어는 각각 조금씩 차이는 있지만 비슷한 뜻으로 많이 사용되고 있습니다.
오디오 수리와 복원은 크게 두 가지 의미가 있습니다. 이 기사에서는 첫 번째 의미의 오디오 수리와 복구를 다루고자 합니다.
(다양한 오디오 리페어, 리스토어션 소프트웨어의 모습. 출처: protoolsexpert.com )
8 1 SSM | Izotope RX를 이용한 오디오 리페어와 리스토어션
1. 오디오의 기술적인 손상을 복구하는 것.
2. 오래된 오디오 매체를 좋은 음질로 현대 오디오
매체로 복구하는 것.
2. 오디오 리페어, 리스토어션이 필요한 경우
음향 현장에서 우리는 생각보다 자주 녹음 결과물이 완벽하지 않은 상황을 마주합니다. 연주나 노래가 맘에 들지 않는 상황도 있지만, 기술적인 문제가 있는 경우도 많습니다. 녹음 중간에 객석에서 원치 않는 잡음이 끼어드는 경우도 있고, 전원이나 장비의 문제로 전기 잡음이나 디지털 잡음이 끼어드는 경우도 있습니다.
특히공연실황의큰특징중하나로다시 재녹음하는 것이 불가능한 것을 꼽습니다. 다시는 할 수 없는 녹음의 음성자료를 홍보자료나 음반 으로 사용한다고 할 때, 오디오 리페어, 리스 토어션이 구명 보트가 되어줄 것입니다.
오디오 리페어 툴은 음질을 향상시키고 잡음을 제거할 수 있습니다. 최근 오디오 리페어와 관련한 기술이 발전하면서, 다양한 음원이 손상된 경우를 알아채기 어려울 정도로 깨끗하게 복원해 주고 있습니다.
3. 오디오 리페어, 리스토어션 툴 소개
오디오 소프트웨어 시장에서는 많은 종류의 오디오 리페어, 리스토어션 툴을 판매하고 있습니다. 다양한 툴들이 패키지화 되어서 팔리는 경우가 많습니다.
가장 좋고 값비싼 소프트웨어 패키지가 있다면 모든 상황이 깔끔하게 해결될 것 같지만, 현실에서는 그렇지 않을 때도 있습니다. 왜냐하면
SSM STAGE SOUND MAGAZINE 2022 - Quarter II Vol. 02
오디오의 다양함이 너무 방대하기 때문입니다. 여러 오디오 리페어, 리스토어션 소프트웨어 제조사들의 각기 다른 알고리듬은 특정 음원에 더 좋거나 나쁠 수 있습니다. 선호하는 패키지를 구입한다음,특정상황에더강한툴몇가지를 구비한다면 매우 좋을 것입니다.
아래 몇 가지 오디오 리페어, 리스토어션 툴을 소개할 것입니다. 오디오 툴 소개는 www. pro- tools-expert.com의 기사를 참조하였습니다. 더 자세한 내용이 궁금하신 분들은 다음 링크를 참조하시면 좋겠습니다. 해당 기사에서는 여기에 소개하는 것보다 더 많은 툴들을 소개하고 있습니다.
https://www.pro-tools-expert.com/ production-expert-1/whats-the-best-audio- restoration-software
3-1. Izotope RX
아주 성공적인 시리즈를 이어가고 있는 Izotope 사의 RX시리즈입니다. 현재 9버전이 출시되어 있습니다. 엘리먼트-표준-어드밴스드 3가지 버전으로 되어 있으며 어드밴스드 버전은 거의 모든 노이즈에 대응할 수 있도록 설계되어 있습니다. 이번 기사에서 좀 더 자세히 기능과 사례를 소개하려는 툴도 Izotope RX9입니다.
SSM STAGE SOUND MAGAZINE 8 2
CONTENTS
3-2. Accusonus ERA
아큐소너스의 ERA 시리즈입니다. 다양한 노이즈를 제거하고 향상시킬 수 있는 툴들을 포함하고 있습니다. 몇몇 툴은 Izotope RX와 상호 보완적인 관계에 있습니다.
3-3. SONNOX Restore Bundle
익히 알려져 있고 널리 쓰이는 Sonnox의 오디오 리페어 툴들입니다. 각각 디노이저, 디버져, 디클리커로 구성되어 있으며 일반적으로 많은 노이즈들을 효과적으로 제거할 수 있습니다. RX시리즈와 마찬가지로 매우 검증되었다는 것이 장점인 툴입니다.
4. Izotope RX9 기능 소개
본격적인 기능을 소개하기 앞서 작업환경을 소개합니다. 위에서 앞서 소개한 다양한 툴들은 단독으로 사용 가능한 툴도 있지만, 대부분은 오디오 편집 프로그램의 ‘플러그-인’으로 동작합니다.
오디오 리페어 툴을 실시간으로 걸어놓고서 편집할 수도 있지만 일반적인 경우에는 파일을 ‘랜더링’하여 수리된 새로운 파일을 만들고, 새롭게 수리된 파일을 편집하는 것이 작업부하나 결과물의 음질에 있어서 더욱 좋습니다.
가장 먼저 떠오르는 해당 기능은 Pro tools의 Audiosuite 기능입니다. 이 기능은 프로툴즈 편집창에서 선택한 오디오 클립을 플러그인이 동작하는 대로 랜더링해주는 작업을 수행합니다.
Izotope RX시리즈는 여기에 더해 조금 더 디테일하게 작업하기 위한 작업 흐름을 제공하고 있습니다. RX connect의 활용입니다. RX connect는 pro tools의 오디오 클립을 RX의 독립 오디오 리페어 툴인 RX로 전송합니다. 이 툴에서 아주 정교하게 오디오를 수리하고 복원할 수 있습니다. 그리고 RX에서 ‘프로툴로 보내기’ 기능을 수행하면 다시 RX connect로 돌아옵니다. 이제 RX connect는 선택한 오디오 툴을 RX에서 작업한대로 랜더링 합니다. 이 방법은 다소 복잡해 보일지몰라도현재가장적은복잡도로가장 정밀하게 작업을 수행할 수 있습니다.
프로툴즈에서 audiosuite를 사용하는 모습. 하단에 샌드 버튼과 랜더 버튼을 볼 수 있다.
8 3 SSM | Izotope RX를 이용한 오디오 리페어와 리스토어션
조금 더 이해하기 쉽도록 그림으로 표현하면 위와 같습니다.
1. 오디오 클립을 RX connect를 켠 audiosuite로 보낸다.
2. RX connect에서 RX로 오디오 클립을 보낸다.
3. RX에서 오디오 리페어, 리스토어션 작업을 수행한다.
4. RX에서 RX connect로 작업된 오디오 클립을 돌려 보낸다.
5. RX connect를 켠 audiosuite에서 원본 오디오 클립을 랜더링한다.
이제 작업 흐름을 이해하였으니 본격적인 RX 사용법을 설명드리고자 합니다. RX connect를 통해서 오디오를 임포팅 했다면 다음과 같은 화면을 볼 수 있습니다.
가장 눈에 띄는 화면으로 오디오를 파형과, 스팩토그램으로 보여주는 그래픽 창이 있습니다.
먼저 툴의 인터페이스를 설명드리겠습니다.
SSM STAGE SOUND MAGAZINE 2022 - Quarter II Vol. 02
먼저 툴의 좌측 상단에는 새로운 파일을 불러오거나 내보낼 수 있는 메뉴창이 있습니다.
그리고 아래 RX로고 우측에는 현재 작업하고 있는 작업의 내용이 하나의 탭으로 나타나 있습니다.만약여러개의보정작업을한다면탭을 옮겨 가면서 작업할 수 있습니다. 탭 오른쪽에 ‘SEND BACK’버튼을 이용하면 다시 Pro tools로 돌아가 작업을 마치게 됩니다.
우측 하단에는 트랜스포즈 섹션이 있습니다. RX에서 편안하게 편집할 수 있도록 다양한 재생 옵션을 제공합니다. 트랜스포즈 기능 중 마지막인 플레이헤드가 플레이를 따라가는 것을 선택 해제해두면여러번반복해서모니터하는데 효과적입니다.
트랜스포즈 우측에는 볼륨미터와 함께 커서 키 옵션이 있습니다. 이 옵션에서는 마우스 커서를 돋보기나, 파일을 손으로 잡고 이동하듯이 움직일 수 있게 해주는 그랩 툴이 보입니다. 중간에 인스턴트 프로세스라고 되어 있는 부분은 자주 사용하는 리페어 툴을 지정하여, 음원에서 특정 부분을 마우스 커서로 선택하기만 하면 빠르게 처리해 주는 옵션입니다. 오른쪽 구역에는 오디오 파일을 선택하는 방식에 대한 옵션입니다. 예를 들어 클릭같은 노이즈는 짧은 시간에 전 대역의 에너지를 가진 노이즈이기 때문에 시간축에 대해서
SSM STAGE SOUND MAGAZINE 8 4
CONTENTS
선택하여 작업을 합니다. 반면 험 노이즈는 전체 시간에 같은 주파수가 깔려 있기 때문에 주파수 축에 대해서 영역을 선택하여 작업하면 다른 톤을 손상시키지 않고 작업할 수 있습니다.
프로그램의 우측을 보면 각각 다른 기능을 가진 리페어 툴들이 나열되어 있습니다. 각각의 툴의 기능과 사용방법은 글 아래쪽에 소개하겠습니다.
오른쪽 하단에는 히스토리 창이 있습니다.
나타냅니다. 마치 음원을 엑스레이를 들여다보듯 분석할 수 있다는 장점을 나타냅니다.
예를 들어 바로 위 그림은 공연 실황 녹음에서 보이스 트랙을 RX에 올려본 것입니다. 가장 진한 가로선들이 보이스입니다. 기음과 배음이 녹음된 것이 보이고 높은 대역대의 거친 소리들이 들립니다. 트랙 전체에 걸쳐 옅게 깔린 것들이 누음입니다. 드럼 트랙들이 두드러지게 새어 들어왔기 때문에 화면을 슬라이스하듯 수많은 트랜지언트 음들이 깔려 있는 것을 관찰할 수 있습니다.
이제 좀 더 디테일한 툴들의 사용법을 소개해 보겠습니다. 다양한 툴들 중에서 공연 실황 녹음 오디오를 수리하고 복원하는 데 유용한 툴을 중심으로 소개하도록 하겠습니다.
Ambience Match
앰비언스 매치 기능은 서로 다른 두 파일 간 배경소음을 일치시켜주는 작업을 합니다. 예를 들어 서로 다른 날 녹음된 음원 사이에 공연장 공조시스템의 차이로 매끄럽게 편집되지 않는 부분을 자연스럽게 수정해 줄 수 있습니다.
히스토리 창에서는 지금까지의 작업 과정을 확인할 수도 있고, 마치 타임머신처럼 특정 작업을 했을 때의 상황을 모니터할 수도 있습니다.
툴을 이해하기 앞서 스팩토그램 그래프를 이해해야 합니다. 스팩토그램은 가로축이 시간, 세로축이 주파수, 그리고 색의 세기가 음압을
8 5 SSM | Izotope RX를 이용한 오디오 리페어와 리스토어션
De-bleed
뛰어난 알고리듬으로 후반 작업과 믹싱을 도와주는 디-블리드 툴입니다. 이 툴은 서로 다른 마이크 사이의 누음을 제거해 주는 기능을 갖고 있습니다. 예를 들면 하이햇 마이크에서 스네어 소리를 지워 줄 수 있습니다.
SSM STAGE SOUND MAGAZINE 2022 - Quarter II Vol. 02
이 툴은 두 트랙의 소리를 비교하여, 두 번째 트랙에서 지배적인 소리(집중적으로 수음된 사운 드)를 인식하여 첫 번째 트랙에서 두 번째 트랙의 소리를 지워 줍니다. 툴을 사용할 때 주의할 점은, 두 트랙의 타이밍과 길이를 잘 맞추어 주는 것이 중요합니다.
De-click
우리는 언제나 수많은 클릭 사운드로 고생합니다. 사소하게는 보컬의 립 노이즈부터, 디지털 시스템 의 에러로 인한 강력한 클릭 노이즈까지 음원에 다양한 클릭 노이즈가 끼어들 수 있습니다.
다양한클릭제거알고리듬으로저마다약간 다른 성격의 클릭을 제거할 수 있습니다. 감도를 높일수록더많은클릭노이즈를손쉽게제거할수 있습니다. 하지만 너무 과도하게 감도를 높인다면 음악적인 트랜지언트 신호마저 클릭으로 인식하고 제거할 것입니다. 구간별로 감도를 조절해 가며 확인하는 습관이 필요합니다.
SSM STAGE SOUND MAGAZINE
8 6
CONTENTS
De-hum
음향 현장에서 우리는 수많은 전기적인 방해를 마주합니다. 험 노이즈 또한 전기적인 방해 중 하나입니다. 이 툴에서는 험 노이즈를 깔끔하고 지능적으로 제거할 수 있습니다.
사진과같이여러개의노치필터를사용하여험 노이즈를 제거하는 방식은 널리 알려져 있습니다. 하지만 이 툴에서는 거기에 더해서 기본 험 주파수를 학습하고, 노치 필터의 개수를 원하는 만큼 조절할 수 있습니다. 또한 전통적인 노치 필터와 달리 기존 신호에 마스킹 되는 험 구간을 지나쳐 보내는 방식으로 원래 신호를 손상시키지 않도록 동적으로 작동할 수 있습니다.
De-clip
클리핑은 언제나 곤란한 문제입니다. 항상 적정 레벨로 녹음해야 하지만 최고 레벨을 넘어서는 순간 찌그러짐이 시작됩니다. 이 툴은 너무 높게 기록한 소리를 분석할 수 있는 히스토그램 미터를 내장하고 있습니다. 여기서 너무 크게 녹음한
신호의 거친 디스토션을 지워줌으로 클리핑을 완화할 수 있습니다. 재 녹음이 불가능한 상황에서 클리핑을 복원할 수 있다는 것은 매우 유용합니다.
Spectral De-noise
배경 소음을 제거하여 좀 더 적막한 환경에서 녹음한 것처럼 만들어 줍니다. 많은 히스 노이즈와 공조 노이즈 제거에 탁월합니다. 원치 않는 기침 소리나 박수, 잡담소리를 지우는 방법은 다른 툴에 있습니다. 하지만 이 툴은 배경 소음을 매우 훌륭하게 정리해 줍니다.
8 7 SSM | Izotope RX를 이용한 오디오 리페어와 리스토어션
이 툴은 노이즈 프로파일을 학습할 수 있습니다. 배경 소음은 있지만, 음악은 없는 음원의 일부분을 이 툴에 학습시키고 트레시홀드 와 리덕션을 적정하게 지정해 주면 학습된 노이즈 프로파일을 따라 배경 소음을 지울 것입니다.
Spectral Repair
원치않는다양한소리를감쪽같이지워줄수있는 아주 강력한 툴입니다. 이 툴로 기침소리, 박수 소리 등다양한소리를존재하지않았던것처럼없앨수 있습니다.
이툴은지우고자하는지점의소리와지우지 않고자 하는 소리를 비교 학습하는 원리로 작동합니다. 선택한 영역 근처와 소리를 비교해서 원치 않는 소리만 제거하거나, 주변과 같은 패턴으로 바꾸는 등 주기적이지 않은 잡음을 제거하는 데 특화되어 있습니다.
SSM STAGE SOUND MAGAZINE 2022 - Quarter II Vol. 02
5. 오디오 리페어, 리스토어션 작업의 한계와 작업팁
소개한 것 이외에도 많은 유용한 툴들이 RX안에 패키지 되어있습니다. 다양한 오디오 손상을 효과적으로 수리하기 위한 다양한 해결책들이 마련되어 있는 셈입니다. 그럼에도 오디오 리페어, 리스토어션에는 한계가 존재합니다.
오디오가 너무 많이 손상된 경우
최신 오디오 수리, 복원은 머신러닝에 그 중점을 두고 있습니다. 오디오의 패턴을 컴퓨터에게 학습시켜서 원본 사운드를 예측하고 복구해 내거나, 불필요한 소리를 지워 나가는 것입니다. 만약 너무 많은 손상이 있어서 원본 사운드를 예측하기 어려운 경우라면 오디오는 자연스러운 방향으로 복구되지 않습니다.
예측 불가능함
우리는 작업 전에 이 노이즈가 완벽하게 제거될 것인지정확히알수없습니다.사실어느정도는 예측이가능합니다.여러번의작업경험을통해서 판단력을 키울 수 있습니다. 그럼에도 실제로 작업을하기전까지는장담할수없는경우도 상당히 많습니다.
이런 예측 불가능함이 시사하는 점은, 오디오 리페어, 리스토어션 과정을 과신한 나머지 녹음 과정을 소홀히 해서는 안 된다는 이야기입니다. 쉽게 수리될 것이라 여겼던 사소해 보였던 에러가, 어떻게 해도 자연스럽게 복구되지 않는 경우도 있기 때문입니다.
실제 녹음에서 오디오 수리와 복원 작업을 하다
SSM STAGE SOUND MAGAZINE 8 8
CONTENTS
보면,의외의툴이잘작동해주는경우도있고, 그렇지 않는 경우도 있습니다. 그래서 생각보다 더 많은다양한시도를해보아야할때도있습니다. 예를들면연주에끼어든박수소리에‘디- 클릭’이나‘스팩트럴리페어’둘중어떤툴이잘 먹힐지는 경험자가 아니라면 시도해 봐야 아는 경우가 더러 있습니다. 결국 장비는 좋아졌지만, 좋은귀를가진엔지니어가한땀한땀인내심을 갖고오디오수리및복원에임해야하는것입니다.
많은 음원은 복합적인 다양한 문제를 갖고 있는 경우가 많습니다. 예를 들면 배경소음이 높은 음원인 동시에, 원치 않는 잡음도 들어가 있는 경우입니다. 이런 경우에는 작업 순서가 중요 합니다. 저의 추천은, 음원을 적은 범위로 변형 시키는 작업을 먼저 수행한 후 음원을 전체적으로 수정하는 작업을 나중에 수행하는 것입니다. 예를 들면음원부분부분숨어있는클릭노이즈를먼저 지운 후, 전체적인 히스 노이즈를 지워 가는 것입니다. 하지만 어떤 경우에는 반대 방향으로 하는 것이 더 좋습니다. 아주 많은 경우의 수가 있으며, 작업자의 노하우를 쌓아 가야 합니다.
6. 오디오 리페어, 리스토어션 작업 예시
몇 가지 작업 에시를 구글 링크로 첨부합니다. 구글 링크에 첨부한 음원은 2022. 6. 30 까지 유지될 예정입니다.
https://drive.google.com/drive/folders/ 1uEzzTc3c8X0NVlthceqLSgmofhxczoSf?usp=s haring
작업 예시에서 들을 수 있듯. 깔끔한 고음질 음원일수록 노이즈가 더 효과적으로 제거되는
모습을 볼 수 있습니다. 또한 아직까지 마법처럼
모든 음원이 매끄럽게 처리되기까지는 좀 더
기술의 발전을 기다려야 할 것 같습니다. 하지만
그럼에도 불구하고 이전과 비교해서 노이즈로 부터
오디오를 복구하여 사용 가능한 음원으로 만들 수
있는 범위가 비약적으로 상승하였습니다. 이번
원고를통해서음원에낀노이즈때문에고심
하셨던 감독님들께 도움이 되기를 바라며 글을
마칩니다. \SOUND
STAGE
안성원
성남아트센터 음향감독
8 9 SSM | Izotope RX를 이용한 오디오 리페어와 리스토어션
함안문화예술회관(건축음향) 군포문화예술회관(건축음향) 반포심산아트홀(객석개선) 예술의전당 인춘홀(건축음향)
구미문화예술회관(건축/전기음향ᆞ영상) 인천문화예술회관(전기음향ᆞ영상) 정조테마공연장(건축/전기음향ᆞ영상) 국립부산국악원연수센터(건축/전기음향ᆞ영상)
공연장 음향컨설팅에는 “마노엔지니어링”이 있습니다.
“마노의 기술력으로 보이지 않는 공연장의 소리를 제어가능한 미학적 공연요소로 완성시켜드립니다.”
Reflectogram
대구오페라하우스(건축음향)
마노엔지니어링 사업소개
1.공연장음향설계및감리컨설팅
- 설계지침및도면검토
- 공간의규모최적화검토
- 건축형상및자재검토
- 객선가시선검토
- 가변음향환경검토
- 전기음향/영상설비설계및검토
2.소음진동 방지설계 및 감리 컨설팅
- 소음진동원 검토
- 소음진동에 의한 영향범위 검토 - 소음진동 저감대책 수립
- 소음진동저감자재검토
3.음향 측정
- 측정지점 선정
- 측정및데이터분석
4.음향 시뮬레이션(예측평가)
- 예측계획
- 예측조건의검토및입력 - 예측결과 비교ᆞ분석
- 최종예측모델링작성
(주)마노엔지니어링
건축음향/전기음향ᆞ영상 /소음/환경 종합컨설팅 기술사무소 등록번로 : 2019-1177
주소: 서울시 동작구 만양로 66 TEL: 02-822-6266 https://www.manoeng.com/
CONTENTS
TECHNICAL REPORT
디지털 다이내믹 프로세싱에서 발생하는
앨리어싱 왜곡
글|김지탁 (사)무대음향협회기술위원
입력단에 신호가 과 입력(Clipping) 되면 왜곡이 일어난다는 것은 상식이다. 하지만 과 입력된 신호 (Clipped Signal)는 아날로그와 디지털 회로에서 전혀 다른 양상을 보여준다. 과 입력된 신호는 파형의 변형을 일으키며, 고조파(=배음; Harmonics)를 생성해낸다.
고조파는 왜곡 및 변형된 기본음 (Fundamental) 으로부터 정수 배로 무한하게 발생한다. 이러한 신호의 왜곡이 디지털 영역에서 발생하면 생성된 고조파가 Nyquist 주파수를 초과하게 되므로 앨리어싱 왜곡이 필연적으로 나타나게 된다.
본고에서는 디지털 다이내믹
다시 처음부터 바라봐야 보인다.
“앨리어싱은 AD 컨버팅할 때, 필터로 다 걸러지는 것 아니었나?”
대부분 이렇게 생각할 것이다. 맞다. 틀리지 않았다. 하지만 놓친 것이 있다. 우리가 놓치고 있었던 것은 무엇인지 함께 알아보도록 하자.
2021년 (사)무대음향협회 서울지부 세미나 중
그림1. 디지털 오디오의 신호처리 과정
그림1은 디지털 오디오 이론을 공부하다 보면 항상 마주하게 된다. 이 그림을 다시 한번, 잘 살펴보면 안티 앨리어싱(Anti-Aliasing) 필터는 디지털 영역에 있지 않다는 것과 디지털로 처리되는 믹스 과정에는 안티 앨리어싱 필터가 없다는 것을 발견할 수 있다. 안티 앨리어싱필터의역할은마치깨끗한물을얻기위한정수기필터와 같이 디지털 영역에서 처리되는 신호를 Nyquist 주파수 이하로 입력시켜 앨리어싱 왜곡이 발생하지 않도록 정제(Signal Conditioning) 하는 것이다.
문제는 디지털 음향 콘솔을 운용하는 경우, 콘솔에 내장된 다이내믹 프로세서가 안티 앨리어싱 필터가 없는 디지털 영역에
프로세싱의 문제점에 대해 알아보고 현재의 디지털 음향 시스템에 적용된 대응 기술 수준과 앨리어싱을 최소화하는 방법을 알아보고자 한다.
9 1 SSM | 디지털 다이내믹 프로세싱에서 발생하는 앨리어싱 왜곡
있다는것이다.우리는라이브공연에서는장비를 보호해야 하거나 안정적인 레벨과 음색을 만들어 내기 위해서, 그 외 다양한 이유로 컴프레서나 리미터 등의 다이내믹 프로세서를 사용한다. 특히
SSM STAGE SOUND MAGAZINE 2022 - Quarter II Vol. 02
펀치감을 살려내는 등 특유의 음색을 만들기 위해서 강력한 컴프레싱이나 리미팅을 하기도 한다. 이 경우 클리핑이 발생하지 않더라도 클리핑에 준하는 왜곡이 발생한다.
선형 왜곡(Linear Distortion)과 비선형 왜곡(Non-Linear Distortion)
입력 값과 출력 값이 비례관계에 있을
때 선형이라고 한다. 반면, 입력 값과
출력 값이 비례하지 않는 것을 비선형
이라고 한다. 선형 왜곡은 파형의 진폭을
변화시키지만, 고조파를 생성해 내지
않는다. 입력신호의 이득 (Gain) 값을
조정하거나, 이퀄라이져 (Eq)를 사용
하여 특정 주파수의 레벨을 가감하는
것이 선형 왜곡의 대표적인 예다. 비선형
왜곡은 새로운 고조파를 동반하며, 가장 대표적인 것은 클리핑이다.
그림2. 클리핑 된 3.4 kHz 파형
그림 2에서 클리핑이 시작된 12.5ms 부터는 실제 입력 신호 레벨이 제한되기 때문에 파워(세로축)는 항상 같은 값을 유지하므로 입력과 출력이 비례하지 않는다. 이와 같이 파형이 변형되었다는 것은 새로운 고조파가 발생했다는 것을 의미
한다. 그림2와 같은 왜곡을 만들어
내는 다이내믹 프로세서로는 컴프 레서, 리미터가 대표적이다.
클리핑 파형은 사각파(Square Wave)와 유사하다. 따라서 고조파 역시 클리핑 주파수로부터 홀수 배를 가진 주파수 성분으로 나타 난다. 그림3은 파형에 따른 고조파 의 구조다.
그림3. 파형(좌)에 따른 고조파의 구조(우)
SSM STAGE SOUND MAGAZINE
9 2
CONTENTS
9 3 SSM | 디지털 다이내믹 프로세싱에서 발생하는 앨리어싱 왜곡
샘플링과 안티 앨리어싱 필터
아날로그 영역에서의 비선형 왜곡은 음색의 독특한 변화를 준다. 이것을 응용한 대표적인 음향효과기가 일렉기타의 오버드라이브와 디스토션 이펙트다. 진공관 앰프 역시 새로운 고조파를 생성하여 음의 왜곡을 가져온다. 이러한 왜곡된 사운드는 아티스트와 믹싱 엔지니어에게 자신만의 사운드를 표현하는 수단이 되었다. 그러나 디지털 영역에서는 조금 다르다. 컴퓨터 연산은 무한한 전기신호를 유한한 데이터로 만드는 작업이기 때문이다.
Nyquist 이론에 따르면 재생하고자 하는 최대 주파수의 2배의 샘플을 얻어야 한다. 한 주기의파장길이를알면주파수를알아낼수있다.파장의길이를알아내기위해서는한 파장에 최소 2개의 샘플이 필요하고, 샘플이 많을 수록 정확한 파형을 복원해 낼 수 있다(그림4). 예를 들어, 가청 한계인 20,000Hz까지 20,000번 샘플링 한다면 낮은 주파수에서는 파장의 길이가 길기 때문에 세밀한 샘플을 얻을 수 있지만 가장 높은 주파수인 20,000Hz에서는 한 개의 샘플만 얻게 된다. 한 개의 샘플만으로는 파장의 길이를 알아낼 수 없기 때문에 정확한 주파수 데이터를 만들 수 없다. 따라서, 최소한 2배인 4만 개의 샘플을 얻어야만 20,000Hz에서 2개의 샘플을 확보하게 되어 해당 음의 주파수 데이터가 만들어지게 된다. 낮은 샘플 레이트의 디지털 오디오에서 고음 해상도가 떨어지는 이유가 여기에 있다.
일반적인 디지털 오디오 장비는 현재 48kHz 디지털 방송 표준을 따르고 있다. 샘플링 주파수가 40,000Hz가 아닌 48,000Hz인 이유는 앨리어싱 왜곡 방지를 위해 주파수 차단 필터가 갖는 감쇄 기울기를 고려했기 때문이다. 상용화 되어있는 AD 컨버팅 기술(Sigma- Delta)에서는 디지털 신호 변환과 처리에 앞서, 그림5와 같은 방법으로 아날로그 신호를 처리한다.
그림4. 20,000Hz의 2배 표본화에서 1,250Hz(좌)와 20,000Hz(우)의 표본 수량 비교
그림5. Nyquist 이론에 따른 샘플링과 앨리어싱을 방지하기 위한 아날로그 필터
SSM STAGE SOUND MAGAZINE 2022 - Quarter II Vol. 02
비선형 왜곡과 디지털오디오
앞서 이야기한 것처럼, 일반적으로 디지털 오디오 시스템에서는 아날 로그 입력 신호가 디지털 영역으로 변환되기 전에 Nyquist 주파수 이하 로 대역을 제한하여 잠재적인 앨리 어싱 왜곡 요소를 제거한다. 그러나 문제는 믹스(Mix) 과정에 발생하는
비선형 왜곡이다. 아날로그 오디오 시스템에서는 24kHz 이상의 주파수 가 전체 사운드에 기여하기 때문에 문제가 없지만, 디지털 오디오 시스템 에서는 그렇지 않다.
그림6은 스펙트럼 분석기에 1dB 클리핑 7kHz 사인파를 입력한 것이다. 사인파가 클리핑으로 인해 사각파와 유사한 파형으로 변형 되었기 때문에 고조파가 발생된다. 고조파는 기본음 Fundamental) 으로부터 정수배로 무한 생성되기 때문에, Nyquist 주파수를 당연히 초과한다. 결과적으로 Nyquist 주파수보다 위에 놓여 있는 주파수는 그림7과 같이 왜곡되어 가청대역에
나타나게 된다(그림8).
그림6. 1dB 클리핑 된 7kHz의 사인파 스펙트럼
SSM STAGE SOUND MAGAZINE 9 4
CONTENTS
▼ 그림8. 가청 대역에 나타난 고조파 성분 (1dB 클리핑 된 7kHz의 사인파 @48kHz)
그림7. Nyquist 주파수를 초과하여 발생하는 샘플 측정 오류
가청대역에 나타나는 앨리어싱 왜곡 성분은 측정장비가 없어도 단순한 계산으로 그 위치를 알아낼 수 있다. 0Hz 부터 샘플링 주파수까지 1kHz 간격으로 나열한 다음에 Nyquist 주파수를 기준으로 종이를 접듯이 계속 접어 나가는 것이다. 예를 들어, 그림8에 나타난 7kHz 5차 고조파는 첫 번째 앨리어싱 성분으로 본래의 주파수인 35kHz에서 Nyquist 주파수를 얼마나 초과하는지 계산(35kHz – 24kHz = 11kHz)한 다음, Nyquist 주파수에서 초과 값을 빼서(24kHz – 11kHz = 13kHz) 구할 수 있다. 결과 값이 음수가 나오는 경우(7차고조파)에는종이접기를반대로하는느낌으로양수로간주하면된다. 11차 고조파의 경우에는 음수를 양수로 간주하더라도 Nyquist 주파수를 초과하는데, 이런 경우에는 또 다시 Nyquist 주파수를 빼서 왜곡된 위치를 구할 수 있다.
9 5 SSM | 디지털 다이내믹 프로세싱에서 발생하는 앨리어싱 왜곡
가청 주파수 영역에 나타난 앨리어싱 왜곡 성분은 다른 소스에 의해 마스킹 되지 않고 독립적인 새로운 사운드를 만들어 청감상 분명히 구분되고, 오히려 원래 자리잡고 있던 사운드를 마스킹하거나 원음이 갖고 있던 고조파에 가산되어 음색의 변화를 일으킨다. 7kHz의 첫 번째 앨리어싱 성분인 5차 고조파는 가청 대역인 13kHz에 -32dB의 레벨로 나타난다. 일반적인 상황에서 컴프레서나 리미터를 동작 시킬 때 이정도의 앨리어싱 왜곡 성분을 원하는 믹싱 엔지니어는 아마도 없을 것이다.
Attack 그리고 Release Time
컴프레싱이나 리미팅이 급격한 값을 가질수록, 원음의 파형에 변화도 많이 생기고 고조파 생성 레벨 역시 커진다. 하지만 어택과 릴리즈 타임을 잘 활용하면 고조파 생성을 막을 수는 없지만 최소화할 수 있다. 갑작스러운 전원 차단이나 케이블 단선과 같은 경우에는 하드 클리핑이 발생하지만, 과 입력으로 인한 클리핑은 회로 구성에 따라 대부분 소프트 클리핑으로 나타나며, 다이내믹 프로세서에서 나타나는 비선형
SSM STAGE SOUND MAGAZINE 2022 - Quarter II Vol. 02
왜곡도 소프트 클리핑 형태로 나타난다. 그림9는 소프트 클리핑에 대한 이해를 돕기 위한 것이다. 다이내믹 프로세서에서 어택타임과 릴리즈 타임을 길게 줄수록 출력 파형은 사인파에 가까워지므로 고조파 발생이 억제되는 효과가 있다.
물론, 어택과 릴리즈 타임은 음원의 특성과 목적에 따라 신중히 결정해야 한다. 그러나 아날로그 사운드와는 다르게 디지털 믹싱에서는 가청 대역에 나타나는 앨리어싱성분을고려해야한다.예를들어킥드럼 사운드를 디지털 하드 컴프레싱 하는 경우, 원하는 펀치감이 만들어지지 않을 때 우선적으로 어택과 릴리즈 타임에서 타협점을 찾아볼 수 있다.
그림10, 11, 12는 디지털 다이내믹 프로세서에 100Hz, 0dB 신호를 입력하여 측정한 것이다. 높은 대역에서 발생하는 비선형 왜곡일수록 앨리어싱 왜곡 또한 뚜렷하게 나타나지만, 높은 대역일수록 FFT size에 따른샘플수량이부족해파형을정확하게표현할수 없다. 따라서 비선형 왜곡으로 인한 고조파 생성을 분명하게 설명하기 위해 측정 신호를 100Hz로 하였다.
이 실험은 100Hz의 저역 주파수를 사용하였고, 이 경우 발생한 고조파가 Nyquist 주파수를 넘어설 때 기본음(Fundamental) 주파수보다 100dB 이상 차이가 있기 때문에 앨리어싱 왜곡이 발생하더라도 문제가 되지 않는다.
그림9. 소프트 클리핑에는 어택과 릴리즈 타임이 존재한다.
SSM STAGE SOUND MAGAZINE 9 6
CONTENTS
▶ 압축 비율을 1:1로 설정하면 프로세서가 동작하지 않으므로, 고조파가 생성되지 않았음을 알 수
있다(그림10).
▶ 압축 비율을 4:1로 설정하고 어택과 릴리즈 타임을 최소화하면 클리핑 수준의 고조파가 나타난다(그림11).
그림10. 디지털 다이내믹 프로세서 실험 I
그림11. 디지털 다이내믹 프로세서 실험 II
97
SSM | 디지털 다이내믹 프로세싱에서 발생하는 앨리어싱 왜곡
▶ 압축 비율을 4:1로 설정하고 어택타임을 2ms, 릴리즈 타임 150ms로 설정하면 고조파가 30dB가까이 줄어든다 (그림12,13).
그림12. 디지털 다이내믹 프로세서 실험 III
그림13. 어택타임에 따른 고조파 생성 비교
내부 신호처리를 위한 오버 샘플링(Internal Oversampling)
대부분의 디지털 오디오 장비에 적용된 48kHz의 샘플링 주파수는 이미 제작된 음원을 재생하는 목적의 오디오 장비에서는 문제가 없다. 그러나 음원을 제작하는 목적의 디지털 라이브 콘솔이나 DAW 시스템은 제작 과정에서 다이내믹 프로세서를 사용할 때 앨리어싱 왜곡이 나타난다.
DSP에서 디지털 저역 통과 필터(Digital Low- Pass Filter)를 추가하여 Nyquist 주파수를 초과하는 데이터를 없애면 될 것이라고 생각할 수도 있다. 하지만 믹스 과정에 비선형 왜곡이 언제, 몇회나타날지미리예측할수없고,디지털라이브 사운드 시스템에는 모든 신호가 동일한 타이밍을 가진 채 최소한의 신호 지연(Zero-Latency)을 이뤄내야만 하는 숙명이 있다. 파형이 왜곡될 때마다 Nyquist 주파수를 초과하는 데이터를 그때그때 추적하여 제거하는 작업을 추가하면 컴퓨터 연산에 필요한 지연시간도 추가되어 현실적으로 불가능하다. 그래
서 등장한 방법이 바로 오버 샘플링 이다.
오버 샘플링의 목적은 최대 한많은샘플을확보해고음역 해상도를 높이는 것도 있지 만, 믹싱 과정에서 비선형 왜곡으로 생성된 고조파 레벨 을 낮추기 위한 목적도 있다. 그림 14는 Sigma-Delta AD 컨버터의 오버샘플링 알고리
SSM STAGE SOUND MAGAZINE 2022 - Quarter II Vol. 02
즘이다. 오버 샘플링을 적용하면 아날로그 필터의 기울기가 증가한 샘플링 속도의 절반까지 도달 한다. 따라서, 불필요한 데이터 연산을 줄이고 앨리어싱 문제 등을 해결하기 위해 디지털 필터로 Nyquist 주파수까지 제거한다. 이렇게 하면 Nyquist 주파수 이후의 양자화 잡음까지 제거된다. 모든 신호처리가 끝나면, Decimate 과정을 거치며 오버 샘플링 이전의 샘플 속도로 다시 복원한다.
앞서 설명한 100Hz 사인파 실험과 같이 비선형 왜곡이 낮은 주파수 대역에서 생겨나면 Nyquist 주파수에 도달하는 고조파 레벨도 낮아지기 때문에 문제없지만, 높은 대역에서 발생한 왜곡일수록 Nyquist 주파수를 넘어서는 고조파 레벨 역시 커지기 때문에 문제가 된다. 그러나 오버 샘플링 하면 오버 샘플 된 Nyquist 주파수까지 도달하는 고조파의 레벨이 더 낮아지기 때문에 앨리어싱 왜곡을 완화시킬 수 있다. Dan Mapes-Riordan [1]은 Nyquist 주파수를 초과하는 모든 앨리어싱 성분을 -100dB 이하로 제거하려면 최소 5MHz의
그림14. Sigma-Delta AD 컨버터의 오버 샘플링 알고리즘
SSM STAGE SOUND MAGAZINE
9 8
CONTENTS
▼ 그림15. MIDAS 社의 PRO X 디지털 라이브 콘솔의 오버 샘플링 관련 표기
내부 샘플링 속도가 필요하다고 제안하였다. 실제로 우리가 사용 하는 대부분의 디지털 라이브 콘솔은 약 6MHz의 내부 샘플링 속도로 오버 샘플링 기술이 적용되어있다.
▲ 그림16. YAMAHA 社의 RY16DA 인터페이스 카드의 오버 샘플링 관련 표기
그림15, 16 은 보통의 장비 사양표에 표기된 오버 샘플링 관련 표기이다. MIDAS 社의 콘솔은 96kHz 고정으로 운용되기 때문에 128배로 표기하고 있지만, YAMAHA 社의 경우에는 샘플 레이트 변경을 지원하므로 각 샘플 레이트에 따른 오버 샘플링 배수를 표기하고 있는데, 48kHz에서는 128배, 96k에서는 64배를 지원한다. 실제로 이것을 계산해 보면, 48,000Hz × 128 = 6,144,000Hz, 96,000Hz × 64 = 6,144,000Hz 로 같은 값이 나온다. 만약 이 장비가 192kHz를 지원한다면, 192,000Hz × 32 = 6,144,000Hz로 같은 값이다. 384kHz에서는 16배가 되고, 768kHz에서는 8배가 될 것이다. 이것은 계산 방법이 잘 못된 것이 아니라, Nyquist 주파수를 초과하는 모든 앨리어싱 성분이 -100dB 이하의 레벨을 갖게 하기 위해 권장되는 5MHz를 넘어서도록 하기 위한 것이다. Sigma-Delta 방식을 사용하는 모든 AD/DA 컨버터는 앨리어싱 왜곡을 방지하기 위해 권장 값을 초과하는 6MHz 샘플 레이트를 내부 오버 샘플링 속도로 한다. 컴퓨터 연산에 필요한 프로세서의 자원은 언제나 한정되어 있으며, 현재 기술로는 어떤 샘플링 레이트를 설정하더라도 안정적이고 효율적인 연산이 가능한 최대 속도가 6MHz인 것이다.
9 9
SSM | 디지털 다이내믹 프로세싱에서 발생하는 앨리어싱 왜곡