Booil Jung

FVV 자유시점 비디오를 위한 깊이 인식 장면 표현 방식

MPI, NeRF, 3D 가우시안 스플래팅 그리고 “DiAD” 개념을 중심으로

자유시점 비디오(Free-Viewpoint Video, FVV)는 시청자가 수동적으로 콘텐츠를 소비하는 전통적인 2D 비디오나 입체 3D 비디오의 한계를 넘어, 장면을 바라보는 시점과 각도를 능동적으로 자유롭게 선택할 수 있게 하는 혁신적인 미디어 경험을 의미한다.1 FVV는 단순히 기술적 발전을 넘어 스포츠 중계, 엔터테인먼트, 교육, 광고 등 다양한 분야에서 상호작용적 스토리텔링과 데이터 탐색을 위한 새로운 매체로 자리매김하고 있다.1 시청자는 더 이상 콘텐츠 제작자가 정해준 시점에 얽매이지 않고, 마치 실제 공간에 있는 것처럼 원하는 각도에서 역동적인 장면을 탐색할 수 있는 완전한 자유를 얻게 된다.1 이러한 상호작용성은 사용자 참여도를 극대화하고, 전례 없는 수준의 몰입감을 제공하는 핵심 요소이다.3

FVV 시스템은 일반적으로 여러 단계의 파이프라인으로 구성되며, 각 단계는 고유한 기술적 과제를 안고 있다. 이 아키텍처를 이해하는 것은 현대적 장면 표현 기술의 필요성을 파악하는 데 필수적이다.

FVV 시스템의 품질, 성능, 그리고 실현 가능성을 결정하는 가장 중요한 요소는 바로 3D 장면을 컴퓨터가 이해할 수 있는 데이터로 어떻게 표현하는가에 달려있다. 전통적으로는 3D 모델의 표면을 삼각형의 집합으로 표현하는 ‘메시(mesh)’와 같은 명시적(explicit) 표현 방식이 주를 이루었다. 반면, 최근에는 장면을 신경망의 가중치와 같은 암시적(implicit) 함수로 표현하는 방식이 등장하며 FVV 기술의 새로운 지평을 열었다.

이러한 기술적 진화의 배경에는 FVV 콘텐츠 제작의 ‘민주화’라는 거대한 흐름이 존재한다. 초기 FVV 시스템은 ‘매트릭스’의 ‘불릿 타임’ 효과처럼 막대한 자본과 전문 인력이 투입되는 전문 스튜디오 환경에서나 가능했다.1 복잡한 하드웨어 설치와 까다로운 캘리브레이션 과정은 일반 사용자의 접근을 원천적으로 차단하는 높은 진입 장벽이었다.4 그러나 NeRF, 3DGS와 같은 최신 기술들은 이러한 부담을 하드웨어에서 소프트웨어, 즉 컴퓨팅 파워로 이전시켰다. 이제는 스마트폰으로 촬영한 영상만으로도 고품질의 3D 콘텐츠를 생성할 수 있게 되면서 5, FVV 기술은 전문가의 영역을 넘어 이커머스, 소셜 미디어, 개인 창작 등 다양한 분야로 확산될 잠재력을 갖게 되었다. 결국 FVV 기술의 발전사는 단순히 화질을 개선하는 것을 넘어, 3D 콘텐츠 제작의 장벽을 허물고 누구나 몰입형 미디어를 만들고 즐길 수 있도록 하는 과정 그 자체라 할 수 있다.

현대적인 신경망 기반 표현 방식을 논하기에 앞서, 그 토대가 된 고전적인 접근법을 이해하는 것은 필수적이다.

다중 평면 이미지(Multiplane Image, MPI)는 고전적인 기하학 표현과 현대적인 신경망 렌더링 사이의 중요한 개념적 다리 역할을 하는 기술이다. MPI는 장면을 명시적인 깊이 정보를 가진 여러 개의 계층으로 분해하여 표현한다.

MPI를 이해하는 것은 단순히 과거 기술을 복습하는 것을 넘어, NeRF의 구조적 배경을 파악하는 데 필수적이다. MPI는 이미지로부터 학습 가능하고, 미분 가능한(differentiable) 체적(volumetric) 표현이라는 개념을 도입했다. 이는 NeRF의 핵심 철학과 정확히 일치한다. 고전적인 메시 표현은 기하학이 완전히 명시적이지만, 이를 실제 영상으로부터 생성하고 애니메이션하는 것은 매우 어려운 문제였다. MPI는 복잡한 표면을 직접 모델링하는 대신, 장면의 부피를 단순화된 여러 계층으로 근사하는 학습 기반의 접근법을 취했다. 결정적으로, MPI의 렌더링 과정(평면 변환 및 알파 블렌딩)은 미분이 가능하여 11, 신경망이 렌더링된 결과와 정답 이미지를 비교하는 것만으로 종단간(end-to-end) 학습을 할 수 있게 만들었다. NeRF는 바로 이 MPI의 계층적이고 이산적인 구조를 연속적이고 암시적인 함수(MLP)로 일반화한 것이다. 즉, MPI는 NeRF가 등장하기 위한 핵심 구성 요소인 ‘체적 표현’과 ‘미분 가능한 렌더러’를 분리하여 그 가능성을 처음으로 입증한 기술이라고 할 수 있다.

뉴럴 래디언스 필드(Neural Radiance Fields, NeRF)는 정적인 3D 장면을 하나의 연속적인 5차원 함수, 즉 $F(x, y, z, \theta, \phi) \rightarrow (c, \sigma)$로 표현하는 혁신적인 아이디어를 제시했다.16 이 함수는 간단한 다층 퍼셉트론(Multi-Layer Perceptron, MLP) 신경망으로 구현된다. 함수의 입력은 3차원 공간 좌표($x, y, z$)와 2차원 시선 방향($\theta, \phi$)이며, 출력은 해당 지점에서 해당 방향으로 방출되는 빛의 색상(RGB 값, c)과 그 지점의 밀도(σ)이다. 밀도는 빛이 그 지점을 통과할 때 얼마나 흡수되거나 산란되는지를 나타내는 값으로, 불투명도와 유사한 개념이다.

NeRF가 새로운 시점의 이미지를 생성하는 과정은 고전적인 컴퓨터 그래픽스 기술과 딥러닝의 절묘한 결합으로 이루어진다.

NeRF의 성공은 단순히 MLP라는 신경망 덕분이 아니라, 고전적인 렌더링 기법인 ‘체적 렌더링’과 현대 딥러닝을 영리하게 결합한 시너지 효과에 기인한다. NeRF는 신경망이 3D 데이터를 직접 보지 않고도, 오직 2D 이미지와 카메라 포즈 정보만을 이용해 3D 공간을 학습할 수 있다는 것을 증명했다. 이 과정은 일종의 ‘분석에 의한 합성(analysis-by-synthesis)’ 패러다임으로 볼 수 있다. 즉, 새로운 2D 뷰를 생성하는 문제의 해답을 찾기 위해, 먼저 모델(MLP)을 통해 뷰를 합성해보고, 그 결과를 실제 정답 뷰와 비교하여 모델을 개선해나가는 방식이다. NeRF의 저자들은 고전적인 체적 렌더링 방정식이 본질적으로 미분 가능하다는 사실에 주목했다.17 따라서 이 미분 가능한 렌더링 파이프라인의 중심에 MLP를 배치할 수 있었다. MLP는 공간상의 임의의 지점에 대한 색상과 밀도를 예측하는 역할을 담당하고 18, 학습 과정에서 렌더링된 픽셀과 실제 픽셀 간의 오차는 미분 가능한 렌더링 방정식을 거슬러 올라가 MLP의 가중치를 업데이트하는 데 사용된다. 결국 NeRF의 혁신은 새로운 신경망 구조를 발명한 것이 아니라, 뷰 합성 문제를 고전적이고 미분 가능한 렌더링 파이프라인을 통해 종단간으로 최적화할 수 있는 문제로 재정의한 데 있다. 이 통찰은 이후 모든 신경망 렌더링 기술의 발전에 지대한 영향을 미쳤다.

3D 가우시안 스플래팅(3D Gaussian Splatting, 3DGS)은 NeRF의 극심한 성능 한계에 대한 직접적인 해답으로 등장했다. 3DGS는 장면을 신경망으로 표현하는 대신, 수백만 개의 3D 가우시안(Gaussian)이라는 명시적인 기본 단위(primitive)의 집합으로 표현한다.29 각 가우시안은 3D 위치(중심점), 3D 공분산(모양과 회전), 색상(시선 의존 효과를 위해 구면 조화 함수(Spherical Harmonics)로 표현), 그리고 불투명도(α)라는 파라미터들로 정의된다.30

3DGS는 NeRF에 대한 반발이 아니라, 그로부터 직접적으로 진화한 기술로 보아야 한다. 3DGS는 NeRF의 핵심 최적화 원리인 ‘분석에 의한 합성’을 그대로 유지하되, NeRF의 가장 큰 병목이었던 느린 MLP를 GPU의 고도로 최적화된 래스터화 파이프라인에 친화적인 빠르고 명시적인 프리미티브로 대체했다. NeRF의 병목은 모든 광선의 모든 샘플링 지점에 대해 MLP를 반복적으로 호출하는 데 있었다.39 이를 해결하기 위해 3DGS 개발자들은 래스터화라는 고전적인 그래픽스 기술에 주목했다. 전통적인 래스터화는 삼각형을 사용하지만, 이미지로부터 고품질의 삼각형 메시를 만드는 것 자체가 어려운 문제였다. 대신 그들은 ‘가우시안’이라는 새로운 프리미티브를 제안했다. 가우시안은 딱딱한 표면의 삼각형과 달리 부드러운 체적을 가진 ‘얼룩(splat)’과 같아서, 불확실성을 내포한 이미지 기반 복원에 더 자연스럽게 부합했다.29 그리고 가장 결정적인 혁신은 바로 이 가우시안을 렌더링하는 과정을 미분 가능하게 만든 것이었다.31 이를 통해 NeRF와 동일한 최적화 루프를 사용하면서도, MLP 가중치 대신 명시적인 가우시안들의 파라미터(위치, 색상, 모양 등)를 직접 업데이트할 수 있게 되었다. 이는 성능 문제를 단번에 해결한 발상의 전환이었다.

진정한 의미의 FVV를 위해서는 시간에 따라 변화하는 동적 장면을 모델링하는 것이 필수적이다. 초기 연구들은 비강체 메시 추적(non-rigid mesh tracking)과 같은 기법을 사용하여 움직임을 표현하려 시도했다.6 그러나 신경망 기반 표현 방식의 등장은 동적 장면 렌더링에 새로운 가능성을 열었다.

NeRF를 동적 장면에 적용하려는 시도들은 주로 MLP에 시간(t)을 추가적인 입력으로 넣거나, 각 시간대별로 장면이 어떻게 변형되는지를 학습하는 변형 필드(deformation field)를 도입하는 방식으로 이루어졌다. 하지만 단일 MLP가 장면의 기하학, 외형, 그리고 시간의 흐름에 따른 움직임까지 모두 학습해야 하는 복잡하고 얽힌 문제 때문에 한계가 있었다.

반면, 3DGS는 동적 장면 모델링 분야에서 매우 빠른 발전을 보이고 있다. 이는 3DGS의 명시적인 표현 방식이 움직임을 모델링하는 데 본질적으로 더 직관적이고 적합하기 때문이다.

3DGS의 명시적인 특성은 NeRF의 암시적인 단일체(monolithic) MLP에 비해 동역학을 모델링하는 데 근본적으로 더 유리하다. NeRF의 움직임을 모델링하려면 단일 MLP가 장면의 모든 것을 한 번에 학습해야 하는 어려운 문제에 직면한다. 반면, 3DGS에서는 장면이 이미 수백만 개의 개별 프리미티브로 분해되어 있으므로, 동역학 모델링은 “이 개별 프리미티브들이 어떻게 움직이는가?”라는 훨씬 직관적인 문제로 환원될 수 있다.40 각 가우시안에 움직임 벡터를 할당하거나 변형을 학습시키는 것이 훨씬 직접적이다. 이러한 명시성은 하이브리드 3D-4DGS 접근법처럼 정적인 영역의 가우시안에서는 시간 차원을 간단히 ‘끄는’ 식의 효율적인 모델링을 가능하게 한다.41 이는 단일 연속 함수인 NeRF에서는 적용하기 어려운 개념이다. 또한, 명시적인 포인트들은 SLAM 시스템의 LiDAR 포인트 클라우드와 같은 다른 명시적 데이터 소스와 더 쉽게 통합될 수 있다.43 결론적으로, 3DGS가 장면을 명시적 프리미티브로 분해한 것은 동역학 모델링 문제를 근본적으로 단순화하여 NeRF의 전체론적 접근 방식보다 더 직접적이고 제어 가능하며 효율적인 솔루션을 가능하게 했다.

FVV를 위한 핵심 장면 표현 기술들인 MPI, NeRF, 3DGS는 각각 뚜렷한 장단점을 가지며, 특정 응용 분야에 따라 그 유용성이 달라진다. 이들의 기술적 특성을 다각도로 비교하면 다음과 같다.

기준 다중 평면 이미지 (MPI) 뉴럴 래디언스 필드 (NeRF) 3D 가우시안 스플래팅 (3DGS)
핵심 표현 방식 준-명시적 (계층적 RGBα 평면) 완전 암시적 (MLP를 통한 연속 5D 함수) 완전 명시적 (이산적 3D 가우시안 프리미티브)
렌더링 메커니즘 미분 가능한 변환 및 합성 미분 가능한 체적 광선 행진 미분 가능한 타일 기반 래스터화
렌더링 속도 실시간 매우 느림 (오프라인) 실시간 (>30fps)
학습 시간 빠름 ~ 보통 매우 느림 (수 시간/수 일) 빠름 (수 분/수 시간)
시각적 품질 양호하나, 계층/이산화 오류 발생 가능 최첨단 수준의 사진 현실감 최첨단 수준, 거의 사진과 흡사
시선 의존 효과 제한적인 비-람베르트 효과 표현 탁월함 (반사, 투명도) 양호함 (구면 조화 함수 사용), 거울 등 복잡한 효과에는 한계
메모리 사용량 보통 (계층 수/해상도에 의존) 작음 (MLP 가중치는 압축적) 큼 (수백만 개의 전체 공분산 행렬 저장)
편집/상호작용성 낮음 (계층이 뷰 절두체에 종속) 매우 낮음 (암시적 함수는 블랙박스) 보통 (프리미티브가 명시적이어서 조작 가능)
동적 장면 처리 어려움 (프레임별 MPI 필요) 어려움 (복잡한 확장 필요) 다수의 효과적인 접근법으로 빠르게 발전 중
깊이 표현 명시적, 이산적 (평면 깊이) 암시적, 연속적 (밀도 σ로부터 파생) 명시적으로 저장 안 됨, 렌더링 시 정렬 키로만 사용
데이터 소스 11 17 21

이 표는 각 기술의 철학적 차이(암시적 vs. 명시적), 성능적 트레이드오프(속도 vs. 메모리), 그리고 기능적 차이(시선 의존성 vs. 편집 용이성)를 한눈에 파악할 수 있게 해준다. 이러한 구조화된 비교는 특정 응용에 어떤 기술을 사용할지 정보에 입각한 결정을 내리고, 가상의 “DiAD” 모델이 추구해야 할 방향을 이해하는 기초가 된다.

각 기술은 고유한 형태의 시각적 오류를 생성하는 경향이 있다.

두 방법 모두 초기 SfM 단계에서 추정된 카메라 포즈의 정확도에 매우 민감하다. 부정확한 캘리브레이션은 재구성 품질을 저하하는 주요 원인이다.8

일부 사용자 경험 보고에서는 3DGS의 처리 시간이 NeRF보다 오히려 더 오래 걸렸다는 상반된 결과가 나타나기도 한다.44 이는 3DGS 알고리즘 자체의 근본적인 결함이라기보다는, 특정 구현체의 세부 사항, 하드웨어 환경(예: CUDA 가속을 통한 고속 정렬 기능의 부재) 31, 또는 전체 파이프라인에서 SfM 단계가 차지하는 시간 등 복합적인 요인에 기인할 가능성이 높다. 이는 실제 현장에서의 성능이 단순한 학술적 벤치마크보다 더 복잡한 변수에 의해 좌우됨을 시사한다.

이러한 비교 분석을 통해 우리는 하나의 ‘최고의’ 모델은 존재하지 않으며, 렌더링 속도, 모델 편집 용이성, 그리고 사진 현실적인 빛 전파(light transport) 표현 사이에 근본적인 ‘삼중고(trilemma)’가 존재함을 알 수 있다. NeRF는 복잡한 반사와 같은 빛 전파 표현에 탁월하지만 17, 이로 인해 렌더링이 느리고 편집이 거의 불가능하다.22 3DGS는 렌더링 속도와 편집 용이성에서 뛰어나지만 29, 구면 조화 함수를 통한 시선 의존 효과 표현은 근사치이며 NeRF가 자연스럽게 처리하는 복잡한 빛 전파를 완벽히 재현하는 데는 한계가 있다.35 고전적인 메시는 편집이 매우 용이하고 렌더링도 빠르지만, 학습 기반 방법들이 달성한 사진 현실감을 이미지로부터 직접 얻어내기는 어렵다. 따라서 사용자와 연구자는 이 삼중고의 어떤 꼭짓점을 우선시할지 선택해야 한다. 실시간성, 완전한 편집 가능성, 완벽한 사진 현실감을 모두 갖춘 FVV의 ‘성배’는 아직 존재하지 않으며, 바로 이 해결되지 않은 긴장감이 미래 연구와 “DiAD”와 같은 새로운 모델을 구상하게 하는 주된 동력이다.

본 보고서의 분석을 종합하여 사용자의 질의인 “DiAD 모델에 대한 고찰”에 답하고자 한다. “DiAD”라는 용어에서 가장 중요한 단서는 “깊이 인식(Depth-aware)”일 가능성이 높다. 이는 깊이 정보가 각 기술 패러다임에서 어떻게 다루어지는지를 재검토할 필요성을 제기한다.

이러한 관점에서 볼 때, “DiAD”는 깊이 정보가 렌더링의 부산물이 아니라, 장면 표현 내에서 제어 가능하고 핵심적인 역할을 하는 ‘일급 시민(first-class citizen)’으로 취급되는 시스템을 지향할 것으로 추론할 수 있다.

기존 방법들의 강점을 결합하고 약점을 보완하는 차세대 “DiAD” 모델의 아키텍처로 다음과 같은 몇 가지 가설을 제시할 수 있다.

FVV 기술의 미래는 암시적 표현과 명시적 표현의 지속적인 융합을 향해 나아갈 것이다. 즉, 학습된 사전 정보와 신경망 구성 요소를 활용하되, 최종적으로는 래스터화에 친화적인 명시적 프레임워크 내에서 작동하는 하이브리드 형태가 주를 이룰 것으로 예측된다. NeRF의 약점은 기하학과 외형이 MLP 가중치 안에 얽혀 있어 느리고 편집이 어렵다는 점이다. 3DGS의 약점은 기하학이 단순히 점들의 집합이라 실제 표면에 대한 이해가 부족하고 오류를 유발할 수 있다는 점이다. MPI는 명시적인 기하학 구조를 가졌지만 너무 경직되었다.

“DiAD” 모델은 논리적으로 기하학(깊이)과 외형(색상)을 분리(decouple)하려는 시도일 것이다. 먼저 장면의 기하학적 구조를 강건하게 추정한 다음, 그 명시적인 구조를 기반으로 고품질의 실시간 렌더링을 수행하는 것이다. 이는 장면의 깊이를 정확히 알면 NeRF의 광선 행진을 효율적으로 멈추거나, 3DGS의 가려진 가우시안을 훨씬 효과적으로 제거할 수 있기 때문이다. 궁극적인 목표는 우리의 4차원 시공간을 완벽하게 상호작용 가능하고, 사진처럼 사실적이며, 실시간으로 렌더링되고, 쉽게 편집할 수 있는 단일 표현 방식으로 담아내는 것이다. “DiAD”는 이러한 목표를 향한 중요한 진화의 한 단계가 될 것이다.