Booil Jung

래스터라이제이션 기술

컴퓨터 그래픽스의 근본적인 도전 과제는 우리가 인지하는 연속적인 3차원 기하학 세계를 모니터나 스크린과 같은 이산적인 2차원 픽셀 그리드에 표현하는 것입니다. 이 변환 과정의 효율성과 정확성이 실시간 렌더링의 성패를 좌우합니다. 래스터라이제이션(Rasterization)은 이 문제를 해결하기 위해 지난 수십 년간 실시간 그래픽스 분야를 지배해 온 핵심적인 알고리즘 패러다임입니다. 그 본질은 삼각형과 같은 벡터 그래픽 형식의 기하학적 기본 단위(primitive)를 래스터 이미지, 즉 픽셀의 집합으로 변환하는 과정에 있습니다.

이 보고서의 분석을 관통하는 핵심적인 개념적 틀은 렌더링 접근 방식의 차이입니다. 래스터라이제이션은 ‘객체 순서(object-order)’ 렌더링 방식에 속합니다. 이는 장면의 각 기하학적 객체(예: 삼각형)를 순회하며 해당 객체가 화면의 어떤 픽셀에 영향을 미치는지를 계산하는 방식입니다. 반면, 레이 트레이싱(Ray Tracing)은 ‘이미지 순서(image-order)’ 렌더링으로, 화면의 각 픽셀에서부터 광선을 투사하여 해당 픽셀에 어떤 객체가 보이는지를 결정합니다. 이 근본적인 접근 방식의 차이는 래스터라이제이션의 아키텍처, 성능 특성, 그리고 본질적인 한계를 규정하는 가장 중요한 요소입니다.

래스터라이제이션이 오랫동안 실시간 그래픽스의 표준으로 자리 잡은 이유는 물리적 정확성 때문이 아니라, 타의 추종을 불허하는 계산 효율성과 병렬 하드웨어 실행에 대한 탁월한 적합성 때문입니다. 실시간 그래픽스의 역사는 사실상 이 효율성을 유지하면서 시각적 충실도를 점진적으로 향상시키기 위한 알고리즘 및 아키텍처 혁신의 역사라 할 수 있습니다. 즉, 래스터라이제이션은 물리적으로 완벽한 시뮬레이션이 아닌, ‘그럴듯하게 보이는’ 이미지를 가장 빠르게 생성하는 것을 목표로 하는 실용주의적 철학의 산물입니다.

본 보고서는 래스터라이제이션의 기술적 측면을 심층적으로 분석합니다. 제1장에서는 3D 모델이 2D 픽셀로 변환되는 과정인 그래픽스 파이프라인의 구조를 해부합니다. 제2장에서는 Z-버퍼링, 보간법, 셰이딩 등 픽셀의 최종 색상을 결정하는 핵심 알고리즘들을 상세히 다룹니다. 제3장에서는 이러한 알고리즘을 실행하는 심장부인 GPU 아키텍처와 프로그래머블 셰이더의 혁명을 조명합니다. 제4장에서는 지연 렌더링, 안티에일리어싱 등 현대적인 래스터라이제이션 기술의 진화를 살펴봅니다. 마지막으로 제5장에서는 래스터라이제이션의 본질적 한계를 명확히 하고, 레이 트레이싱과의 결합을 통해 미래 렌더링 패러다임이 어떻게 변화하고 있는지를 전망하며 보고서를 마무리합니다.

그래픽스 파이프라인은 3D 데이터를 2D 이미지로 점진적으로 변환하는 일련의 처리 단계로 구성된 개념적 모델입니다. 이 파이프라인은 데이터의 흐름을 체계적으로 관리하며, 각 단계는 특정 작업을 수행하여 다음 단계로 결과를 전달하는 컨베이어 벨트처럼 작동합니다. OpenGL이나 DirectX와 같은 그래픽스 API는 이러한 ‘논리적 파이프라인’을 정의하며, 개발자는 이 모델을 기반으로 렌더링 코드를 작성합니다. 반면, GPU는 이 논리적 파이프라인을 하드웨어 상에서 가장 효율적으로 실행하기 위한 ‘물리적 구현체’입니다. 이 둘 사이의 관계를 이해하는 것은 현대 그래픽스 프로그래밍의 핵심입니다.

파이프라인의 구조는 단순히 순차적인 단계의 나열이 아니라, 방대한 기하학적 데이터로부터 최종 픽셀 색상을 계산하기까지 데이터를 체계적으로 축소하고 전문화하는 깔때기와 같습니다. 입력 단계에서는 수백만 개의 정점(vertex) 데이터로 시작하여, 변환과 클리핑을 통해 불필요한 데이터를 제거하고, 래스터화 단계를 거치며 수백만 개의 프래그먼트(fragment)로 확장됩니다. 이후 깊이 테스트를 통해 이 프래그먼트의 상당수가 다시 제거됩니다. 이러한 데이터의 확장과 축소 흐름을 이해하는 것은 파이프라인의 성능 병목 현상을 분석하고 최적화하는 데 매우 중요합니다.

표 1.1: 논리적 그래픽스 파이프라인 단계

단계 이름 (Stage Name)	입력 (Input)	핵심 기능 (Core Function)	출력 (Output)	프로그래밍 가능 여부
입력 어셈블러 (Input Assembler)	정점 버퍼, 인덱스 버퍼	메모리에서 정점 데이터를 읽어 프리미티브 구성	정점 스트림	고정 기능
정점 셰이더 (Vertex Shader)	개별 정점 데이터	모델/월드/뷰/투영 변환 수행	동차 클립 공간의 정점	프로그래밍 가능
프리미티브 어셈블리/클리핑	변환된 정점들	정점을 삼각형 등으로 조립, 뷰 프러스텀 외부 절단	클리핑된 프리미티브	고정 기능
래스터라이저 (Rasterizer)	화면 공간의 프리미티브	프리미티브가 덮는 픽셀 그리드를 결정하여 프래그먼트 생성	프래그먼트 스트림	고정 기능
프래그먼트 셰이더 (Fragment Shader)	개별 프래그먼트	텍스처링, 조명 계산 등을 통해 프래그먼트의 최종 색상 결정	색상 및 깊이 값	프로그래밍 가능
출력 병합 (Output Merger)	처리된 프래그먼트	깊이/스텐실 테스트, 블렌딩을 통해 프레임버퍼에 최종 픽셀 기록	최종 픽셀 이미지	고정 기능

파이프라인의 첫 번째 주요 단계는 개별 정점 데이터를 처리하는 것입니다. 입력 어셈블러(Input Assembler)는 GPU 메모리에 저장된 정점 버퍼(Vertex Buffer)로부터 위치, 색상, 법선 벡터, 텍스처 좌표(UV) 등의 데이터를 읽어와 파이프라인이 처리할 수 있는 형태로 조립합니다.

이렇게 조립된 정점들은 첫 번째 프로그래밍 가능 단계인 정점 셰이더(Vertex Shader)로 전달됩니다. 정점 셰이더의 핵심 역할은 좌표계 변환입니다. 3D 모델은 고유의 좌표계(모델 공간)를 가지며, 이 모델을 장면의 특정 위치에 배치하기 위해 월드 공간으로, 카메라의 시점에서 보기 위해 뷰 공간(카메라 공간)으로, 그리고 최종적으로 2D 화면에 투영하기 위해 클립 공간으로 변환해야 합니다. 이 과정에서 원근 투영(perspective projection)과 같은 변환 행렬이 사용되며, 그 결과물은 동차 클립 공간(homogeneous clip space)이라는 표준화된 정육면체 공간 내의 정점들입니다.

정점 처리가 완료되면, 이 정점들을 기하학적 기본 단위인 프리미티브(primitive)로 조립합니다. 프리미티브 어셈블리(Primitive Assembly) 단계에서는 정점 셰이더에서 출력된 정점들을 묶어 삼각형, 선, 점 등을 만듭니다.

이후 클리핑(Clipping) 단계가 이어집니다. 이는 화면에 보이지 않는, 즉 뷰 프러스텀(view frustum) 외부에 완전히 또는 부분적으로 위치한 프리미티브를 잘라내거나 폐기하는 매우 중요한 고정 기능 단계입니다. 클리핑은 이후의 비싼 연산(래스터화, 프래그먼트 셰이딩)이 불필요한 기하학에 대해 수행되는 것을 막아주는 핵심적인 효율성 최적화 과정입니다. 프러스텀 경계에 걸쳐 있는 삼각형은 잘려서 새로운 정점과 삼각형을 생성하게 됩니다.

이 단계는 파이프라인 전체의 이름이 유래된 곳으로, ‘벡터’에서 ‘래스터’로의 변환이 실제로 일어나는 지점입니다. 래스터화 단계는 클리핑된 화면 공간상의 프리미티브(주로 삼각형)를 입력으로 받아, 해당 프리미티브가 2D 픽셀 그리드 상에서 정확히 어떤 픽셀 중심점들을 덮고 있는지를 판별합니다. 이 과정의 결과물은 최종 픽셀이 아니라 ‘프래그먼트(fragment)’입니다. 프래그먼트는 픽셀이 될 수 있는 후보로, 위치 정보뿐만 아니라 다음 단계를 위해 보간된 색상, 법선, 텍스처 좌표 등의 속성 값을 포함합니다.

래스터라이저가 생성한 모든 프래그먼트는 두 번째 주요 프로그래밍 가능 단계인 프래그먼트 셰이더(Fragment Shader, 또는 픽셀 셰이더)로 전달됩니다. 프래그먼트 셰이더의 임무는 각 프래그먼트의 최종 색상을 결정하는 것입니다. 현대 그래픽스에서 가장 시각적으로 복잡하고 계산 비용이 높은 작업들이 바로 이 단계에서 수행됩니다. 텍스처 맵을 조회하여 표면의 디테일을 입히고, 조명 모델을 계산하여 음영을 표현하는 작업이 여기에 해당합니다. 프래그먼트 셰이더의 복잡성은 단순한 색상 조회에서부터 물리 기반 렌더링(PBR)의 정교한 재질 함수 평가에 이르기까지 폭발적으로 증가해 왔습니다.

파이프라인의 마지막 단계는 처리된 프래그먼트들을 프레임버퍼(framebuffer)에 기록하여 최종 이미지를 완성하는 출력 병합(Output Merger)입니다. 이 단계에서는 여러 중요한 테스트가 수행됩니다.

가장 핵심적인 것은 깊이/스텐실 테스트(Depth/Stencil Test)입니다. 이는 가시성 문제, 즉 어떤 객체가 다른 객체 앞에 있는지를 판별하는 과정입니다. Z-버퍼(Z-buffer)라는 별도의 메모리 버퍼에는 각 픽셀 위치에 현재까지 그려진 가장 가까운 객체의 깊이 값(z-값)이 저장되어 있습니다. 새로 들어온 프래그먼트의 깊이 값이 Z-버퍼에 저장된 값보다 크다면(즉, 더 멀리 있다면), 해당 프래그먼트는 폐기됩니다. 이 메커니즘을 통해 뒤에 있는 물체가 앞에 있는 물체를 덮어쓰는 현상을 방지하며, 이는 래스터라이제이션의 가장 중요한 폐색 판별(occlusion culling) 기법입니다.

깊이 테스트를 통과한 프래그먼트에 대해서는 블렌딩(Blending) 작업이 수행될 수 있습니다. 이는 반투명 객체를 표현하기 위해 프래그먼트의 색상을 프레임버퍼에 이미 저장된 색상과 혼합하는 과정입니다.

래스터라이제이션 파이프라인의 각 단계는 특정 알고리즘에 의해 구동됩니다. 이 알고리즘들은 물리 현상을 계산적으로 다루기 쉬운 형태로 근사하는 ‘영리한 속임수(clever hacks)’의 집합체이며, 이러한 실용적인 접근 방식이 실시간 그래픽스 산업을 가능하게 한 공학적 천재성의 발현입니다.

주사선 변환(Scanline Conversion)은 삼각형 내부를 채우는 고전적인 알고리즘입니다. 삼각형의 각 변(edge)을 따라 이동하며, 각 수평 주사선(scanline)에 대해 삼각형이 시작하고 끝나는 픽셀을 찾아 그 사이를 채우는 방식으로 작동합니다.

삼각형 내부의 각 프래그먼트에 대한 속성 값(색상, 법선 벡터, 텍스처 좌표 등)을 어떻게 결정할까요? 그 수학적 기반은 중심 좌표계(Barycentric Coordinates)입니다. 삼각형 내의 임의의 한 점은 세 꼭짓점의 가중치 합으로 표현될 수 있으며, 이 가중치가 바로 중심 좌표입니다. 예를 들어, 한 프래그먼트의 텍스처 좌표는 삼각형 세 꼭짓점의 텍스처 좌표를 해당 프래그먼트의 중심 좌표를 이용해 가중 평균하여 얻을 수 있습니다. 이 덕분에 꼭짓점에만 정의된 속성들이 삼각형 표면 전체에 걸쳐 부드럽게 보간(interpolate)될 수 있습니다.

그러나 화면 공간에서 단순히 선형 보간을 수행하면 원근 왜곡으로 인해 심각한 시각적 오류(예: 텍스처가 표면에서 미끄러지는 듯한 현상)가 발생합니다. 이를 해결하기 위해 투시 보정 보간(Perspective-Correct Interpolation)이 필수적입니다. 이는 각 속성을 동차 좌표계의 $w$ 값으로 나눈 뒤 보간하고, 프래그먼트 셰이더에서 다시 보간된 $w$ 값으로 나누어 원래 값으로 복원하는 방식입니다. 이 과정은 계산적으로는 다소 복잡하지만, 3D 공간의 원근감을 정확하게 유지하기 위해 반드시 필요합니다.

초기 컴퓨터 그래픽스에서는 화가 알고리즘(Painter’s Algorithm)이 사용되었습니다. 이는 마치 화가가 캔버스에 그림을 그리듯, 장면의 모든 다각형을 카메라로부터 먼 것부터 가까운 순서로 정렬하여 그리는 방식입니다. 하지만 이 방법은 다각형들이 서로 순환적으로 겹쳐 있을 때 정렬이 불가능하고, 정렬 자체에 많은 비용이 드는 치명적인 한계를 가졌습니다.

이 문제에 대한 결정적인 해결책으로 등장한 것이 바로 Z-버퍼 알고리즘(The Z-Buffer Algorithm)입니다. Z-버퍼는 화면의 각 픽셀에 해당하는 깊이 값을 저장하는 2D 배열입니다. 렌더링 시, 새로 그려질 프래그먼트의 깊이 값을 버퍼에 저장된 값과 비교합니다. 만약 새 프래그먼트가 더 가깝다면(깊이 값이 작다면), 해당 픽셀의 색상과 깊이 값을 모두 업데이트합니다. 그렇지 않다면 프래그먼트는 폐기됩니다. 이 알고리즘은 정렬이 필요 없으며, 각 픽셀에 대한 연산이 독립적이어서 GPU의 대규모 병렬 처리에 완벽하게 부합하는 단순하고 강력한 해결책입니다.

하지만 Z-버퍼는 유한한 정밀도를 가진 부동소수점 값을 사용하기 때문에 Z-파이팅(Z-Fighting)이라는 문제를 야기할 수 있습니다. 두 개의 폴리곤이 거의 동일한 위치에 있을 때, 깊이 값의 미세한 차이가 반올림 오차로 인해 프레임마다 다르게 판정되어 표면이 깜빡이는 현상입니다. 이는 가까운 클리핑 평면(near clip plane)과 먼 클리핑 평면(far clip plane)의 간격을 적절히 조절하거나, 24비트 또는 32비트 부동소수점과 같이 더 높은 정밀도의 깊이 버퍼를 사용하여 완화할 수 있습니다.

셰이딩은 표면의 재질과 빛의 상호작용을 계산하여 색상을 결정하는 과정입니다. 래스터라이제이션은 물리적으로 정확한 빛의 경로를 추적하지 않는 대신, 국소 조명 모델(Local Illumination Model)을 사용합니다.

구로 셰이딩(Gouraud Shading): 각 꼭짓점에서 조명 계산을 수행한 후, 그 결과 색상 값을 삼각형 내부로 보간하는 방식입니다. 매우 빠르지만, 정반사 하이라이트(specular highlight)와 같이 표면 중간에서 나타나야 하는 효과를 제대로 표현하지 못하고 밋밋하게 보입니다.
퐁 셰이딩(Phong Shading): 꼭짓점의 법선 벡터를 보간한 뒤, 프래그먼트 셰이더에서 프래그먼트 단위로 조명 계산을 수행합니다. 이 방식은 구로 셰이딩보다 계산 비용이 높지만, 표면 전체에 걸쳐 부드럽고 정확한 하이라이트를 표현할 수 있어 훨씬 사실적인 결과를 제공합니다. 현대의 모든 실시간 셰이딩은 이 ‘프래그먼트 단위’ 계산 방식을 기반으로 합니다.

현대의 프래그먼트 셰이더는 물리 기반 렌더링(Physically Based Rendering, PBR) 원칙을 적용하여 훨씬 더 정교한 셰이딩을 수행합니다. PBR은 빛이 표면과 상호작용하는 방식을 모델링하는 BRDF(Bidirectional Reflectance Distribution Function)라는 함수를 평가합니다. 텍스처를 통해 입력된 Base Color, Metallic, Roughness와 같은 물리적 속성들을 사용하여, 프래그먼트 셰이더는 특정 재질(예: 금속, 플라스틱, 나무)이 빛에 어떻게 반응하는지를 매우 사실적으로 시뮬레이션할 수 있습니다.

텍스처링은 적은 폴리곤으로도 표면에 복잡한 디테일을 추가할 수 있는 핵심 기술입니다. UV 매핑(UV Mapping)은 3D 모델의 표면을 2D 평면에 펼친 뒤, 이 2D 좌표(U, V)를 이용해 2D 텍스처 이미지를 3D 모델에 입히는 과정입니다.

밉매핑(Mipmapping)은 텍스처링의 품질과 성능을 동시에 향상시키는 필수적인 최적화 기법입니다. 이는 원본 텍스처에 대해 미리 여러 단계의 저해상도 버전을 생성해두는 것입니다. 렌더링 시, GPU는 화면에 표시될 텍스처의 크기와 가장 유사한 해상도의 밉맵 레벨을 선택하여 샘플링합니다. 이를 통해 멀리 있는 객체의 텍스처가 반짝거리거나 지저분해 보이는 에일리어싱(aliasing) 현상을 방지하고, 더 작은 텍스처를 메모리에서 읽어오므로 캐시 효율성을 크게 향상시킵니다.

텍스처 필터링(Texture Filtering)은 텍스처를 확대하거나 축소할 때 픽셀이 깨져 보이는 것을 방지하기 위해 여러 텍셀(texel, 텍스처의 픽셀)을 혼합하는 기술입니다.

쌍선형/삼선형 필터링(Bilinear/Trilinear Filtering): 쌍선형 필터링은 픽셀 주변의 4개 텍셀을 보간하여 부드러운 색상을 만듭니다. 삼선형 필터링은 여기서 더 나아가, 인접한 두 밉맵 레벨의 결과를 다시 보간하여 밉맵 레벨 간의 전환이 갑작스럽게 보이지 않도록 합니다.
비등방성 필터링(Anisotropic Filtering): 이는 가장 높은 품질의 필터링 방식으로, 비스듬한 각도에서 바라보는 표면에 필수적입니다. 기존 필터링이 정사각형 형태로 텍셀을 샘플링하는 반면, 비등방성 필터링은 원근 왜곡을 고려하여 타원형에 가까운 형태로 샘플링합니다. 이로 인해 비스듬한 바닥이나 벽면의 텍스처가 흐릿해지지 않고 선명하게 유지됩니다.

래스터라이제이션 알고리즘의 발전은 이를 실행하는 하드웨어, 즉 GPU(Graphics Processing Unit)의 발전과 궤를 같이합니다. GPU 아키텍처의 변화는 래스터라이제이션의 표현력과 효율성을 극적으로 확장시켰습니다.

초기 GPU(예: NVIDIA GeForce 3 이전 세대)는 고정 기능 파이프라인(Fixed-Function Pipeline) 구조를 가졌습니다. 이는 그래픽스 파이프라인의 각 단계(변환, 조명, 텍스처링 등)가 프로그래밍이 불가능한 전용 하드웨어 블록으로 구현되었음을 의미합니다. 개발자는 API를 통해 이러한 하드웨어의 특정 매개변수를 설정하고 활성화할 수는 있었지만, 그 내부 로직 자체를 변경할 수는 없었습니다. 하드웨어가 렌더링의 기능과 한계를 직접적으로 정의하던 시대였습니다.

2000년대 초, 프로그래밍 가능한 정점 셰이더와 프래그먼트 셰이더의 등장은 실시간 그래픽스 역사상 가장 중요한 변곡점이었습니다. 이 혁신은 GPU를 단순히 고정된 작업을 수행하는 가속기에서, 데이터 스트림을 처리하는 고도로 병렬화된 컴퓨터로 변모시켰습니다.

정점 셰이더의 프로그래밍 가능성은 개발자가 정점 단위로 독창적인 연산을 수행할 수 있게 했습니다. 캐릭터의 뼈대를 따라 정점을 변형시키는 스키닝(skinning) 애니메이션, 절차적으로 생성되는 지형, 출렁이는 물 표면과 같은 복잡한 기하학적 변형을 CPU의 부담 없이 GPU에서 직접 처리할 수 있게 되었습니다.
프래그먼트 셰이더의 프로그래밍 가능성은 시각 효과의 폭발적인 발전을 이끌었습니다. 프래그먼트 단위의 정교한 조명 계산(Per-pixel lighting), 표면에 울퉁불퉁한 질감을 더하는 범프 매핑(bump mapping)과 패럴랙스 매핑(parallax mapping), 그리고 오늘날의 물리 기반 렌더링(PBR)에 이르기까지, 사실적인 재질 표현의 대부분은 이 단계의 유연성 덕분에 가능해졌습니다.

이러한 발전은 통합 셰이더 아키텍처(Unified Shader Architecture)로 이어졌습니다. 과거에는 정점 처리 유닛과 프래그먼트 처리 유닛이 물리적으로 분리되어 있어, 특정 장면에 정점 연산이 많으면 프래그먼트 유닛이 유휴 상태가 되는 비효율이 발생했습니다. 통합 셰이더 아키텍처는 이러한 구분을 없애고, 다목적으로 사용될 수 있는 수많은 처리 코어(processing core)의 풀(pool)을 만듭니다. 그리고 스케줄러가 작업 부하에 따라 이 코어들을 정점, 지오메트리, 또는 프래그먼트 셰이딩 작업에 동적으로 할당합니다. 이 구조는 하드웨어 활용률을 극대화하여 전반적인 성능을 크게 향상시켰습니다. 이 유연성은 그래픽스를 넘어, GPU를 인공지능 및 과학 컴퓨팅에 활용하는 GPGPU(General-Purpose computing on GPU) 시대의 기반을 마련하는 예기치 않은 결과를 낳았습니다.

현대 GPU는 SIMT(Single Instruction, Multiple Thread) 실행 모델을 기반으로 작동합니다. 이는 하나의 명령어(예: 셰이더 프로그램의 한 줄)가 ‘워프(warp)’ 또는 ‘웨이브프론트(wavefront)’라고 불리는 32개 또는 64개의 스레드 그룹에 의해 동시에(lockstep) 실행되는 방식입니다. 각 스레드는 개별 정점 또는 프래그먼트 데이터를 처리합니다.

래스터라이제이션의 핵심 알고리즘들은 이러한 SIMT 아키텍처에 이상적으로 부합합니다. Z-버퍼 테스트, 중심 좌표 보간, 텍스처 조회와 같은 작업들은 대부분 다른 픽셀이나 정점의 결과에 의존하지 않는 독립적인 연산입니다. 따라서 수천 개의 코어가 수만 개의 프래그먼트를 동시에 처리하는 대규모 병렬 처리가 가능하며, 이것이 래스터라이제이션이 실시간 성능을 달성하는 근본적인 이유입니다.

래스터라이제이션은 단일한 파이프라인에 머무르지 않고, 성능 병목을 해결하고 시각적 품질을 높이기 위해 끊임없이 진화해 왔습니다. 현대 렌더링 엔진은 고전적인 파이프라인을 변형하거나 보완하는 정교한 기법들을 조합하여 사용합니다.

고전적인 포워드 렌더링(Forward Rendering) 파이프라인은 각 객체를 그릴 때마다 장면에 있는 모든 광원에 대한 조명 계산을 수행합니다. 만약 장면에 M개의 광원과 N개의 객체가 있다면, 최악의 경우 $N \times M$ 에 비례하는 조명 연산이 필요합니다. 더 큰 문제는, 이 계산 중 상당수가 나중에 Z-테스트에 의해 가려져서 폐기될 프래그먼트에 대해 수행된다는 점입니다. 이는 엄청난 계산 낭비입니다.

지연 셰이딩/렌더링(Deferred Shading/Rendering)은 이 문제를 해결하기 위해 파이프라인의 연산 순서를 근본적으로 바꾼 2단계 기법입니다.

지오메트리 패스(Geometry Pass): 첫 번째 단계에서는 조명 계산을 전혀 하지 않고 장면을 렌더링합니다. 대신, 화면에 보이는 각 픽셀의 기하학적 정보(깊이, 법선 벡터, 재질 속성 등)를 G-버퍼(Geometry Buffer)라고 불리는 여러 개의 텍스처에 저장합니다.
라이팅 패스(Lighting Pass): 두 번째 단계에서는 G-버퍼를 입력으로 사용하여 화면 공간에서 조명 계산을 수행합니다. 이제 조명 계산은 3D 객체의 복잡도와 무관하게, 오직 화면 해상도와 광원의 영향 범위에만 의존하게 됩니다. 이를 통해 수백, 수천 개의 동적 광원을 효율적으로 처리할 수 있게 됩니다.

특히 모바일 및 내장 GPU에서는 타일 기반 지연 렌더링(Tile-Based Deferred Rendering, TBDR)이 핵심적인 아키텍처로 사용됩니다. 이 방식은 화면을 작은 타일(tile)로 분할하고, 각 타일에 속하는 지오메트리를 먼저 분류(binning)합니다. 그 후, 타일 단위로 렌더링을 진행하며 G-버퍼와 조명 계산에 GPU 내의 매우 빠른 온칩 메모리(on-chip memory)를 사용합니다. 이는 상대적으로 느리고 전력 소모가 큰 외부 메인 메모리와의 데이터 전송을 최소화하여, 메모리 대역폭이 제한된 환경에서 극적인 성능 향상을 가져옵니다.

조기 Z-테스트(Early-Z / Hi-Z)는 렌더링 파이프라인의 낭비를 줄이는 가장 중요한 하드웨어 최적화 중 하나입니다. 표준 파이프라인에서는 프래그먼트 셰이더가 실행된 후에야 Z-테스트가 수행됩니다. 하지만 만약 비용이 많이 드는 프래그먼트 셰이더를 실행하기 전에 Z-테스트를 수행하여 해당 프래그먼트가 가려진다는 것을 미리 알 수 있다면, 셰이더 실행 자체를 건너뛸 수 있습니다. 이는 오버드로(overdraw, 동일한 픽셀을 여러 번 덧그리는 현상)로 인한 계산 낭비를 획기적으로 줄여줍니다. 현대 GPU는 계층적 Z-버퍼(Hierarchical Z-buffer, Hi-Z)를 사용하여 픽셀 그룹 전체를 매우 빠르게 기각함으로써 이 최적화의 효율을 극대화합니다.

에일리어싱(Aliasing)은 연속적인 신호를 낮은 주파수로 샘플링할 때 발생하는 왜곡으로, 컴퓨터 그래픽스에서는 폴리곤의 가장자리가 계단처럼 보이는 ‘재기스(jaggies)’나 텍스처가 반짝이는 현상으로 나타납니다. 이를 완화하기 위해 다양한 안티에일리어싱(Anti-Aliasing, AA) 기법이 사용됩니다.

멀티샘플 안티에일리어싱(MSAA): 하드웨어 기반의 고전적인 방식으로, 한 픽셀 내부에 여러 개의 서브샘플(sub-sample)을 두고 각 서브샘플마다 깊이/스텐실 테스트를 수행합니다. 하지만 프래그먼트 셰이더는 픽셀당 한 번만 실행한 뒤, 그 결과를 커버리지 정보를 바탕으로 서브샘플들에 분배하여 최종 색상을 결정합니다. 기하학적 가장자리를 부드럽게 만드는 데 매우 효과적이지만, 메모리 대역폭 소모가 크고 셰이더 내부에서 발생하는 에일리어싱은 해결하지 못합니다.
후처리 안티에일리어싱(Post-Process AA): 렌더링이 완료된 최종 이미지에 필터를 적용하는 방식입니다.
- FXAA (Fast Approximate Anti-Aliasing): 이미지 전체에서 명암 대비가 높은 가장자리를 감지하고 이를 국소적으로 흐리게 만들어 계단 현상을 완화합니다. 성능 비용이 매우 낮아 널리 사용되지만, 텍스처의 디테일까지 흐리게 만들 수 있는 단점이 있습니다.
- TAA (Temporal Anti-Aliasing): 이전 프레임의 정보를 현재 프레임에 활용하는 정교한 기법입니다. 매 프레임마다 카메라 투영 행렬을 미세하게 흔들어(jittering) 샘플링 위치를 바꾸고, 이전 프레임의 결과를 현재 프레임으로 재투영(reprojection)하여 혼합합니다. 이를 통해 시간 축에 걸쳐 샘플링을 누적함으로써 기하학적 에일리어싱과 셰이더 에일리어싱 모두에 탁월한 효과를 보이며, 특히 움직이는 화면에서의 안정성을 크게 높여줍니다. 그러나 빠르게 움직이는 객체 주변에 잔상(ghosting)이나 블러가 발생하는 부작용이 있을 수 있습니다.

표 4.1: 안티에일리어싱 기법 비교 분석

기법	주요 대상	성능 비용	메모리 대역폭 비용	핵심 장점	핵심 단점/아티팩트
MSAA	기하학적 에일리어싱	중간-높음	높음	높은 가장자리 품질, 텍스처 블러 없음	셰이더/투명도 에일리어싱 미해결
FXAA	모든 종류의 에일리어싱	낮음	낮음	매우 빠르고 구현이 간단함	전체적인 이미지 블러, 디테일 손실
TAA	시간적/셰이더 에일리어싱	낮음-중간	낮음	뛰어난 시간적 안정성, 종합적 품질	움직임에 따른 잔상(ghosting), 블러

래스터라이제이션은 속도와 효율성 면에서 타의 추종을 불허하지만, 그 설계 철학에서 비롯된 본질적인 한계를 가지고 있습니다. 이러한 한계는 현실 세계의 복잡한 빛의 물리 현상을 정확하게 시뮬레이션하는 것을 어렵게 만듭니다.

래스터라이제이션의 한계는 대부분 ‘객체 순서’ 처리 방식과 ‘국소 조명’ 모델에서 기인합니다. 파이프라인은 각 객체를 독립적으로 처리하기 때문에, 객체들 간의 복잡한 광학적 상호작용을 자연스럽게 계산할 수 없습니다.

전역 조명 (Global Illumination): 빛이 한 표면에서 반사되어 다른 표면을 비추는 간접 조명 현상을 시뮬레이션할 수 없습니다. 이는 장면의 색감과 깊이감을 결정하는 중요한 요소로, 래스터라이제이션에서는 라이트맵(lightmap)을 미리 구워두거나 라이트 프로브(light probe) 같은 기술로 근사할 뿐입니다.
정확한 반사 및 굴절 (Accurate Reflections and Refractions): 거울이나 물 표면에 주변 환경이 정확하게 비치는 것을 표현하기 어렵습니다. 화면 공간의 정보만을 사용하는 스크린 스페이스 리플렉션(SSR)이나 정적인 환경 맵(environment map)과 같은 기법으로 흉내 내지만, 화면 밖의 객체가 비치지 않거나 왜곡이 발생하는 등 명백한 한계를 보입니다.
부드러운 그림자 (Soft Shadows): 광원의 크기로 인해 그림자 가장자리가 부드럽게 번지는 반그림자(penumbra)를 물리적으로 정확하게 생성하기 매우 어렵습니다. 섀도우 매핑(shadow mapping)과 그 변형 기법들(예: PCSS)이 널리 쓰이지만, 에일리어싱이나 부정확한 반그림자 등 여러 시각적 오류에 취약합니다.

레이 트레이싱(Ray Tracing)은 래스터라이제이션의 한계를 극복할 수 있는 대안적인 ‘이미지 순서’ 렌더링 패러다임입니다. 이 방식은 화면의 각 픽셀에서 가상의 광선을 카메라로부터 장면으로 발사하여, 그 광선이 처음으로 부딪히는 객체를 찾아 픽셀의 색상을 결정합니다.

레이 트레이싱의 진정한 힘은 재귀적인 특성에 있습니다. 광선이 객체 표면에 부딪혔을 때, 그 지점에서 반사, 굴절, 또는 그림자를 확인하기 위한 2차 광선(secondary rays)을 다시 쏠 수 있습니다. 이 과정을 반복함으로써 래스터라이제이션이 어려워하는 물리 현상들을 매우 우아하고 정확하게 시뮬레이션할 수 있습니다. 예를 들어, 반사 광선을 추적하면 완벽한 거울 반사를, 광원을 향한 그림자 광선을 추적하면 정확한 그림자를 자연스럽게 얻을 수 있습니다.

표 5.1: 래스터라이제이션 vs. 레이 트레이싱 - 근본적 비교

구분	래스터라이제이션 (Rasterization)	레이 트레이싱 (Ray Tracing)
핵심 원리	3D 객체를 2D 픽셀 그리드에 투영	2D 픽셀에서 3D 장면으로 광선 투사
기본 순서	객체 순서 (Object-Order)	이미지 순서 (Image-Order)
반사 처리	근사 (환경 맵, SSR)	정확 (재귀적 광선 추적)
부드러운 그림자	근사 (섀도우 맵 변형)	정확 (광원 영역 샘플링)
전역 조명	처리 불가 (별도 기법 필요)	자연스러운 시뮬레이션 가능
계산 복잡도	객체 수에 비례 (선형적)	픽셀 수와 장면 복잡도에 비례 (로그 또는 그 이상)
하드웨어 적합성	고도로 병렬화된 파이프라인에 최적	비일관적인 메모리 접근과 광선-객체 교차 테스트 필요

수십 년간 이어진 ‘래스터라이제이션의 종말’ 예언은 빗나갔습니다. 레이 트레이싱의 계산 비용은 여전히 실시간으로 전체 장면을 렌더링하기에는 너무 높기 때문입니다. 대신, 업계는 두 패러다임의 장점만을 결합하는 하이브리드 렌더링(Hybrid Rendering) 모델로 나아가고 있습니다. 이는 래스터라이제이션의 효율성이 오히려 실용적인 실시간 레이 트레이싱 시스템의 필수 구성 요소가 되었음을 의미합니다.

현재 최첨단 하이브리드 모델의 작동 방식은 다음과 같습니다:

기본 가시성 판별은 래스터라이제이션으로: 극도로 최적화된 래스터라이제이션 파이프라인을 사용하여 화면에 직접 보이는 기본 뷰(primary visibility)를 매우 빠르게 계산합니다. 지연 렌더링의 G-버퍼 패스가 이 역할에 완벽하게 부합합니다.
고품질 효과는 레이 트레이싱으로: 래스터라이제이션을 통해 ‘보인다’고 판명된 픽셀들에 대해서만, 제한된 수의 광선을 추적하여 래스터라이제이션이 취약한 효과(사실적인 반사, 부드러운 그림자, 앰비언트 오클루전 등)를 계산합니다.

이 접근법은 래스터라이제이션의 압도적인 속도를 이용해 렌더링 작업의 99%를 처리하고, 레이 트레이싱의 물리적 정확성을 이용해 시각적 임팩트가 가장 큰 1%의 효과를 더하는 방식입니다. 래스터라이제이션은 더 이상 사실성을 ‘흉내 내는’ 기술이 아니라, 하이브리드 파이프라인에서 진정한 사실성을 달성하기 위한 ‘기초 가속기’로서 그 역할이 재정의되었습니다.

래스터라이제이션은 계산 효율성, 병렬 처리 적합성, 그리고 물리 현상에 대한 실용적인 근사라는 철학 위에 세워진 실시간 3D 그래픽스의 불굴의 일꾼입니다. 그 발전의 역사는 고정된 하드웨어에서 프로그래밍 가능한 소프트웨어로, 단일 파이프라인에서 유연한 기술의 집합체로 진화해 온 과정이었습니다. 이 과정에서 탄생한 Z-버퍼, 프로그래머블 셰이더, 지연 렌더링과 같은 혁신들은 각각의 시대가 요구하는 성능과 품질의 균형을 맞추기 위한 탁월한 공학적 해법이었습니다.

래스터라이제이션은 결코 구시대의 유물이 되어가고 있지 않습니다. 오히려, 실용적인 실시간 레이 트레이싱을 구현하기 위한 필수적인 초석으로서 그 가치가 재확인되고 있습니다. 기본 가시성을 판별하는 데 있어서의 압도적인 속도는 새로운 하이브리드 렌더링 시대의 ‘버그’가 아닌 핵심 ‘기능’입니다. 래스터라이제이션이 빠르고 효율적으로 구축한 G-버퍼라는 토대 위에서만, 레이 트레이싱은 제한된 예산 내에서 가장 필요한 곳에 정교한 빛의 시뮬레이션을 수행할 수 있습니다.

미래에도 래스터라이제이션은 알고리즘과 하드웨어의 공진화(co-evolution)를 계속하며 그 중심적인 역할을 유지할 것입니다. 렌더링 파이프라인은 더욱 유연해져, 개발자가 데이터 흐름을 보다 정교하게 제어할 수 있게 될 것입니다. 더 지능적인 폐색 판별 기법이 등장하고, 레이 트레이싱 결과물의 노이즈를 제거하는 데 머신러닝 기반 기술(예: NVIDIA DLSS, Intel XeSS)이 더욱 긴밀하게 통합될 것입니다. 래스터라이제이션은 그 자체로 완결된 렌더링 방식임과 동시에, 더 복잡한 빛 전송 시뮬레이션을 위한 출발점으로서 그 중요성을 계속해서 확장해 나갈 것입니다. 결국, 래스터라이제이션은 실시간 그래픽스라는 거대한 건축물의 가장 단단하고 신뢰할 수 있는 주춧돌로 남아있을 것입니다.