Booil Jung

실제 비행장 디지털 트윈 기반 드론 자율비행 강화학습 방법론 검토 보고서

본 보고서는 실제 시험 비행장을 3D 스캐닝하여 고충실도(high-fidelity) 디지털 트윈을 구축하고, 이를 NVIDIA Isaac Sim 시뮬레이션 환경 내에서 활용하여 드론 자율비행 정책을 강화학습(Reinforcement Learning, RL)으로 훈련시키는 것을 목표로 하는 프로젝트의 방법론을 심층적으로 검토한다.

이 프로젝트의 성패는 시뮬레이션과 현실 간의 차이, 즉 ‘심투리얼 갭(Sim-to-Real Gap)’을 얼마나 효과적으로 극복하는지에 달려 있다. 시뮬레이션 환경에서 훈련된 정책이 실제 드론에 배포되었을 때 성능 저하 없이 원활하게 작동하기 위해서는, 시각적으로나 물리적으로 현실과 거의 동일한 시뮬레이션 환경을 구축하는 것이 무엇보다 중요하다.

본 보고서는 사용자가 물리적 데이터 수집부터 AI 정책 훈련 및 배포에 이르는 전체 워크플로우를 성공적으로 수행할 수 있도록 네 부분으로 구성된 가이드를 제공한다. 각 섹션은 단순히 절차를 나열하는 것을 넘어, 기술 선택에 따른 장단점을 비판적으로 분석하고 전략적 의사결정을 지원하는 데 목적을 둔다.

시뮬레이션 환경의 근간이 될 디지털 자산을 생성하는 이 단계는 프로젝트의 비용, 시각적 충실도, 그리고 궁극적으로 강화학습 에이전트의 학습 능력에 지대한 영향을 미친다.

실제 비행 시험장의 기하학적 구조와 외관을 캡처하는 기술을 선택하는 것은 첫 번째 전략적 결정이다. 이 선택은 단순히 기술적인 문제를 넘어, 인식 기반 강화학습 과제의 특정 요구사항과 정확성, 비용 간의 균형을 맞추는 과정이다.1 주요 기술로는 라이다(LiDAR)와 사진 측량(Photogrammetry)이 있다.

강점: 라이다는 기하학적 정밀도에서 탁월하며, 밀리미터 단위의 정확한 측정이 가능하다.4 넓은 지역을 신속하게 스캔할 수 있고 1, 식생을 투과하여 지표면을 매핑할 수 있으며 1, 조명 조건에 영향을 받지 않아 야외나 저조도 환경에 이상적이다.4 따라서 구조적 정확성이 중요한 엔지니어링 등급의 모델 제작에 가장 적합하다.1
약점: 가장 큰 단점은 장비와 운용 비용이 높다는 점이다.1 또한, 색상 데이터는 기하학적 포인트 클라우드 위에 덧씌워지는 방식이므로, 사진 측량에 비해 사진과 같은 사실적인 텍스처 구현하기 어려울 수 있다.4
강점: 사진 측량의 가장 큰 장점은 비용 효율성과 접근성이다. 일반 DSLR이나 드론 카메라로도 수행할 수 있다.3 특히 이번 프로젝트의 목적에 부합하는 핵심 강점은 실제 사진으로부터 직접 색상과 텍스처를 추출하여 매우 사실적인 시각적 모델을 생성한다는 점이다.4 이러한 시각적 충실도는 인식 알고리즘 훈련에 필수적이다.
약점: 정확도는 이미지 품질, 조명 일관성, 카메라 보정 등 여러 요인에 크게 의존한다.2 그림자, 빛 반사, 빽빽한 식생 등은 모델의 품질을 심각하게 저하시킬 수 있다.5 일반적으로 라이다보다 절대 정확도가 낮으며, 수직 정확도는 약 15-30 cm 수준이다.1

자율 비행 드론은 주로 온보드 카메라를 핵심 센서로 사용하여 항법 및 장애물 회피를 수행한다. 강화학습 에이전트의 정책은 이 카메라 관측값에 기반하여 결정된다. 따라서 시뮬레이션과 현실 간의 인식 격차를 최소화하려면, 시뮬레이션된 카메라 이미지가 실제 드론의 카메라가 보게 될 이미지와 최대한 유사해야 한다. 사진 측량은 본질적으로 실제 사진에서 텍스처를 생성하므로 4, 시뮬레이터에서 렌더링된 결과물은 실제 드론 카메라가 포착할 조명, 표면 디테일, 색상 특성을 더 자연스럽게 재현할 수 있다. 라이다의 뛰어난 기하학적 정확성은 인식 기반 정책 훈련에 있어 시각적 사실성보다 덜 중요하다. 벽의 절대 위치에 5 cm 오차가 있는 것보다, 벽의 텍스처, 반사, 그림자 특성이 완전히 다른 것이 정책 실패를 유발할 가능성이 훨씬 높다.

결론적으로, 단순히 비용과 정확도를 비교하는 것을 넘어, 비전 기반 강화학습이라는 과제의 본질을 고려할 때 사진 측량이 전략적으로 더 우월한 선택이다. 사진 측량은 심투리얼 갭의 시각적 요소를 직접적으로 해결하기 때문이다.

드론 기반 사진 측량 조사를 권장한다. 단점을 보완하기 위해, 강한 그림자를 최소화할 수 있도록 구름이 낀 날과 같이 빛이 분산되고 일관된 조건에서 조사를 수행해야 한다. 또한, 절대적인 기하학적 정확도를 높이기 위해 지상기준점(GCPs)을 사용하거나 RTK/PPK 기능이 탑재된 드론을 활용하는 것이 좋다.2

표 1: 항공 측량을 위한 라이다와 사진 측량 비교 분석

기능	라이다 (LiDAR)	사진 측량 (Photogrammetry)	강화학습(RL)을 위한 권장 사항
정확도	매우 높음 (mm 단위)	상대적으로 낮음 (cm 단위), GCPs/RTK로 향상 가능	사진 측량으로 충분. 기하학적 정확성보다 시각적 사실성이 더 중요함.
텍스처/시각적 충실도	상대적으로 낮음, 후처리로 이미지 오버레이	매우 높음, 실제 사진 기반	사진 측량. 시각 기반 RL 정책 훈련에 필수적인 요소.
비용	높음 (고가의 전문 장비)	낮음 (표준 드론/카메라)	사진 측량. 프로젝트 예산 효율성 확보.
장비	전문 스캐너, 고사양 드론	표준 드론, DSLR, 스마트폰	사진 측량. 접근성이 높고 운용이 용이함.
환경 강건성	조명/날씨에 강함, 식생 투과 가능	조명/날씨에 민감, 식생에 취약	사진 측량. 단, 최적의 조명 조건에서 촬영하여 단점 보완 필요.
데이터 출력	고밀도 포인트 클라우드	3D 메시, 정사사진, 포인트 클라우드	사진 측량. 사실적인 텍스처가 포함된 3D 메시가 직접 생성됨.

드론으로 수백, 수천 장의 이미지를 촬영한 후에는 이를 처리하여 3D 모델로 만들어야 한다. 이 분야의 선두적인 상용 소프트웨어는 RealityCapture(RC)와 Agisoft Metashape이다.7 둘 중 어떤 것을 선택하느냐에 따라 처리 속도, 비용, 워크플로우 제어 방식이 달라진다.

워크플로우 및 기능: RC는 특히 대규모 데이터셋 처리에서 뛰어난 속도로 유명하며, 강력한 GPU를 활용하여 모델을 신속하게 생성한다.7 워크플로우는 고도로 자동화되어 있으며 9, 이미지와 함께 라이다 데이터도 통합할 수 있다.7 사용자 보고에 따르면, RC는 우수한 고대비 텍스처를 생성한다.9
라이선스: RC는 입력당 지불(Pay-Per-Input, PPI) 크레딧 모델을 제공한다. 이는 소규모 또는 비정기적인 프로젝트에는 비용 효율적이지만, 고해상도 이미지가 많은 대규모 프로젝트에서는 비용이 예측 불가능하게 증가할 수 있다.7 높은 초기 비용으로 영구 라이선스도 구매 가능하다.
워크플로우 및 기능: Metashape는 측량 및 매핑 분야에서 높은 정밀도를 달성하기 위해 더 세분화되고 제어 가능한 워크플로우를 제공하는 것으로 알려져 있다.7 지리 참조, 포인트 클라우드 정리 등 강력한 도구를 제공하며, 다중 스펙트럼 및 열화상 이미지 등 다양한 입력 데이터를 지원한다.7 RC보다는 일반적으로 처리 속도가 느리다고 평가받지만 8, Linux에서도 실행 가능하여 특정 개발 환경에서 이점을 가질 수 있다.9
라이선스: Metashape는 RC의 영구 라이선스보다 훨씬 저렴한 가격에 영구 라이선스를 제공하여, 예측 가능한 일회성 투자가 가능하다.11

이 프로젝트의 본질은 여러 개의 작은 모델을 자주 처리하는 것이 아니라, 비행 시험장의 단일 대규모 고품질 디지털 트윈을 생성하는 것이다. 이 단일 프로젝트에는 넓은 지역을 상세하게 캡처하기 위해 수천 장의 고해상도 이미지가 필요할 것이다. RC의 PPI 모델 하에서는 이 거대한 단일 프로젝트의 비용이 상당하고 예측하기 어려울 수 있다.7 반면, Metashape의 영구 라이선스는 고정된 비용을 제공하여 예산 계획에 유리하다.11

더 나아가, 복잡한 대규모 야외 장면은 처리 과정에서 결함이나 정렬 오류가 발생할 가능성이 높으며, 수동 정리가 필요한 부분이 생길 수 있다. Metashape의 보다 신중하고 제어 가능한 워크플로우는 9 이러한 문제를 해결할 수 있는 더 많은 도구를 제공하며, 이는 단일 자산의 품질이 무엇보다 중요할 때 결정적인 장점이 된다. 이 특정 사용 사례에서는 RC의 빠른 속도와 자동화보다 Metashape의 제어 기능이 더 유용할 수 있다.

결론적으로, 만약 처리 속도만이 유일한 고려 사항이라면 RC가 답이 될 수 있다. 하지만 단일의 핵심적인 대규모 환경을 구축하는 경우, Metashape의 예측 가능한 비용 모델과 제어 가능한 워크플로우는 더 신중하고 합리적인 선택이 될 수 있다.

이번 프로젝트의 특성을 고려할 때, 대규모 단일 프로젝트에 유리한 라이선스 모델과 최종 모델을 미세 조정할 수 있는 강력하고 제어 가능한 워크플로우를 제공하는 Agisoft Metashape를 권장한다.

표 2: 기능 및 성능 매트릭스: RealityCapture vs. Agisoft Metashape

기준	RealityCapture	Agisoft Metashape	대규모 프로젝트를 위한 분석
처리 속도	매우 빠름	빠름 (RC보다 느림)	속도가 중요하지만, 단일 프로젝트에서는 제어 가능성이 더 중요할 수 있음.
메시 품질	우수함, 자동화된 스무딩 기능	매우 우수함, 수동 제어 가능	Metashape. 최종 품질을 위한 세밀한 제어가 가능함.
텍스처 품질	우수함 (고대비)	우수함 (원본에 충실)	두 소프트웨어 모두 훌륭한 품질을 제공하나, 사용자의 선호에 따라 선택.
워크플로우 제어	고도로 자동화됨	세밀한 수동 제어 가능	Metashape. 대규모 씬의 오류 수정 및 품질 관리에 유리.
라이선스 모델	PPI (대규모 프로젝트 시 고비용), 영구 라이선스 (고가)	영구 라이선스 (상대적으로 저렴)	Metashape. 예측 가능한 일회성 투자로 예산 관리에 용이.
플랫폼 지원	Windows	Windows, macOS, Linux	Metashape. Linux 개발 환경을 사용하는 경우 이점.
USD 내보내기	네이티브 지원 (.usd,.usdz)	네이티브 미지원 (OBJ/FBX 등 경유)	RealityCapture. 파이프라인이 단순하지만, Metashape의 다른 장점들이 이를 상쇄할 수 있음.

고품질 3D 모델이 생성되면, 다음 단계는 이를 Isaac Sim 내에서 성능이 뛰어나고 사실적인 시뮬레이션 환경으로 변환하는 것이다. 이 과정은 USD 파이프라인을 탐색하고 자산을 적극적으로 최적화하는 작업을 포함한다.

NVIDIA Omniverse와 그 로보틱스 애플리케이션인 Isaac Sim은 전적으로 Pixar의 Universal Scene Description(USD) 형식을 기반으로 구축되었다.13 USD는 단순한 파일 형식이 아니라, 복잡한 3D 장면을 구성, 레이어링, 협업하기 위한 프레임워크이다.14 따라서 USD로의 원활한 워크플로우는 필수적이다.

RealityCapture는 .usd 및 .usdz 형식으로 직접 내보내기를 지원한다.15 이는 Isaac Sim으로 가는 가장 직접적이고 오류가 적은 경로이다. 내보내기 설정에서 좌표계, 텍스처 임베딩 등을 제어할 수 있다.15
Agisoft Metashape는 네이티브 USD 내보내기 옵션이 언급되지 않았다. 일반적인 워크플로우는 .obj나 .fbx와 같은 표준 형식으로 내보낸 후 16, Blender나 Autodesk Maya와 같은 디지털 콘텐츠 제작(DCC) 도구나 Omniverse Composer 자체를 사용하여 자산을 USD로 변환하는 것이다.
Isaac Sim은 USD 파일을 직접 로드하거나(File > Open) 기존 장면에 참조(File > Add Reference)할 수 있다.13
참조(Referencing) vs. 열기(Opening): 대규모 환경 자산의 경우, 별도의 USD 파일로 관리하고 주 시뮬레이션 장면에 참조하는 것이 가장 좋은 방법이다. 이렇게 하면 환경 자산을 모듈식으로 유지하고 로봇이나 다른 장면 요소와 독립적으로 업데이트할 수 있다.13

1:1 디지털 트윈을 목표로 할 때, 각 파일 형식 변환은 데이터 손상이나 오해석(예: 스케일, 좌표계 방향, 재질 속성)의 위험을 수반한다. Metashape -> OBJ -> Blender -> USD -> Isaac Sim 워크플로우는 RealityCapture -> USD -> Isaac Sim 워크플로우에 비해 여러 잠재적 실패 지점을 가지고 있다. 이전 섹션에서 비용/제어 측면에서 Metashape를 권장했지만, 사용자는 이 파이프라인의 복잡성을 인지해야 한다. 이는 모델링에 더 나은 도구가 통합에는 더 어려운 파이프라인을 만들 수 있다는 모순을 야기한다.

가장 저항이 적은 경로는 네이티브 USD 내보내기이다. Metashape를 사용하는 경우, 사용자는 변환 과정에 추가 시간과 노력을 할애해야 하며, Isaac Sim에서 자산을 사용하기 전에 Omniverse Composer와 같은 도구에서 스케일, 방향(Y-up vs. Z-up), 재질 할당을 신중하게 확인해야 한다.

참조용 자산을 준비할 때는 원하는 지오메트리만 defaultPrim으로 설정해야 한다. 원본 캡처의 불필요한 요소(카메라, 조명 등)는 주 시뮬레이션 장면을 오염시키지 않도록 제거하거나 defaultPrim 외부로 이동시켜야 한다.13
Omniverse의 Collect Assets 기능을 사용하여 참조된 모든 텍스처와 재질을 단일의 이식 가능한 디렉토리 구조로 모아야 한다.13

사진 측량으로 생성된 원본 3D 모델은 수천만 개의 폴리곤과 거대한 텍스처를 포함할 수 있으며, 이는 실시간 물리 시뮬레이션에서 실행 불가능하다.18 최적화는 선택이 아닌 필수 과정이다.

분리 원칙: 핵심 전략은 시각적 메시(visual mesh)와 물리 메시(physics mesh)를 분리하는 것이다. 렌더링에는 고품질 폴리곤의 텍스처 모델을 사용하고, 충돌 감지에는 단순화된 저품질 폴리곤의 프록시 모델을 사용한다. Isaac Sim의 물리 엔진인 PhysX는 충돌 메시와 상호작용하고, RTX 렌더러는 시각적 메시를 사용한다.20
장면 복잡도 감소: Omniverse 내 도구나 외부 DCC를 사용하여 고품질 폴리곤 메시를 단순화한다. Isaac Sim에는 이를 위해 설계된 “Scene Optimizer” 확장이 있다.22 카메라가 멀리 있을 때 더 낮은 폴리곤 버전의 메시를 사용하는 세부 수준(Levels of Detail, LODs)을 구현한다.18
물리 설정: 물리 스텝 크기를 조정한다. 스텝 크기가 클수록 성능은 향상되지만 정확도는 감소한다.18 대규모 장면의 경우, 물리 연산을 GPU로 오프로드하는 것이 유리할 수 있지만, 이는 초기 오버헤드를 극복할 만큼 장면이 복잡할 때만 효과적이다.19
렌더링 설정: Isaac Lab은 performance, balanced, quality 프리셋을 제공한다.24

performance 설정부터 시작하는 것이 좋다. 반사/반투명 비활성화, 그림자 품질 조정, DLSS와 같은 성능 향상 기술 사용 등이 주요 조정 항목이다.24
메모리 관리: 렌더링 설정에서 텍스처 스트리밍 예산을 줄여 VRAM 사용량을 낮춘다.23 작업 관리자를 통해 GPU 및 CPU 사용량을 모니터링한다. 자원 사용률이 낮다면 시뮬레이션 로직의 단일 스레드 병목 현상을 의심해볼 수 있다.23
물리 기반 렌더링(PBR) 재질: 시각적 메시에는 OmniPBR이나 OmniGlass와 같은 PBR 재질을 사용한다. 이 재질들은 빛이 흡수, 반사, 착색되는 방식을 사실적으로 모델링하여 사진과 같은 렌더링에 매우 중요하다.20 사진 측량 소프트웨어에서 내보낸 텍스처(알베도, 거칠기, 노멀 맵 등)를 이 PBR 셰이더에 연결해야 한다.
조명: 장면의 사실성은 조명에 의해 크게 좌우된다. 실제 시험장의 조명 조건을 재현해야 한다. 하늘의 고명암비 이미지(HDRI)가 적용된 DomeLight를 사용하여 사실적인 주변광과 전역 조명을 시뮬레이션한다.14 원본 사진을 촬영한 시간대의 태양 각도와 강도에 맞춰

DistantLight를 추가하여 태양을 시뮬레이션한다.14

최적화되지 않은 고충실도 모델로 시작하면 성능이 저하된다. 메시 단순화, LOD 구현, 별도의 충돌 메시 생성과 같은 최적화 기법을 적용하면 성능은 향상되지만 시각적 또는 물리적 충실도가 손실될 수 있다. 여기서 중요한 질문은 “얼마나 단순화해야 하는가?”이다. 충돌 메시는 여전히 장애물을 정확하게 표현해야 하고, 시각적 메시는 현실의 좋은 대리물이어야 한다.

이는 최적화 -> 테스트 -> 검증의 반복적인 과정을 의미한다. 사용자는 단순화된 물리가 여전히 “정확”하고 시각적 저하가 수용 가능한 수준인지 확인하기 위해 간단한 테스트 시나리오(예: 복잡한 지역을 수동으로 드론 비행)를 반복적으로 실행해야 한다. 이 루프는 종종 간과되지만 환경 생성 과정에서 매우 중요하고 시간이 많이 소요되는 부분이다. 즉, 최적화는 한 번에 끝나는 작업이 아니라, 강화학습 훈련 과제에 최적인 성능 대 사실성 곡선의 “스위트 스폿”을 찾는 반복적인 순환 과정으로 이해해야 한다.

이 파트는 환경 생성을 넘어 핵심적인 AI 개발로 전환하여, NVIDIA의 주력 로보틱스 강화학습 프레임워크인 Isaac Lab 내에서 드론, 학습 과제, 훈련 프로세스를 설정하는 방법을 상세히 설명한다.

Isaac Lab은 Isaac Sim 위에 구축된 NVIDIA의 통합 오픈소스 로봇 학습 프레임워크이다.28 이는

OmniIsaacGymEnvs와 같은 이전 프레임워크를 대체하며 31, 이 프로젝트에 권장되는 도구이다. 강화학습 과제는 관측 공간, 행동 공간, 보상 함수를 포함하는 환경에 의해 정의된다.

Isaac Lab은 환경 생성을 위해 Manager-Based와 Direct 두 가지 워크플로우를 제공한다.33 Manager-Based 워크플로우는 모듈식으로 프로토타이핑에 좋고, Direct 워크플로우는 더 많은 제어와 성능을 제공하여 복잡하고 최적화된 작업에 적합하다.33 드론 비행의 복잡성을 고려할 때, 장기적으로는 Direct 워크플로우가 더 나은 선택일 가능성이 높다.
이 과정은 DirectRLEnvCfg 구성 클래스와 DirectRLEnv를 상속하는 환경 클래스를 만드는 것을 포함한다.33

에이전트가 “보는” 것을 정의한다. 드론의 경우, 이는 다음의 조합이 될 것이다:

시각 데이터: 온보드 가상 카메라에서 시뮬레이션된 카메라 피드(RGB, 깊이, 및/또는 시맨틱 분할). Isaac Lab은 이를 위해 Camera 및 TiledCamera 센서를 제공한다.30
고유 수용성 데이터(Proprioceptive Data): 드론의 내부 상태, 즉 방향, 각속도, 선속도. 이 데이터는 시뮬레이션된 IMU 센서에서 나온다.30
과제별 데이터: 다음 웨이포인트나 최종 목표 지점까지의 상대 위치와 같은 정보.

에이전트가 “할 수 있는” 것을 정의한다. 쿼드콥터의 경우, 이는 일반적으로 네 개의 모터 각각에 대한 원하는 추력을 나타내는 4차원 연속 행동 공간이다.27 이 행동들은 시뮬레이션에서 드론의 액추에이터에 적용된다.

사용자 정의 환경이 정의되면, gymnasium.register()를 사용하여 gymnasium 레지스트리에 등록해야 한다. 이를 통해 강화학습 훈련 스크립트에서 접근할 수 있게 된다.33 사용자 정의 환경을 만드는 과정은 복잡하고 코드가 많이 필요하므로, 공식 Isaac Lab 문서의 관련 튜토리얼과 코드 예제(

create_direct_rl_env.py 등)를 직접 참조하는 것이 필수적이다. 본 보고서는 상위 수준의 아키텍처와 단계별 “이유”를 제공하고, 문서는 “방법”을 제공하는 역할을 한다.

시뮬레이션된 드론은 실제 하드웨어의 고충실도 트윈이어야 한다. 이를 위해서는 물리적 속성과 센서 특성을 정확하게 정의해야 한다.

로봇 가져오기

드론의 물리적 구조는 일반적으로 URDF(Unified Robot Description Format) 또는 MJCF(MuJoCo XML) 파일에 정의된다. Isaac Lab에는 이를 인스턴스화 가능한 USD 자산으로 변환하는 임포터가 있다.33 자산을 “인스턴스화 가능(instanceable)”하게 만드는 것은 성능에 매우 중요하다. 이를 통해 Isaac Sim이 병렬화된 강화학습 훈련을 위해 드론의 여러 복사본을 효율적으로 생성할 수 있다.31

URDF/MJCF 파일에는 각 링크(드론 본체, 프로펠러)의 질량 및 관성 텐서에 대한 정확한 값이 포함되어야 한다. 이 값들은 드론의 사양서에서 찾거나 실제 하드웨어에서 측정할 수 있다. Isaac Lab의 자산 구성 파일을 사용하면 조인트 드라이브 유형 및 게인과 같은 물리 속성을 추가로 조정할 수 있다.33 Isaac Sim은 프로펠러에 대한 완전한 전산 유체 역학을 지원하지 않지만, 근사 모델이 심투리얼 전환에 효과적인 것으로 입증되었다.37

센서는 로봇의 자산 구성에 추가된다. Isaac Lab은 USD 기반 센서(RTX 카메라 등)와 사용자 정의 파이썬 기반 센서를 지원한다.34
카메라: RTX 카메라 프림을 USD 계층 구조에서 드론 본체에 부착해야 한다. 해상도, 시야각, 초점 거리와 같은 속성은 실제 카메라와 일치해야 한다. Isaac Lab의 CameraCfg는 캡처할 데이터 유형(rgb, depth, semantic_segmentation 등)을 지정할 수 있게 한다.34
IMU: IMU 센서를 추가하여 지상 실측 선형 가속도 및 각속도를 제공할 수 있다.30 실제 IMU의 불완전성(예: 바이어스, 드리프트)을 시뮬레이션하기 위해 이 지상 실측 데이터에 노이즈 모델을 적용해야 한다.

강화학습 훈련을 시작하기 전에 시뮬레이션된 드론이 올바르게 작동하는지 검증해야 한다. 물리 매개변수가 잘못되면(예: 잘못된 질량, 불충분한 모터 추력) 시뮬레이션이 불안정해지고, 강화학습 에이전트는 의미 있는 것을 배우지 못하며, 종종 학습 파이프라인 전체에 NaN 값이 전파된다.38 따라서, 간단한 스크립트 명령(예: 호버링, 전진 비행)을 시뮬레이션된 드론에 적용하여 비행 동역학이 안정적이고 타당한지 확인하는 “사전 비행 점검” 단계를 거치는 것이 필수적이다.

환경과 에이전트가 정의되면, 마지막 단계는 학습 알고리즘을 선택하고 에이전트를 원하는 행동으로 유도할 보상 함수를 설계하는 것이다.

PPO (Proximal Policy Optimization): 안정성, 신뢰성, 쉬운 튜닝으로 알려진 온-폴리시(on-policy) 알고리즘이다. 많은 강화학습 문제에서 강력한 기준선이며 종종 첫 번째 선택이 된다.39 그러나 온-폴리시 특성상 각 정책 업데이트 후 데이터를 폐기하므로 샘플 효율성이 떨어질 수 있다.41
SAC (Soft Actor-Critic): 연속 제어 작업을 위해 설계된 오프-폴리시(off-policy) 알고리즘이다. 리플레이 버퍼에 저장된 과거 정책의 데이터를 재사용할 수 있으므로 일반적으로 PPO보다 샘플 효율성이 높다.41 또한, 탐험을 장려하는 엔트로피 최대화 항을 통합하여 더 강건한 정책을 유도하고 지역 최적점에 조기 수렴하는 것을 방지할 수 있다.39

드론 비행과 같은 복잡한 연속 제어 작업의 경우, SAC가 권장되는 알고리즘이다.43 우수한 샘플 효율성은 고성능을 달성하는 데 필요한 총 훈련 시간을 크게 줄일 수 있으며, 내장된 탐험 메커니즘은 복잡한 3D 환경을 탐색하는 데 적합하다.

핵심 원칙: 보상 함수는 에이전트의 행동을 형성하는 가장 중요한 구성 요소이다. 과제의 목표를 정확하게 정의해야 한다.44
구조적 접근법: 단일의 거대한 함수 대신, 보상/벌점 항의 조합이 더 강건하다 46:
1. 과제 지향 보상 (긍정적): 최종 목적지 도달 시 큰 희소 보상. 다음 웨이포인트까지의 거리가 줄어드는 등 진행 상황에 대한 작은 밀집 보상.
2. 안전 벌점 (큰 부정적): 환경과의 충돌이나 지정된 경계 밖으로 비행할 경우 상당한 벌점. 이것이 가장 중요한 벌점이다.
3. 효율성 벌점 (작은 부정적): 과도한 제어 입력(부드러운 비행 장려), 높은 속도, 또는 단순히 시간이 경과할 때마다 주어지는 벌점(속도 장려).
4. 안정성 벌점 (작은 부정적): 과도한 각속도나 수평 자세에서의 이탈에 대한 벌점(곡예 비행이 목표가 아닌 경우).
고급 개념 - 보상 쉐이핑 및 인간 선호: 단순한 보상 함수는 의도하지 않은 행동(보상 해킹)으로 이어질 수 있다. 역강화학습이나 선호 기반 학습(인간이 두 궤적 중 어느 것이 더 나은지 피드백을 제공)과 같은 고급 기술은 인간의 의도와 더 잘 일치하는 보상 함수를 만드는 데 도움이 될 수 있지만, 구현이 더 복잡하다.48

표 3: 알고리즘 선택: 연속 드론 제어를 위한 PPO vs. SAC

특성	PPO (Proximal Policy Optimization)	SAC (Soft Actor-Critic)	드론 비행을 위한 권장 사항
정책 유형	온-폴리시 (On-Policy)	오프-폴리시 (Off-Policy)	SAC. 데이터 재사용으로 학습 효율 증대.
샘플 효율성	상대적으로 낮음	높음	SAC. 복잡한 환경에서 훈련 시간을 단축시키는 데 결정적.
안정성/튜닝	안정적이고 튜닝이 용이함	하이퍼파라미터에 민감할 수 있음	SAC. 초기 튜닝 노력은 필요하지만, 성능 향상 폭이 큼.
탐험	정책의 확률성에 의존	엔트로피 최대화를 통해 적극적 탐험	SAC. 내장된 탐험 메커니즘이 복잡한 장애물 회피에 유리.
핵심 기능	신뢰성, 구현 용이성	샘플 효율성, 최대 엔트로피	SAC. 연속 제어 및 복잡한 탐색 문제에 더 적합.

궁극적인 목표는 실제 드론에서 작동하는 정책이다. 이 파트는 학습된 정책이 시뮬레이션과 현실의 차이에 강건하도록 보장하기 위한 필수 기술을 상세히 설명한다.

어떤 시뮬레이션도 현실을 완벽하게 복제할 수 없다. “심투리얼 갭”은 외관(텍스처, 조명)과 동역학(질량, 마찰, 모터 반응)의 불일치에서 발생한다.49 단일의 결정론적 시뮬레이션에서 훈련된 정책은 특정 속성에 과적합되어 실제 하드웨어에 배포될 때 실패할 것이다.27

DR은 훈련 중에 시뮬레이션에 의도적으로 변동성을 도입하는 과정이다. 광범위한 시뮬레이션 조건에서 훈련함으로써, 정책은 모든 변형에 걸쳐 불변하는 특징을 배우도록 강제된다. 만약 랜덤화 범위가 실제 매개변수를 포함할 만큼 충분히 넓다면, 현실 세계는 정책에게 이미 본 또 다른 변형으로 보일 것이다.51

DR은 선택적인 미세 조정 단계가 아니라, 현대 로보틱스에서 제로샷(zero-shot) 또는 퓨샷(few-shot) 심투리얼 전환을 달성하기 위한 근본적인 요구사항이다.27 연구 결과는 이 점을 명확히 보여준다: DR 없이 훈련된 정책은 종종 전환에 실패한다.52

이 섹션은 Isaac Sim/Lab에서 랜덤화할 매개변수에 대한 실행 가능한 체크리스트를 제공하며, 보고서의 가장 실용적이고 중요한 부분 중 하나이다.

이는 드론의 물리적 속성과 세계와의 상호작용을 대상으로 한다. 목표는 물리적 모델의 불확실성에 강건한 정책을 만드는 것이다.51

드론 본체: 질량, 질량 중심 위치, 관성 텐서.
액추에이터: 모터 추력 및 토크 계수, 로터 항력 계수, 모터 응답 시간 상수 (\tau in 27).
외력: 시뮬레이션된 바람의 크기와 방향.
관측: 실제 처리 지연을 시뮬레이션하기 위해 IMU 판독값에 노이즈(가우시안 바이어스 및 드리프트)를 추가하고 행동 지연을 추가.

이는 환경의 시각적 외관을 대상으로 하여, 정책의 인식 부분을 시각적 변화에 강건하게 만든다.50

조명: 광원의 위치, 강도, 색상(예: 태양 각도, DomeLight를 통한 구름의 양)을 랜덤화.
텍스처: 지면 및 주요 건물/장애물과 같은 주요 표면의 텍스처를 가능한 대안 라이브러리에서 무작위로 교체.
카메라 속성: 카메라 내장 파라미터(초점 거리)와 드론 본체에서의 외장 배치를 약간 랜덤화. 렌더링된 이미지에 노이즈 추가.
방해물: 장면에 간단하고 충돌하지 않는 물체를 무작위로 배치하여 정책이 관련 없는 시각적 정보를 무시하도록 강제.

매우 넓은 범위(예: 질량 0.1kg ~ 5kg)에 걸쳐 매개변수를 균일하게 랜덤화하면 훈련 문제가 매우 어려워지고 지나치게 보수적인(느린) 정책으로 이어질 수 있다.52

더 효과적인 접근 방식은 먼저 실제 드론에 대한 기본 시스템 식별을 수행하여 공칭 매개변수(예: 질량 1.2kg 측정)를 찾는 것이다. 그런 다음, 이 공칭 값을 중심으로 더 작고 타당한 범위(예: 균일 분포 U[1.1kg, 1.3kg]에서 질량 랜덤화)에서 도메인 랜덤화를 적용한다.

이 “유도된” 또는 “중심화된” DR 전략은 51 훈련을 가장 가능성 있는 실제 시나리오에 집중시켜, 학습 과제를 불필요하게 어렵게 만들지 않으면서 현실 격차를 해소한다. 이는 강건하면서도 성능이 뛰어난 정책으로 이어진다. 따라서, 보고서는 이 2단계 프로세스를 강력히 권장한다: 먼저 공칭 매개변수를 식별하고, 그 주위에서 랜덤화를 수행한다.

표 4: 드론 심투리얼 전환을 위한 핵심 도메인 랜덤화 매개변수

매개변수 범주	특정 매개변수	공칭 값 출처	권장 랜덤화	근거
동역학 (Dynamics)	드론 전체 질량	실제 드론 측정	균일 분포, 공칭 값의 ±15%	배터리 소모 및 사소한 페이로드 변화 고려.
	관성 텐서	CAD 모델 또는 실험적 식별	대각 요소에 균일 분포, 공칭 값의 ±20%	질량 분포의 불확실성 모델링.
	모터 추력/토크 계수	모터 데이터시트, 벤치 테스트	균일 분포, 공칭 값의 ±10%	모터 간 성능 편차 및 노후화 시뮬레이션.
	액추에이터 지연	시스템 식별	균일 분포, 0.01s ~ 0.05s	제어 신호 전달 및 모터 응답 지연 모델링.
	IMU 노이즈 (바이어스/드리프트)	실제 센서 데이터 분석	가우시안 노이즈 추가	실제 센서의 불완전성 모사.
시각 (Visuals)	조명 강도/색상	실제 환경 관찰	DomeLight 강도/색상 랜덤화	다양한 시간대와 날씨 조건에 대한 강건성 확보.
	텍스처	텍스처 라이브러리	주요 객체(지면, 건물) 텍스처 무작위 교체	특정 텍스처에 대한 과적합 방지.
	카메라 외장 파라미터	CAD 모델	위치/방향에 작은 노이즈 추가 (±1cm, ±1도)	조립 공차 및 진동으로 인한 카메라 위치 변화 모사.
	방해물(Distractors)	-	장면 내 무작위 위치에 단순 객체 배치	정책이 관련 없는 시각적 정보에 현혹되지 않도록 훈련.

본 보고서는 실제 시험 비행장을 디지털 트윈으로 전환하여 드론 자율비행 정책을 개발하는 포괄적인 방법론을 제시했다. 전체 워크플로우는 다음과 같이 요약된다:

현실 캡처 및 모델링: Agisoft Metashape를 사용한 드론 기반 사진 측량으로 시각적으로 사실적인 3D 모델 생성.
USD 변환 및 최적화: 생성된 모델을 USD 형식으로 변환하고, Isaac Sim 내에서 시각적 메시와 물리적 메시를 분리하여 성능 최적화.
강화학습 환경 구축: Isaac Lab의 Direct 워크플로우를 사용하여 관측/행동 공간, 드론 에이전트, 센서를 정의.
정책 훈련: SAC 알고리즘과 구조화된 보상 함수를 사용하여 정책 훈련.
심투리얼 전환: 유도된 도메인 랜덤화(Guided Domain Randomization)를 적용하여 정책의 강건성 확보 및 실제 환경 배포.

프로젝트의 성공을 위해 다음 네 가지 핵심 전략을 강조한다:

통합 파이프라인 관점: 캡처 및 모델링 도구 선택은 전체 파이프라인의 일부로 종합적으로 고려되어야 한다.
분리된 디지털 트윈: “디지털 트윈”은 단일 모델이 아니라, 시각적 표현과 물리적 표현이 분리된 복합체로 구성되어야 한다.
구조화된 보상 설계: 보상 해킹을 피하기 위해 긍정적 보상과 부정적 페널티를 결합한 구조적인 하이브리드 접근 방식이 필요하다.
필수적인 유도된 랜덤화: 도메인 랜덤화는 선택이 아닌 필수이며, 공칭 매개변수를 기반으로 한 유도된 DR 전략이 광범위한 균일 랜덤화보다 우수하다.

프로젝트 진행 시 발생할 수 있는 일반적인 실패 요인은 다음과 같다: USD 파이프라인의 복잡성 과소평가, 불충분한 장면 최적화로 인한 성능 저하, 잘못 설계된 보상 함수로 인한 쓸모없는 정책 학습, 그리고 도메인 랜덤화의 생략 또는 불충분한 활용.

초기 심투리얼 전환이 성공적으로 이루어진 후, 다음 단계로는 실제 비행 데이터를 사용하여 온라인으로 정책을 미세 조정하거나, 실제 비행 로그를 분석하여 시뮬레이션 매개변수를 더욱 정교하게 조정하는 반복적인 ‘리얼투심투리얼(Real-to-Sim-to-Real)’ 루프를 구축하는 것을 제안할 수 있다. 이는 시뮬레이션과 현실 간의 격차를 지속적으로 줄여나가며 정책의 성능과 신뢰성을 극대화하는 데 기여할 것이다.

LiDAR vs. Photogrammetry: Choosing the Right Aerial Survey Tech for Your Project -, accessed July 2, 2025, https://www.gsourcedata.com/lidar-vs-photogrammetry-choosing-the-right-aerial-survey-tech-for-your-project/
LiDAR vs Photogrammetry: who wins? - Coptrz, accessed July 2, 2025, https://coptrz.com/blog/lidar-versus-photogrammetry-the-sequel/
Photogrammetry vs. LiDAR for aerial surveying: a comprehensive comparison - Pointorama, accessed July 2, 2025, https://www.pointorama.com/blogs/photogrammetry-vs-lidar-for-aerial-surveying/
LiDAR vs Photogrammetry: Key Differences & Use Cases - Matterport, accessed July 2, 2025, https://matterport.com/blog/lidar-vs-photogrammetry
LiDAR vs. Photogrammetry: The Ultimate Showdown for 3D Mapping (2025) - JOUAV, accessed July 2, 2025, https://www.jouav.com/blog/lidar-vs-photogrammetry.html
LIDAR vs. photogrammetry : what sensor to choose for a given application - Wingtra, accessed July 2, 2025, https://wingtra.com/lidar-drone/lidar-vs-photogrammetry-what-sensor-to-choose/
Reality Capture vs Photoscan: Key Differences Explained - FlyPix AI, accessed July 2, 2025, https://flypix.ai/blog/reality-capture-vs-photoscan/
Zephyr, MetaShape, Reality Capture: Time and Quality Comparison - Sketchfab, accessed July 2, 2025, https://sketchfab.com/blogs/community/zephyr-metashape-reality-capture-time-and-quality-comparison/
Testing Metashape & Reality Capture comparison #2 : r/photogrammetry - Reddit, accessed July 2, 2025, https://www.reddit.com/r/photogrammetry/comments/1f9svfc/testing_metashape_reality_capture_comparison_2/
Testing Reality Capture VS Metashape - Summary : r/photogrammetry - Reddit, accessed July 2, 2025, https://www.reddit.com/r/photogrammetry/comments/1f2ygq5/testing_reality_capture_vs_metashape_summary/
Compare Agisoft Metashape vs. RealityCapture in 2025 - Slashdot, accessed July 2, 2025, https://slashdot.org/software/comparison/Agisoft-Metashape-vs-RealityCapture/
I’d be very interested in a comparison Meshroom vs. RealityCapture (which seems - Hacker News, accessed July 2, 2025, https://news.ycombinator.com/item?id=23126492
Working with USD - Isaac Sim Documentation, accessed July 2, 2025, https://docs.robotsfan.com/isaacsim/latest/omniverse_usd/intro_to_usd.html
Nvidia Omniverse - Isaac Sim - Introduction to Universal Scene Description - Blog, accessed July 2, 2025, https://blog.marvik.ai/2024/12/10/nvidia-omniverse-isaac-sim-introduction-to-universal-scene-description/
Model export - RealityScan Help, accessed July 2, 2025, https://rshelp.capturingreality.com/en-US/tools/export.htm
Best Practice Reality Capture to Metashape, accessed July 2, 2025, https://www.agisoft.com/forum/index.php?topic=13350.0

Ultra High Quality 3D Model Ready to Export in Agisoft Metashape Detailed Video

Aerial Surveying - YouTube, accessed July 2, 2025, https://www.youtube.com/watch?v=1F6TqlPfHS8

Isaac Sim Performance Optimization Handbook, accessed July 2, 2025, https://docs.robotsfan.com/isaacsim/5.0.0/reference_material/sim_performance_optimization_handbook.html
How to speed up simulation in Isaac-Sim - NVIDIA Developer Forums, accessed July 2, 2025, https://forums.developer.nvidia.com/t/how-to-speed-up-simulation-in-isaac-sim/260856
Materials Best Practices - Omniverse SimReady, accessed July 2, 2025, https://docs.omniverse.nvidia.com/simready/latest/simready-asset-creation/material-best-practices.html
NVIDIA Isaac Sim: Photorealistic Rendering for Next-Gen Robot Development, accessed July 2, 2025, https://www.blackcoffeerobotics.com/blog/isaac-sim-photorealistic-rendering-for-next-gen-robot-development
Exploring Automatic 3D Scene Optimization in Omniverse - YouTube, accessed July 2, 2025, https://www.youtube.com/watch?v=wGNH9COuwrQ
Isaac Sim Performance Optimization Handbook, accessed July 2, 2025, https://docs.isaacsim.omniverse.nvidia.com/4.5.0/reference_material/sim_performance_optimization_handbook.html
Configuring Rendering Settings - Isaac Lab Documentation, accessed July 2, 2025, https://isaac-sim.github.io/IsaacLab/main/source/how-to/configure_rendering.html
Isaac performance/realism trade-off - Isaac Sim - NVIDIA Developer Forums, accessed July 2, 2025, https://forums.developer.nvidia.com/t/isaac-performance-realism-trade-off/251900
Isaac Sim reaching low FPS in my swarm robotics test simulation, but it’s not using any resources. (4080, ryzen 9 7900x 12-core, 95GB ram), but GPU usage only hits 1%, and CPU/memory are also very low in usage. Are there any settings I can change to get it to actually use the resources available? - Reddit, accessed July 2, 2025, https://www.reddit.com/r/robotics/comments/1jbn7gc/isaac_sim_reaching_low_fps_in_my_swarm_robotics/
One Net to Rule Them All: Domain Randomization in Quadcopter Racing Across Different Platforms - arXiv, accessed July 2, 2025, https://arxiv.org/html/2504.21586v1

Importing Assets and Creating Scenes in Isaac Lab

Isaac Lab Office Hours - YouTube, accessed July 2, 2025, https://www.youtube.com/watch?v=3TjkGyThm9c

NVIDIA Isaac Lab, accessed July 2, 2025, https://developer.nvidia.com/isaac/lab
Welcome to Isaac Lab! - Isaac Lab Documentation - GitHub Pages, accessed July 2, 2025, https://isaac-sim.github.io/IsaacLab/
Isaac Lab - Isaac Sim Documentation, accessed July 2, 2025, https://docs.isaacsim.omniverse.nvidia.com/4.5.0/isaac_lab_tutorials/index.html
isaac-sim/OmniIsaacGymEnvs: Reinforcement Learning Environments for Omniverse Isaac Gym - GitHub, accessed July 2, 2025, https://github.com/isaac-sim/OmniIsaacGymEnvs
Importing a New Asset - Isaac Lab Documentation, accessed July 2, 2025, https://isaac-sim.github.io/IsaacLab/main/source/how-to/import_new_asset.html
isaaclab.sensors - Isaac Lab Documentation, accessed July 2, 2025, https://isaac-sim.github.io/IsaacLab/main/source/api/lab/isaaclab.sensors.html
Physics-Based Sensors - Isaac Sim Documentation, accessed July 2, 2025, https://docs.isaacsim.omniverse.nvidia.com/latest/sensors/isaacsim_sensors_physics.html
Interactive Scene - Isaac Lab Tutorial 1 (Reinforcement Learning) - YouTube, accessed July 2, 2025, https://www.youtube.com/watch?v=Y-K1cAvnSFI
[Question] Quadcopter Examples/Guides / Issue #261 / isaac-sim/IsaacLab - GitHub, accessed July 2, 2025, https://github.com/isaac-sim/IsaacLab/issues/261
Tricks and Troubleshooting - Isaac Lab Documentation - GitHub Pages, accessed July 2, 2025, https://isaac-sim.github.io/IsaacLab/main/source/refs/troubleshooting.html
What is Soft Actor-Critic (SAC) - Activeloop, accessed July 2, 2025, https://www.activeloop.ai/resources/glossary/soft-actor-critic-sac/
GTrXL-SAC-Based Path Planning and Obstacle-Aware Control Decision-Making for UAV Autonomous Control - MDPI, accessed July 2, 2025, https://www.mdpi.com/2504-446X/9/4/275
Does SAC perform better than PPO in sample-expensive tasks with discrete action spaces?, accessed July 2, 2025, https://ai.stackexchange.com/questions/36092/does-sac-perform-better-than-ppo-in-sample-expensive-tasks-with-discrete-action

Comparison of PPO and SAC Algorithms Towards Decision Making Strategies for Collision Avoidance Among Multiple Autonomous Vehicles

Request PDF - ResearchGate, accessed July 2, 2025, https://www.researchgate.net/publication/354677026_Comparison_of_PPO_and_SAC_Algorithms_Towards_Decision_Making_Strategies_for_Collision_Avoidance_Among_Multiple_Autonomous_Vehicles

DDPG vs PPO vs SAC: when to use? : r/reinforcementlearning - Reddit, accessed July 2, 2025, https://www.reddit.com/r/reinforcementlearning/comments/holioy/ddpg_vs_ppo_vs_sac_when_to_use/
Designing a correct reward function : r/reinforcementlearning - Reddit, accessed July 2, 2025, https://www.reddit.com/r/reinforcementlearning/comments/9upg0p/designing_a_correct_reward_function/
Learningbasedmulti-obstacleavoidanceof unmanned aerial vehicles with a novel reward, accessed July 2, 2025, https://f.oaes.cc/xmlpdf/cd92ee9c-8477-4555-8bf1-41a5d6baba8b/ces3024.pdf
UAV Obstacle Avoidance by Human-in-the-Loop Reinforcement in Arbitrary 3D Environment - arXiv, accessed July 2, 2025, https://arxiv.org/pdf/2304.05959
UAV Obstacle Avoidance by Human-in-the-Loop Reinforcement in Arbitrary 3D Environment, accessed July 2, 2025, https://paperswithcode.com/paper/uav-obstacle-avoidance-by-human-in-the-loop
Designing Reward Functions Using Active Preference Learning for Reinforcement Learning in Autonomous Driving Navigation - MDPI, accessed July 2, 2025, https://www.mdpi.com/2076-3417/14/11/4845
Depth Transfer: Learning to See Like a Simulator for Real-World Drone Navigation - arXiv, accessed July 2, 2025, https://arxiv.org/html/2505.12428v1
NVIDIA Says Isaac Sim and Isaac Replicator Close the Simulation to Reality Gap, accessed July 2, 2025, https://www.robotics247.com/article/nvidia_says_isaac_sim_isaac_replicator_close_the_simulation_to_reality_gap

Domain Randomization for Sim2Real Transfer

Lil’Log, accessed July 2, 2025, https://lilianweng.github.io/posts/2019-05-05-domain-randomization/

One Net to Rule Them All: Domain Randomization in Quadcopter …, accessed July 2, 2025, https://arxiv.org/pdf/2504.21586
Sim2Real - andrew.cmu.ed, accessed July 2, 2025, https://www.andrew.cmu.edu/course/10-703/slides/Lecture_sim2realmaxentRL.pdf

Analysis of Randomization Effects on Sim2Real Transfer in Reinforcement Learning for Robotic Manipulation Tasks

Request PDF - ResearchGate, accessed July 2, 2025, https://www.researchgate.net/publication/366611927_Analysis_of_Randomization_Effects_on_Sim2Real_Transfer_in_Reinforcement_Learning_for_Robotic_Manipulation_Tasks

Building a data acquisition pipeline via teleoperation with NVIDIA Isaac Sim, accessed July 2, 2025, https://www.x-humanoid.com/news-view-158.html
Randomization Snippets - Isaac Sim Documentation, accessed July 2, 2025, https://docs.isaacsim.omniverse.nvidia.com/4.5.0/replicator_tutorials/tutorial_replicator_isaac_randomizers.html
Deep Drone Racing: from Simulation to Reality with Domain Randomization.md - GitHub, accessed July 2, 2025, https://github.com/jeffreytsaw/16881_Paper_Notes/blob/master/Low%20Level%20Skills/Deep%20Drone%20Racing:%20from%20Simulation%20to%20Reality%20with%20Domain%20Randomization.md