이벤트 카메라 데이터셋 - 소프트웨어 융합

이벤트 카메라의 데이터셋은 전통적인 프레임 기반의 데이터셋과는 근본적으로 다르다. 이벤트 카메라는 시간적 해상도가 매우 높고, 픽셀 단위의 변화에 반응하여 이벤트 데이터를 생성하므로 이를 처리하는 방식도 특별한 요구 사항을 갖는다. 이벤트 카메라를 활용한 연구나 실험을 위해 다양한 데이터셋이 공개되어 있으며, 이러한 데이터셋은 다양한 환경과 응용에 맞춰져 있다.

데이터셋 형식

이벤트 카메라의 데이터셋은 일반적으로 각 픽셀에서 발생한 이벤트의 시간, 위치, 극성 정보를 포함하고 있다. 각 이벤트는 아래와 같은 형태로 표현된다.

$\mathbf{e}_i = (x_i, y_i, t_i, p_i)$

여기서, - $x_i$ , $y_i$ 는 이벤트가 발생한 픽셀 좌표, - $t_i$ 는 이벤트가 발생한 시간, - $p_i$ 는 이벤트의 극성(폴라리티)이다. $p_i$ 는 양의 변화(1) 또는 음의 변화(-1)를 나타낸다.

이벤트 데이터는 이러한 이벤트들이 시간 순으로 기록된 형태로, 일반적인 프레임 기반 데이터셋과는 달리 일정한 간격의 이미지 대신, 매우 짧은 시간 간격으로 불규칙하게 발생하는 이벤트들의 스트림을 다룬다.

데이터셋 구성 방식

이벤트 데이터는 두 가지 주요 형식으로 제공될 수 있다: 1. 원시 이벤트 데이터: 시간과 위치, 극성을 포함한 모든 이벤트 정보를 시간 순으로 나열한 데이터. 2. 프레임 기반 변환 데이터: 이벤트 데이터를 모아서 일정 시간 동안 발생한 이벤트로 프레임을 구성한 데이터.

특히, 원시 이벤트 데이터는 매우 높은 시간 해상도를 가지며, 이는 전통적인 영상 처리 방식으로는 다루기 어렵다. 대신, 이를 처리하기 위한 특별한 알고리즘이 필요하다.

주요 이벤트 카메라 데이터셋

DVS128 Gesture Dataset

DVS128 Gesture 데이터셋은 유명한 Dynamic Vision Sensor(DVS)를 사용하여 제스처 인식을 목적으로 제작되었다. 이 데이터셋은 제스처 인식에 대한 연구에 자주 활용되며, 11가지의 다양한 제스처를 포함하고 있다. 데이터는 다음과 같은 정보로 구성된다.

데이터 유형: 원시 이벤트 스트림
제스처: 손의 다양한 움직임을 포함하여, 왼쪽, 오른쪽, 상하, 원형 움직임 등이 포함되어 있다.
응용 분야: 이벤트 카메라를 활용한 제스처 인식, 인간-컴퓨터 상호작용

MVSEC Dataset

MVSEC(Multi Vehicle Stereo Event Camera Dataset)은 자율주행과 관련된 응용을 위한 대규모 이벤트 카메라 데이터셋이다. 이 데이터셋은 차량에 장착된 이벤트 카메라를 통해 다양한 주행 환경에서 수집된 데이터를 제공한다. 주요 특징은 다음과 같다.

데이터 유형: 이벤트 스트림과 더불어 스테레오 카메라 데이터, IMU 데이터가 포함됨.
환경: 실내 및 실외에서 다양한 주행 조건에서 수집된 데이터.
응용 분야: 자율주행 차량, SLAM, 객체 추적 및 인식.

이벤트 데이터의 시간적 구조

이벤트 카메라의 데이터는 매우 짧은 시간 간격으로 발생하는 불연속적 데이터라는 점에서 프레임 기반 데이터와 차이가 크다. 일반적인 비디오 프레임은 일정 시간 간격마다 촬영되지만, 이벤트 카메라는 다음과 같은 수식에 따라 비동기적으로 발생하는 이벤트를 기록한다.

$\Delta t = t_{i+1} - t_i$

이때, $\Delta t$ 는 각 이벤트 간의 시간 차이로, 이는 이벤트가 발생할 때마다 변동할 수 있다.

공간적 표현과 이벤트 밀도

이벤트 카메라 데이터는 매우 높은 시간 해상도를 갖지만, 공간적 해상도는 일반적인 프레임 기반 카메라에 비해 상대적으로 낮다. 이는 다음과 같은 이유로 설명될 수 있다.

픽셀 밀도: 현재 상용화된 이벤트 카메라는 일반적으로 수백에서 천여 개의 픽셀로 구성된다. 예를 들어, DVS128 카메라는 128x128 해상도를 가지며, 이는 전통적인 카메라의 해상도에 비해 매우 낮은 편이다.
이벤트 밀도: 각 픽셀에서 이벤트가 발생할 때마다 해당 시간과 위치가 기록되지만, 모든 픽셀이 동시에 이벤트를 발생시키는 것은 아니다. 이는 이벤트 카메라가 동작하는 장점이기도 한데, 불필요한 데이터가 생략되므로 효율적인 처리와 저장이 가능한다.

각 픽셀에서 발생하는 이벤트의 밀도는 카메라가 관찰하는 장면에 따라 크게 달라진다. 예를 들어, 장면 내에서 움직임이 많을 경우 이벤트 밀도가 높아지고, 정적인 경우에는 이벤트가 거의 발생하지 않는다. 이는 아래 수식으로 나타낼 수 있다.

$D_{\text{event}}(x, y, t) = \sum_{i=1}^{N} \delta(x - x_i) \delta(y - y_i) \delta(t - t_i)$

여기서 $D_{\text{event}}(x, y, t)$ 는 이벤트 밀도를 나타내며, $\delta$ 는 디랙 델타 함수로, 특정 위치와 시간에서 발생한 이벤트를 카운팅하는 역할을 한다.