Mono-Visual Odometry Example with Kitti-Dataset

지금까지 SLAM에 대한 이론을 머리에 집어넣으면서 이해가 되지 않는 부분을 예제를 통해 이해가 부족한 부분을 보완하고 채우고 싶은 생각이 항상 있었는데 이번에 단순하게 짜여있는 mono-VO 코드를 찾았습니다. 그래서 이번에 찾은 코드를 한번 리뷰하면서 저 나름대로 오랜만에 코딩을 해보려고 합니다.

The KITTI Vision Benchmark Suite

We thank Karlsruhe Institute of Technology (KIT) and Toyota Technological Institute at Chicago (TTI-C) for funding this project and Jan Cech (CTU) and Pablo Fernandez Alcantarilla (UoA) for providing initial results. We further thank our 3D object labeling

www.cvlibs.net

Ground Truth Pose

위 그림은 예제코드에서 사용되는 kitti odometry ground truth 데이터입니다. 보기만 해도 벌써 어질어질하지만 데이터가 무엇을 나타내나 검색해보니 1개의 line이 단일 frame에 대한 데이터입니다. KITTI에서는 단일 odometry에 대해 image, lidar, camera calibration, pose 를 세트로 제공하는데 image 또는 lidar의 각각의 frame을 의미합니다. 그리고 한 line에 12개의 data가 있는데 4x4 homogeneous matrix 중 마지막 row가 빠진 데이터입니다.

$$ \begin{bmatrix} r_{1} & r_{2} &r_{3} & x \\r_{4} & r_{5} &r_{6} & y \\r_{7} & r_{8} &r_{9} & z \end{bmatrix}$$

따라서 각 line의 4, 8, 12번째 data를 읽으면 pose를 읽을 수 있습니다.

Camera

cam = PinholeCamera(1241.0, 376.0, 718.8560, 718.8560, 607.1928, 185.2157)
class PinholeCamera:
	def __init__(self, width, height, fx, fy, cx, cy, 
				k1=0.0, k2=0.0, p1=0.0, p2=0.0, k3=0.0):
		self.width = width
		self.height = height
		self.fx = fx
		self.fy = fy
		self.cx = cx
		self.cy = cy
		self.distortion = (abs(k1) > 0.0000001)
		self.d = [k1, k2, p1, p2, k3]

카메라 캘리브레이션 (Camera Calibration)

카메라 캘리브레이션 (camera calibration)은 영상처리, 컴퓨터 비전 분야에서 번거롭지만 꼭 필요한 과정중의 하나입니다. 본 포스팅에서는 카메라 캘리브레이션의 개념, 카메라 내부 파라미터, 외

darkpgmr.tistory.com

PinholeCamera는 Camera의 intrinsic parameter를 의미하는 것 같습니다. 카메라에 대한 자세한 내용은 모두의 교수님 다크 프로그래머님의 블로그에서 확인하실 수 있습니다.

Gray scale Image scene

Kitti benchmark에서는 3채널 컬러 이미지와 1채널 흑백이미지를 둘다 제공하지만 본 예제에선 흑백을 사용합니다. 참고로 left, right 카메라 2대로 left, right 이미지를 제공하기 때문에 stereo VO/SLAM을 수행할 수도 있습니다.