0. Deep Visual-SLAM이란?


우리는 인공지능, AI, 딥러닝이라는 말에 굉장히 익숙하다. SLAM을 공부하시는 분들에게는 Visual-SLAM이라는 단어 역시 익숙하다. 최근 다양한 기술 분야에 딥러닝이 적용되고 있는데, 여기서 우리는 SLAM에도 딥러닝이 적용되는 가능성을 생각해볼 수 있다. Visual-SLAM에 딥러닝을 적용한다면, 우리는 이 기술을 어떻게 불러야할까? 논문에서는 Deep-learning based Visual-SLAM, Deep Visual Odometry, Deep-SLAM 등 여러가지 표현으로 부르고 있다.

개인적인 의견이지만, 이러한 이름은 오래 사용될 것 같지 않다. 지난 5년간의 딥러닝 기술의 발전 속도를 고려하였을 때, 수많은 연구 분야에서의 기존 방식을 딥러닝 방식이 정확도 측면에서 뛰어넘고 주 기술 방법론이 되기도 하였다. SLAM 분야 역시 딥러닝 기술이 발전하여 기존의 방식을 뛰어넘는다면, 그때부터는 SLAM이라고 이야기하였을때 딥러닝부터 떠올리게 될 수도 있다. 지금 사용하는 Geometry-based approach는 어느새 'traditional SLAM'이라고 부를 수도 있을 것 같다. 현재는 그렇지 않지만, 미래에는... 그것도 충분히 가까운 미래에 그렇게 될 가능성이 있다고 생각한다.

1. Deep-based 방식의 출현 → PoseNet


2012년은 딥러닝 기술에 있어 큰 의미를 가지는 해 이다. ImageNet Challenge 대회에서 사용된 AlexNet이 기존의 사람이 직접 디자인한 알고리즘들 (i.e. handcrafted 방식)들 보다 성능이 더 좋다는 것을 알리며, CNN 기반 딥러닝 방식의 연구가 박차를 가하게 되었다. 그 후 얼마되지 않아, 2015년 ResNet의 개발을 통해 딥러닝이 실제 사람보다 더 정확할 수 있다는 충격적인 연구 결과도 있었다. 수많은 컴퓨터 비전 분야에서 딥러닝 기술로 SOTA 방법론이 (i.e. state of the art, 예술의 경지? 가장 잘 되는...) 만들어졌고, 많은 연구자들의 이목이 딥러닝으로 쏠렸다.

ImageNet 챌린지에서 2015년 ResNet은 사람의 정확도를 넘어섰다.

ImageNet 챌린지에서 2015년 ResNet은 사람의 정확도를 넘어섰다.

그 당시 Visual-SLAM 분야는 어땠을까? 신기하게도 오랫동안 Visual-SLAM 분야에서는 딥러닝이 아닌 기존의 Geometry-based 방식이 SOTA를 유지했다. 당시의 SOTA 논문들 (또는 유명했던 논문들)을 읊어보면, 그 논문들 중 딥러닝을 이용한 논문은 단 하나도 없었다.

아무도 Visual-SLAM에 딥러닝을 적용할 생각을 하지 못한것일까? 그건 아니였다. Visual-SLAM에도 딥러닝을 적용한 사례가 있었는데, 그것이 2015년에도 딥러닝으로 6DOF 카메라 자세를 추정하는 연구인 케임브릿지 대학의 Alex Kendall의 PoseNet[Link]다. PoseNet의 Abstract를 보면 굉장히 놀라운 이야기들을 한다.