0. PoseNet의 문제와 follow-up 연구


PoseNet이 SOTA 방법론들과 경쟁을 하기 위해서는 "충분히 많은 시야에 대해 학습을 미리 해두는 것"을 해야하는데, 이는 여러 문제가 따라왔다.

PoseNet이 이렇게 고전하고 있을 그 당시, Geometry-based Visual-SLAM들은 단순한 테이블이나 방을 뛰어넘어 이미 실시간 large-scale localization으로 넘어가고 있었다. KITTI 데이터셋과 같이 자동차를 타고 마을 한바퀴를 돌고오는 Visual-SLAM 데모가 진작에 나와있었고, SOTA 논문들은 서로 누가 더 효율적으로 계산을 하고 있고, 누가 더 정확하고, 누가 더 빠르게 실시간 위치추정을 할 수 있는지 대결을 벌이고 있었다.

그에 비해 딥러닝 기반 방식이 geometric 방식을 단숨에 이기는 것은 어려워보였다. 이러한 전망 때문에 많은 SLAM 연구자들이 geometric 방식의 연구방법론을 고수하였고, 소수의 실험적인 연구자들만이 딥러닝 방식을 연구하였다. 딥러닝 기반 방식이 geometric 방식을 뛰어넘으려면 아직 추가로 연구되야할 것이 많아보였다. 다양한 아이디어가 오가면서, 이 당시에 딥러닝 기반 방식의 연구 방향은 세가지로 나눠지게 되었다.

1. PoseNet 개량


첫번째로는 PoseNet의 방식을 개선하는 방향이였다. Academia 분야에서는 새로운 딥러닝 기술을 제안해서 기존의 문제를 해결하려고 하였다. 산업 단에서는 발전하는 딥러닝 하드웨어, 또는 쌓여가는 데이터를 이용해서 이 문제를 해결할 수 있을 것이라는 희망을 가졌다. 하지만 그럼에도 PoseNet의 가장 큰 문제인 'generalization이 안된다' 라는 문제가 풀리는 모습은 볼 수 없었다. 2019년에 Torsten Sattler의 'Understanding the Limitations of CNN-based Absolute Camera Pose Regression' 논문 [Link]에 따르면, PoseNet과 같은 방식들은 '처음보는 환경에서 절대로 잘 작동하지 않을 것이다' 라는 분석 결과가 있었다.

결국에 PoseNet은 image retrieval 형태의 기술로 취급되기 시작하였지만, 자율주행 기술분야에서 이 분야 기술에 집중하면서 다시 큰 조명을 받게 되었다. 자율주행 목적으로 geometric 방식으로 카메라 위치추정을 하였을 때는 계절이 바뀔 때 마다 실패하는 경우가 있었다. 이는 학습한 image descriptor가 계절 및 조명 변화에 취약하기 때문이였다. 어떻게보면, geometric 방식도 generalize가 잘 되지 않았다고 볼 수 있다는 시각도 생기게 되었다. 하지만 이와 다르게 딥러닝 기반 기술에서는 데이터만 있으면 이러한 문제가 잘 해결되는 모습을 보였다. 딥러닝 기반 image retrieval은 결국 계절, 조명변화, motion blur 등에 강인한 visual localization 시스템을 만드는 방향으로 흘러갔고, 아직 generalization 문제는 해결되지 않았지만 이 문제까지 해결하겠다는 것이 이 분야의 목표가 되었다. 해당 분야는 지금까지도 컴퓨터 비전 국제 학회에서 Long-term visual localization이라는 제목으로 워크샵을 열기도 한다.