-
[논문리뷰] Depth Anything : Unleashing the Power of Large-Scale Unlabeled DataComputer Vision & AI/논문리뷰 2024. 2. 21. 02:31
github : https://github.com/LiheYoung/Depth-Anything
Keyword : Semantic-Assisted Perception, Depth estimation, unlabeled image
Depth Anything은 강건한 단안 카메라 depth estimation 기술이다.
어떤 환경의 이미지에서도 가능하게 하기 위해서,
62M의 매우 큰 언라벨드 데이터를 사용하였고, automatic하게 annotation하였다.
그 결과 일반화 에러를 줄였다.
데이터 증강 툴을 사용했고,
사전 학습된 인코더로 이전의 풍부한 정보를 상속받는다.
depth 추론 영역에서 SOTA를 달성했다.labeled와 unlabeled 이미지를 모두 사용한다.
Monocular Depth Estimation = MDE로 통칭한다.
1) Teacher model(T)을 Labeled 이미지로 학습하고
2) Teacher model(T)로 unlabeled 이미지에 pseudo depth 라벨링을 한다.
3) labeled와 pseudo labeled set을 모두 사용해서 Student model(S)을 학습한다.LiDAR, matching, SfM등을 사용해서 manual 하게 labeling된 data set과
Teacher model를 통해 pseudo labeling된 set을 사용한다.
(실선은 labeled, 점선은 unlabeled)
MiDaS로 training
MiDaS
<Towards robust monocular depth estimation: Mixing datasets for zero-shot cross-dataset transfer>
단일 이미지로부터 상대적 역 깊이(relative inverse depth)를 계산하는 딥러닝 모델논문에서 강조하는 부분은,
unlabeled 이미지의 가치를 통해서 데이터의 범위를 확장시켰다는 점이다.
요즘에는 대규모 unlabeled 데이터를 쉽게 얻을 수 있고
단안의 사전 학습되고 성능이 좋은 MDE 모델을 쓸 수 있기 때문에
이런 방법들을 사용하는 것이 훨씬 효율적이다. (기존의 stereo matching이나 SfM보다)초기 연구(단순히 unlabeled 이미지 추가)에서는 개선이 되지 않은 딜레마가 있어서, unlabeled 이미지에 대한 더 어려운 시각적 지식 최적화를 시도하였다.
두가지 perturbations
1) color jittering과 가우시안 블러링을 포함하는 strong color distortions
2) CutMix와 같은 strong spatial distortionfinetuning 없이도 DINOv2모델이 높은 성능을 보여주었다.
Feature allignment Loss
DINOv2와 같은 semantic 인코더는 같은 object의 다른 part를 유사하게 추정한다.
그러나 depth estimation문제에서는 같은 물체일지라도 다양한 depth를 갖는다.
허용 오차 한계 α를 도입하여 feature alignment의 문제를 해결한다.best-performed teacher model: ViT-L encoder
labeled : unlabeled = 1:2 in each batch
zero-shot의 높은 성능 외에도 depth estimation 문제에서 보장된 weight initialization을 위한 시험을 실시였음.
1) in-domain metric
2) zero-shot metric
사전 학습된 encoder가 monocular depth estimation과 semantic segmentation task 둘 다 강점을 갖고 있다고 강조함.
논문에 첨부된 Results
높은 품질을 보여주며 이전 MiDaS와의 성능을 비교하고 있다.
특히 디테일 한 부분에서 개선이 많이 되었고 멀리 있는 객체까지도 segmentation이 잘 되는 모습이다.
참고)
'Computer Vision & AI > 논문리뷰' 카테고리의 다른 글
Mask R-CNN 논문 리뷰 (2) (1) 2023.12.05 Mask R-CNN 논문 리뷰 (1) Backgrounds (3) 2023.12.05 [논문리뷰] DDPM : Denoising Diffusion Probabilistic Models (2) 2023.11.15