-
(MMDetection) DINO 모델 테스트Computer Vision & AI/AI 2024. 1. 16. 00:30
다양한 모델들을 팀원들과 실험한 결과,
Faster R-CNN과 RetinaNet, rtmdet 보다도 Cascade R-CNN이 높은 성능을 보여주었다.
그러나 Cascade R-CNN도 비교적 옛날에 발표된 논문 모델이라서 더 괜찮은 모델을 찾아보고 싶은 마음이 들었다.
그러다 발견한 것이 DINO였다.
https://github.com/open-mmlab/mmdetection/tree/main/configs/dino
mmdetection readme에 정리된 box AP 성능이 더 높고,
Cascade R-CNN (CVPR 2018)
DINO (ICLR 2023)
으로 비교적 DINO가 최신 논문이었다.
학습을 돌리고 성능이 괜찮게 나와서 더 학습을 하면서 간단한 정리를 먼저 해본다.
DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection
제목만 보고 해석해보자면 DETR에 end-to-end 객체 검출을 위한 개선된 디노이징 앵커박스를 도입한다는 내용이다.
DETR은 Transformer를 사용해서 detecting을 하는 모델이다.
(DEtection TRansformer)
DETR의 문제점 중 작은 bbox를 예측하지 못한다는 점이 있다.
이런 문제를 해결하기 위해서 anchor box의 성능을 개선한 것이 DINO이다.
DINO에 대한 참고자료
테스트 결과
대부분의 class, metric에 대해서 DINO가 Cascade 보다 높은 성능을 보였다.
특히 주목할 점은 계속 문제가 되었던 small object와 general trash에서 더 좋은 성능을 보인다는 점이다.
물론 small은 DINO도 아직 학습이 불안정해 보인다.
small object에 대해서는 모델로만 의존하기는 어려울 듯 하다.
성능이 좋은 대신, 모델이 무거워서 학습시 CUDA out of memory가 발생하여 배치사이즈를 1로 두고 학습하고 있다.
그런데 추론 결과를 시각화해보면 bbox가 과하게 많이 나오는 것을 확인할 수 있었다.
과연 mAP가 높다고 성능이 좋다고 할 수 있는지 생각해 볼 필요가 있을 것이다.
이런 모델을 서비스화 할 때는 좀 더 다양한 metric이 필요하다.
실제 의미가 있는 평가지표를 정하는 것도 중요한 과제임을 배웠다.
'Computer Vision & AI > AI' 카테고리의 다른 글
데이터 제작의 중요성을 알아보자 (0) 2024.01.23 DINO swin L 로 모델 성능 개선 (0) 2024.01.18 (MMDetection) Cascade R-CNN 테스트 (1) 2024.01.15 구글 'Gemini' : on device와 cross-model (1) 2023.12.14 NeRF Studio 테스트 (0) 2023.08.23