Computer Vision & AI
-
스탠포드 대학 HAI(인간중심인공지능)랩에서 만든 AI 동향 보고서Computer Vision & AI/AI 2024. 4. 19. 14:55
https://aiindex.stanford.edu/report/?utm_source=Nomad+Academy&utm_campaign=ab4e4c9c7f-EMAIL_CAMPAIGN_2024_04_19&utm_medium=email&utm_term=0_4313d957c9-ab4e4c9c7f-357705928&mc_cid=ab4e4c9c7f&mc_eid=5bd5b86251 AI Index Report 2024 – Artificial Intelligence Index Welcome to the seventh edition of the AI Index report. The 2024 Index is our most comprehensive to date and arrives at an important momen..
-
[Segmentation] DeconvNet, SegNet, FC DenseNet, DeepLab, DilatedNetComputer Vision & AI/Computer Vision 2024. 2. 22. 17:55
2024.02.10 - [Computer Vision & AI/Computer Vision] - Semantic Segmentation - FCN Semantic Segmentation - FCN FCN Fully Convolutional Network end-to-end 딥러닝 모델의 기본인 FCN https://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Long_Fully_Convolutional_Networks_2015_CVPR_paper.pdf end-to-end 딥러닝 모델 입력부터 출력까지 프 venypark.tistory.com FCN의 한계 객체의 크기가 크거나 작은 경우 예측을 잘 못함 큰 객체 - 유리창에 비친 자전거가 자전거..
-
[논문리뷰] Depth Anything : Unleashing the Power of Large-Scale Unlabeled DataComputer Vision & AI/논문리뷰 2024. 2. 21. 02:31
github : https://github.com/LiheYoung/Depth-Anything Keyword : Semantic-Assisted Perception, Depth estimation, unlabeled image Depth Anything은 강건한 단안 카메라 depth estimation 기술이다. 어떤 환경의 이미지에서도 가능하게 하기 위해서, 62M의 매우 큰 언라벨드 데이터를 사용하였고, automatic하게 annotation하였다. 그 결과 일반화 에러를 줄였다. 데이터 증강 툴을 사용했고, 사전 학습된 인코더로 이전의 풍부한 정보를 상속받는다. depth 추론 영역에서 SOTA를 달성했다. labeled와 unlabeled 이미지를 모두 사용한다. Monocular Depth ..
-
[Semantic Segmentation] FCNComputer Vision & AI/Computer Vision 2024. 2. 10. 17:44
FCN Fully Convolutional Network end-to-end 딥러닝 모델의 기본인 FCN https://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Long_Fully_Convolutional_Networks_2015_CVPR_paper.pdf end-to-end 딥러닝 모델 입력부터 출력까지 프로세스를 하나의 모델로 구현한 것 특징 VGG 네트워크 backbone을 그대로 사용 VGG 네트워크의 FC Layer (nn.Linear)를 Convolution으로 대체함 Transposed Convolution을 이용해서 Pixel Wise prediction을 수행함 VGG 3x3의 convolution을 깊게 쌓아서 적은 파라미터..
-
데이터 제작의 중요성을 알아보자Computer Vision & AI/AI 2024. 1. 23. 11:11
서비스향 AI 모델 개발 과정 Project Setup - 모델 요구사항 (처리 시간, 정확도, 서빙 방식, 장비 사양 등) Data Preparation - 데이터셋 준비 (종류, 수량, 정답 라벨) Model Training - 모델 학습 및 디버깅 (요구사항 달성) Deploying - 설치 및 유지보수 (모니터링, 이슈 해결) Data centric : 모델은 고정하고 데이터를 변경해서 성능 올리기 Model centric : 데이터는 고정하고 모델을 변경해서 성능 올리기 첫 릴리즈까지는 50,50 사용 중인 모델의 성능 개선 시에는 80,20정도 데이터 관련 업무가 왜 이렇게 많을까? 왜 어려울까? 1.어떻게 하면 좋을지 알려져 있지 않음 출판되는 논문의 비율도 데이터 관련 : 모델 = 1: 9..
-
재활용 쓰레기 분류를 위한 Object Detection 대회 회고Computer Vision & AI/Computer Vision 2024. 1. 23. 00:53
경험의 누적과 발전 지난 첫 대회의 경험을 통해 이번에는 빠르게 서버 구축을 할 수 있었다. 딥러닝 경진 대회에서 어떤 과정이 필요한지 큰 흐름을 알기 때문에 이번에는 그런 기법들을 왜 사용해야 하는지, 그게 뭔지를 하나하나 확인하면서 공부하고 기록하면서 진행했다. 왜 validation set을 고정으로 하는게 중요한지, 앙상블이 어떤 매커니즘으로 되는지, 딥러닝 학습이 어떤 구조로 돌아가는지, 이해를 기반으로 작업했다. 지난번에는 제대로 못 쓴 git issue, PR도 제대로 사용했다. wandb도 이번에 제대로 사용했고 팀 실험 전체를 함께 관리했다. mmdetection의 docs 페이지에서 직접 검색해가며 라이브러리를 사용했다. 나의 실험에 맞게 custom 하는 방법을 터득했다. Object..
-
DINO swin L 로 모델 성능 개선Computer Vision & AI/AI 2024. 1. 18. 17:32
2024.01.16 - [개발자노트/네이버 부스트캠프 AI] - (MMDetection) DINO 모델 테스트 (MMDetection) DINO 모델 테스트 다양한 모델들을 팀원들과 실험한 결과, Faster R-CNN과 RetinaNet, rtmdet 보다도 Cascade R-CNN이 높은 성능을 보여주었다. 그러나 Cascade R-CNN도 비교적 옛날에 발표된 논문 모델이라서 더 괜찮은 모델을 찾 venypark.tistory.com DINO는 anchor box를 디노이징하여 DETR의 성능향상을 한 모델입니다. 이전 글에서 언급한 DINO가 SOTA에서도 상위권이더라구요 상위권에 Transformer를 베이스로 하는 모델이 많이 보입니다. https://paperswithcode.com/sota..
-
(MMDetection) DINO 모델 테스트Computer Vision & AI/AI 2024. 1. 16. 00:30
다양한 모델들을 팀원들과 실험한 결과, Faster R-CNN과 RetinaNet, rtmdet 보다도 Cascade R-CNN이 높은 성능을 보여주었다. 그러나 Cascade R-CNN도 비교적 옛날에 발표된 논문 모델이라서 더 괜찮은 모델을 찾아보고 싶은 마음이 들었다. 그러다 발견한 것이 DINO였다. https://github.com/open-mmlab/mmdetection/tree/main/configs/dino mmdetection readme에 정리된 box AP 성능이 더 높고, Cascade R-CNN (CVPR 2018) DINO (ICLR 2023) 으로 비교적 DINO가 최신 논문이었다. 학습을 돌리고 성능이 괜찮게 나와서 더 학습을 하면서 간단한 정리를 먼저 해본다. DINO: D..
-
(MMDetection) Cascade R-CNN 테스트Computer Vision & AI/AI 2024. 1. 15. 01:07
MMDetection 모델 실험 중 Cascad R-CNN을 돌려보았다. 그 결과와 성능에 대해 간단히 정리해보려 한다. 먼저 Cascade R-CNN의 특징을 살펴본다. cascade라는 단어의 뜻은 겹겹이, 층으로 쌓다 라는 의미이다. 이런 의미처럼 모델도 여러 층의 detector로 구성된다. 이전 detector들의 문제점은 IoU threshold를 낮게 하면 noisy detection이 발생되고, IoU를 threshold를 높게하면 AP가 낮아지는 점이었다. IoU (Intersection over Union) : 두 영역이 겹치는 부분의 면적 detection 문제에서 모델이 예측한 bbox와 실제 GT bbox 간의 IoU를 계산해서 정확도를 평가한다. IoU 임계값이 높을 때 : 임계..
-
구글 'Gemini' : on device와 cross-modelComputer Vision & AI/AI 2023. 12. 14. 11:13
https://youtu.be/jV1vkHv4zq8?si=L_YwbztIBrtqosi4 구글 공식 유튜브 영상. AI 기술 소개 영상이지만 휴머니즘 다큐멘터리 분위기의 영상인게 흥미롭다. 구글 gemini는 언어, 이미지, 음성, 동영상을 모두 처리하는 멀티 모달 모델이다. 지금까지 멀티 모달 AI들은 각각의 모델들을 따로 학습 후 연결되었으나 gemini는 이와 다르게 사전 학습부터 다른 데이터 양식을 함께 학습한다. gemini 테크니컬 리포트에서는 multi-modal 이라는 표현대신 cross-modal 이라는 표현이 자주 등장한다. 내가 생각해 본 멀티 모달과 크로스 모달의 차이점은 멀티 모달은 각 감각 기관인 눈, 손, 귀, 코, 입이 개별적인 처리를 완료하고 서로의 결과가 합쳐진 최종 결과를..