Computer Vision & AI/AI
-
스탠포드 대학 HAI(인간중심인공지능)랩에서 만든 AI 동향 보고서Computer Vision & AI/AI 2024. 4. 19. 14:55
https://aiindex.stanford.edu/report/?utm_source=Nomad+Academy&utm_campaign=ab4e4c9c7f-EMAIL_CAMPAIGN_2024_04_19&utm_medium=email&utm_term=0_4313d957c9-ab4e4c9c7f-357705928&mc_cid=ab4e4c9c7f&mc_eid=5bd5b86251 AI Index Report 2024 – Artificial Intelligence Index Welcome to the seventh edition of the AI Index report. The 2024 Index is our most comprehensive to date and arrives at an important momen..
-
데이터 제작의 중요성을 알아보자Computer Vision & AI/AI 2024. 1. 23. 11:11
서비스향 AI 모델 개발 과정 Project Setup - 모델 요구사항 (처리 시간, 정확도, 서빙 방식, 장비 사양 등) Data Preparation - 데이터셋 준비 (종류, 수량, 정답 라벨) Model Training - 모델 학습 및 디버깅 (요구사항 달성) Deploying - 설치 및 유지보수 (모니터링, 이슈 해결) Data centric : 모델은 고정하고 데이터를 변경해서 성능 올리기 Model centric : 데이터는 고정하고 모델을 변경해서 성능 올리기 첫 릴리즈까지는 50,50 사용 중인 모델의 성능 개선 시에는 80,20정도 데이터 관련 업무가 왜 이렇게 많을까? 왜 어려울까? 1.어떻게 하면 좋을지 알려져 있지 않음 출판되는 논문의 비율도 데이터 관련 : 모델 = 1: 9..
-
DINO swin L 로 모델 성능 개선Computer Vision & AI/AI 2024. 1. 18. 17:32
2024.01.16 - [개발자노트/네이버 부스트캠프 AI] - (MMDetection) DINO 모델 테스트 (MMDetection) DINO 모델 테스트 다양한 모델들을 팀원들과 실험한 결과, Faster R-CNN과 RetinaNet, rtmdet 보다도 Cascade R-CNN이 높은 성능을 보여주었다. 그러나 Cascade R-CNN도 비교적 옛날에 발표된 논문 모델이라서 더 괜찮은 모델을 찾 venypark.tistory.com DINO는 anchor box를 디노이징하여 DETR의 성능향상을 한 모델입니다. 이전 글에서 언급한 DINO가 SOTA에서도 상위권이더라구요 상위권에 Transformer를 베이스로 하는 모델이 많이 보입니다. https://paperswithcode.com/sota..
-
(MMDetection) DINO 모델 테스트Computer Vision & AI/AI 2024. 1. 16. 00:30
다양한 모델들을 팀원들과 실험한 결과, Faster R-CNN과 RetinaNet, rtmdet 보다도 Cascade R-CNN이 높은 성능을 보여주었다. 그러나 Cascade R-CNN도 비교적 옛날에 발표된 논문 모델이라서 더 괜찮은 모델을 찾아보고 싶은 마음이 들었다. 그러다 발견한 것이 DINO였다. https://github.com/open-mmlab/mmdetection/tree/main/configs/dino mmdetection readme에 정리된 box AP 성능이 더 높고, Cascade R-CNN (CVPR 2018) DINO (ICLR 2023) 으로 비교적 DINO가 최신 논문이었다. 학습을 돌리고 성능이 괜찮게 나와서 더 학습을 하면서 간단한 정리를 먼저 해본다. DINO: D..
-
(MMDetection) Cascade R-CNN 테스트Computer Vision & AI/AI 2024. 1. 15. 01:07
MMDetection 모델 실험 중 Cascad R-CNN을 돌려보았다. 그 결과와 성능에 대해 간단히 정리해보려 한다. 먼저 Cascade R-CNN의 특징을 살펴본다. cascade라는 단어의 뜻은 겹겹이, 층으로 쌓다 라는 의미이다. 이런 의미처럼 모델도 여러 층의 detector로 구성된다. 이전 detector들의 문제점은 IoU threshold를 낮게 하면 noisy detection이 발생되고, IoU를 threshold를 높게하면 AP가 낮아지는 점이었다. IoU (Intersection over Union) : 두 영역이 겹치는 부분의 면적 detection 문제에서 모델이 예측한 bbox와 실제 GT bbox 간의 IoU를 계산해서 정확도를 평가한다. IoU 임계값이 높을 때 : 임계..
-
구글 'Gemini' : on device와 cross-modelComputer Vision & AI/AI 2023. 12. 14. 11:13
https://youtu.be/jV1vkHv4zq8?si=L_YwbztIBrtqosi4 구글 공식 유튜브 영상. AI 기술 소개 영상이지만 휴머니즘 다큐멘터리 분위기의 영상인게 흥미롭다. 구글 gemini는 언어, 이미지, 음성, 동영상을 모두 처리하는 멀티 모달 모델이다. 지금까지 멀티 모달 AI들은 각각의 모델들을 따로 학습 후 연결되었으나 gemini는 이와 다르게 사전 학습부터 다른 데이터 양식을 함께 학습한다. gemini 테크니컬 리포트에서는 multi-modal 이라는 표현대신 cross-modal 이라는 표현이 자주 등장한다. 내가 생각해 본 멀티 모달과 크로스 모달의 차이점은 멀티 모달은 각 감각 기관인 눈, 손, 귀, 코, 입이 개별적인 처리를 완료하고 서로의 결과가 합쳐진 최종 결과를..
-
NeRF Studio 테스트Computer Vision & AI/AI 2023. 8. 23. 14:03
[API 리뷰] NeRF Studio : NeRF 통합 Framework (tistory.com) [API 리뷰] NeRF Studio : NeRF 통합 Framework NeRF를 쉽고 편리하게 구현 할 수 있는 API이자 Framework인 nerfstudio 에 대해 소개합니다. nerfstudio에서는 NeRF모델을 구현하는데 필요한 Data Preprocess, Data Loader, Model Training, Visualizing, Rendering을 API형태로 xoft.tistory.com 이 글을 참고했습니다!! 🌟결과🌟 인사이트, 느낀점💬 NeRF의 계산 비용을 체감했다. 비디오 파일을 직접 촬영해서도 테스트 할 수 있으니 나중에 토이 프로젝트로 다시 해봐야겠다. 결과 영상은 블러나 ..
-
(복습) YOLO, Gradient descentComputer Vision & AI/AI 2023. 7. 4. 23:11
yolo와 다른 디텍션간의 차이 YOLO는 빠른 처리 속도를 가지고 있어서 실시간 객체 탐지가 가능하다. 이미지를 그리드로 분할하여 각 셀에서 객체의 클래스와 Bounding box를 예측한다. 이 작업을 단일 전방향 패스로 수행하여 다른 알고리즘보다 빠르다. 그리고 객체 스케일에 영향을 덜 받는다. 피라미드 이미지로 다양한 스케일로 객체탐지를 수행한다. YOLO 인코더에 대해 설명 컨볼루션 레이어와 풀링 레이어로 구성된다. 컨볼루션 레이어에서는 입력 이미지의 다양한 특징을 감지한다. kernel을 이용하여 입력 이미지를 스캔해서 각 부분의 특징을 추출한다. 이때 활성화 함수를 사용하여(ReLU같은) 컨볼루션 레이어의 출력에 비선형성을 부여한다. 활성화 함수는 선형 함수의 한계를 극복하기 위해 사용된다...