Computer Vision & AI
-
Mask R-CNN 논문 리뷰 (2)Computer Vision & AI/논문리뷰 2023. 12. 5. 16:59
Mask R-CNN = Faster R-CNN + mask branch 🔹모델의 주요 특징 Instance Segmentation Segmentation mask prediction RoI Align 🔹 3가지 branch Classification branch Bbox Regression branch Mask branch mask branch segmentation mask를 예측 1. RoI Align Faster R-CNN : RoI pooling 사용 ⇒ object detection Mask R-CNN : RoI Align 사용 ⇒ segmentation 💭Faster R-CNN의 RoI Pooling feature map에서 region proposal에 해당하는 RoI를 지정한 크기의 gri..
-
Mask R-CNN 논문 리뷰 (1) BackgroundsComputer Vision & AI/논문리뷰 2023. 12. 5. 12:24
Mask R-CNN paper Abstract The method, called Mask R-CNN, extends Faster R-CNN by adding a branch for predicting an object mask in parallel with the existing branch for bounding box recognition. Mask R-CNN = Faster R-CNN + mask branch (segmentation mask를 예측) 🔹 개념정리 object detection : 객체가 위치하고 있는 bbox를 출력 object segmentation : 객체를 픽셀 단위로 분류 Sematic segmentation : 인스턴스의 구분없이 같은 클래스이면 함께 분류 Instance..
-
[논문리뷰] DDPM : Denoising Diffusion Probabilistic ModelsComputer Vision & AI/논문리뷰 2023. 11. 15. 11:50
https://arxiv.org/pdf/2006.11239.pdf https://github.com/hojonathanho/diffusion GitHub - hojonathanho/diffusion: Denoising Diffusion Probabilistic Models Denoising Diffusion Probabilistic Models. Contribute to hojonathanho/diffusion development by creating an account on GitHub. github.com Contents 1. Subject 2. Intro 3. Background 3-1. Forward(diffusion) process : q 3-2. Reverse(denoising) proces..
-
[컴퓨터비전] 두 이미지의 유사성을 측정하는 "SSIM"Computer Vision & AI/Computer Vision 2023. 10. 31. 20:27
- 사용 모듈 OpenCV PyQt scikit-image scikit-image의 compare_ssim함수를 이용하여 두 이미지의 유사도를 측정한다. 0에 가까울수록 유사성이 낮고, 1에 가까울수록 두 이미지간의 유사도가 높다. - 결과 AI 생성 이미지(오른쪽)들과 비교해봤다. 비교적 높은 수치가 나온 새와 강아지 이미지는 색상이 전체적으로 비슷한 편이나 고흐의 해바라기의 경우 생성 이미지에 방울토마토(R)과 Y값도 크기가 다르게 보인다. 그래서 수치가 낮게 나온 것 같다. - 전체코드 import sys import cv2 from PyQt5.QtWidgets import QApplication, QWidget, QPushButton, QLabel, QVBoxLayout, QFileDialog f..
-
SAM - Segment Anything ModelComputer Vision & AI/Computer Vision 2023. 10. 17. 21:13
모두연 - 모두팝 세미나에서 했던 SAM 강의를 바탕으로 정리한 글입니다. SAM segment anything model 올해 4월 Meta에서 출시한 segment anything 객체 하나뿐만 아니라 한번에 많은 객체를 segment 함. Motivation LLM은 사실 다음 단어를 예측하는 것인데 마치 대화하는 것처럼 보여진다. Foundation Model downstream task에 대해 높은 zero-shot generalization성능을 보이는 모델 트랜스포머 모델 이후 모델을 깊게 쌓아서 다음 단어를 예측하는 task를 잘 해결했다 segmentation을 잘 하기 위해서는 어떤 task가 정의되어야 할까? → 이미지와 어떤 prompt가 주어졌을 때 유효한 mask를 반환하는 것 ..
-
NeRF Studio 테스트Computer Vision & AI/AI 2023. 8. 23. 14:03
[API 리뷰] NeRF Studio : NeRF 통합 Framework (tistory.com) [API 리뷰] NeRF Studio : NeRF 통합 Framework NeRF를 쉽고 편리하게 구현 할 수 있는 API이자 Framework인 nerfstudio 에 대해 소개합니다. nerfstudio에서는 NeRF모델을 구현하는데 필요한 Data Preprocess, Data Loader, Model Training, Visualizing, Rendering을 API형태로 xoft.tistory.com 이 글을 참고했습니다!! 🌟결과🌟 인사이트, 느낀점💬 NeRF의 계산 비용을 체감했다. 비디오 파일을 직접 촬영해서도 테스트 할 수 있으니 나중에 토이 프로젝트로 다시 해봐야겠다. 결과 영상은 블러나 ..
-
모두콘 - <딥러닝을 활용한 이상탐지> 세미나 후기Computer Vision & AI/ML 2023. 8. 23. 11:54
이상치 탐지에 대해 관심이 있어서 패스트 캠퍼스 강의를 듣고 있었는데 마침 모두콘 세미나에서 해당 주제를 다뤄서 참가하게 되었습니다! 기록은 제 이해 기준이라 틀린 정보가 있을 수 있는 점 참고 부탁드립니다. 회색 글씨는 제 추가 생각 입니다,. 💡딥러닝을 활용한 이상탐지 이동하 교수님 (연세대 인공지능학과) Data mining process : 사람에게 유용한 지식을 추출 Data mining이란 대량의 데이터에서 유용한 정보와 패턴을 추출하고 분석하는 프로세스이다. (컴퓨터가 의미있는 계산을 할 수 있도록 의미 있는 정보를 추출한다.) Anomaly data 이상데이터도 다양하게 정의될 수 있다. (무엇을 이상데이터로 보느냐의 기준에 따라 달라짐) 정상 데이터는 비슷한 특징을 가지고 있을 확률이 높..
-
[TIL] CS231n 3강 - Loss function, OptimizationComputer Vision & AI/Computer Vision 2023. 8. 3. 23:47
Loss function 최적의 weight를 구하여 에러율을 줄이는 것이 머신러닝의 목표 최적화 : 에러율이 최소인 w를 구하는 과정 SVM Support Vector Machine 분류에 사용하는 모델 쉬운 설명 사이트👇 서포트 벡터 머신, 가보자고! ✊🏻 : "디지털"한 일잘러 되는 비법 (ablearn.kr) 경계선 상에 있는 데이터들을 이으면 support vector가 된다. 각 support vector간의 거리를 margin이라고 한다. support vector 사이의 직선을 decision boundary 라고 한다. 목표 : margin을 최대로 만드는 것. Hinge Loss SMV에서 loss를 구하는 방법 S_j 는 잘못된 score S_y_i는 correctly score 1은..
-
[TIL] 생성형 프롬프트 공부, 회의하며 정리한 것들Computer Vision & AI/Computer Vision 2023. 7. 25. 00:28
생성 프롬프트 사용할 때 seed 값 : 무작위성을 제어한다. pro:긍정, 일반적인 프롬프트, 어떤 것을 표현할지 neg: 부정, 이것을 이용해서 이상한 부분을 제거할 수 있다. ex) bad arms kaiber로 뮤직비디오 생성 프롬프트를 고정으로 하니까 계속 고정된 이미지가 나온다(말을 입력하면 죽을때까지 말만 나옴) general하게 입력해주니 풍부한 프레임들이 만들어졌다. evolve값 : kaiber에서 사용하는 파라미터인듯? 숫자가 낮을수록 안정적인 이미지 생성됨 프롬프트 작성에 있어서 이미지나 영상을 생성할 때 어느정도 미술, 비디오 관련 지식이 필요한 것을 느꼈다. 생성 사이트에서 관련된 키워드들을 예시와 함께 보여주면 좋을 듯. 오늘의 교훈 : 생성 이미지 만들 때 사용한 파라미터 값..