-
데이터 제작의 중요성을 알아보자Computer Vision & AI/AI 2024. 1. 23. 11:11
서비스향 AI 모델 개발 과정
- Project Setup - 모델 요구사항 (처리 시간, 정확도, 서빙 방식, 장비 사양 등)
- Data Preparation - 데이터셋 준비 (종류, 수량, 정답 라벨)
- Model Training - 모델 학습 및 디버깅 (요구사항 달성)
- Deploying - 설치 및 유지보수 (모니터링, 이슈 해결)
Data centric : 모델은 고정하고 데이터를 변경해서 성능 올리기
Model centric : 데이터는 고정하고 모델을 변경해서 성능 올리기
첫 릴리즈까지는 50,50
사용 중인 모델의 성능 개선 시에는 80,20정도
데이터 관련 업무가 왜 이렇게 많을까? 왜 어려울까?
1.어떻게 하면 좋을지 알려져 있지 않음
출판되는 논문의 비율도 데이터 관련 : 모델 = 1: 99 라고 함😦
2.라벨링이 생각보다 어렵다
잘못된 라벨링 결과를 무시하려면 제대로된 라벨링 결과가 2배 이상 필요
데이터가 1)골고루 2)제대로 라벨링 되어야 함
Rare한 케이스에서는 작업 가이드에 없을 수 있고 작업자별로 생각이 달라서 다르게 작업할 가능성이 높음
이전 회사에서 했던 경험이 떠올랐다.
Detection, traicking 업무 시 테스트 데이터들을 구축하는데
특이 케이스 데이터는 혼자 판단하기 힘들어서 항상 팀장님한테 물어봤다.
그때 작업자가 나 혼자여서 오히려 수월했을지도. 여러명이었다면 오히려 각각의 판단이 달라서
더 일이 많아졌을 것 같다.
스포츠 경기에서 사람이 구조물에 가려지거나, 관중에 가려지거나
이런 케이스들도 비일비재했다.
3.데이터 불균형을 바로 잡기가 어렵다
SW 1.0 IDE와는 또 다른 SW 2.0을 위한 IDE가 필요하다…!
🔑필요한 기능(데이터 관점)
- 데이터셋 시각화
- 데이터 라벨링 (작업 일관성 확인, 작업 효율 확인, 자동 라벨링 등)
- 데이터셋 정제
- 데이터셋 선별
이런 IDE가 생긴다면 정말 편할 것 같다...개발 욕망 뿜뿜
여기서의 데이터 라벨링 예시처럼 정말 생각하기 힘든 케이스들도 나온다.
그런 과정 때문에 어려운 태스크인 것 같다.
어떻게 효율화 할 수 있을지 앞으로 많이 고민해봐야겠다.
'Computer Vision & AI > AI' 카테고리의 다른 글
스탠포드 대학 HAI(인간중심인공지능)랩에서 만든 AI 동향 보고서 (0) 2024.04.19 DINO swin L 로 모델 성능 개선 (0) 2024.01.18 (MMDetection) DINO 모델 테스트 (1) 2024.01.16 (MMDetection) Cascade R-CNN 테스트 (1) 2024.01.15 구글 'Gemini' : on device와 cross-model (1) 2023.12.14