-
구글 'Gemini' : on device와 cross-modelComputer Vision & AI/AI 2023. 12. 14. 11:13
https://youtu.be/jV1vkHv4zq8?si=L_YwbztIBrtqosi4
구글 공식 유튜브 영상. AI 기술 소개 영상이지만 휴머니즘 다큐멘터리 분위기의 영상인게 흥미롭다.
구글 gemini는 언어, 이미지, 음성, 동영상을 모두 처리하는 멀티 모달 모델이다.
지금까지 멀티 모달 AI들은 각각의 모델들을 따로 학습 후 연결되었으나 gemini는 이와 다르게
사전 학습부터 다른 데이터 양식을 함께 학습한다.
gemini 테크니컬 리포트에서는 multi-modal 이라는 표현대신 cross-modal 이라는 표현이 자주 등장한다.
내가 생각해 본 멀티 모달과 크로스 모달의 차이점은
멀티 모달은 각 감각 기관인 눈, 손, 귀, 코, 입이 개별적인 처리를 완료하고 서로의 결과가 합쳐진 최종 결과를 내놓는다.
크로스 모달은 감각 기관들이 자극을 처리하면서 동시에 서로의 기관에 피드백을 준다.
음식을 먹으면서 동시에 냄새까지 맡는것처럼.
서로 상호작용하는 형태이다.
on device 모델 사이즈
gemini 1.0은 크기에 따라 울트라/프로/나노 버전으로 나뉜다.
파라미터 개수와 모델 성능이 항상 비례한다고 볼 수 없지만,
파라미터가 복잡하고 많을수록 모델은 다양한 기능을 수행할 수 있다.
간단한 디바이스에 사용하는 용도로 나노를 쓸 수 있고,
좀 더 높은 성능이 필요하면 울트라를 사용할 수 있다.
구글 딥마인의 gemini 공식 페이지
https://deepmind.google/technologies/gemini/#introduction
gimini 소개 블로그 포스트
참고 : 셀렉트스타 뉴스레터
'Computer Vision & AI > AI' 카테고리의 다른 글
DINO swin L 로 모델 성능 개선 (0) 2024.01.18 (MMDetection) DINO 모델 테스트 (1) 2024.01.16 (MMDetection) Cascade R-CNN 테스트 (1) 2024.01.15 NeRF Studio 테스트 (0) 2023.08.23 (복습) YOLO, Gradient descent (0) 2023.07.04