구글 'Gemini' : on device와 cross-model

Computer Vision & AI/AI 2023. 12. 14. 11:13

구글 공식 유튜브 영상. AI 기술 소개 영상이지만 휴머니즘 다큐멘터리 분위기의 영상인게 흥미롭다.

구글 gemini는 언어, 이미지, 음성, 동영상을 모두 처리하는 멀티 모달 모델이다.

지금까지 멀티 모달 AI들은 각각의 모델들을 따로 학습 후 연결되었으나 gemini는 이와 다르게

사전 학습부터 다른 데이터 양식을 함께 학습한다.

gemini 테크니컬 리포트에서는 multi-modal 이라는 표현대신 cross-modal 이라는 표현이 자주 등장한다.

내가 생각해 본 멀티 모달과 크로스 모달의 차이점은

멀티 모달은 각 감각 기관인 눈, 손, 귀, 코, 입이 개별적인 처리를 완료하고 서로의 결과가 합쳐진 최종 결과를 내놓는다.

크로스 모달은 감각 기관들이 자극을 처리하면서 동시에 서로의 기관에 피드백을 준다.

음식을 먹으면서 동시에 냄새까지 맡는것처럼.

서로 상호작용하는 형태이다.

on device 모델 사이즈

gemini 1.0은 크기에 따라 울트라/프로/나노 버전으로 나뉜다.

파라미터 개수와 모델 성능이 항상 비례한다고 볼 수 없지만,

파라미터가 복잡하고 많을수록 모델은 다양한 기능을 수행할 수 있다.

간단한 디바이스에 사용하는 용도로 나노를 쓸 수 있고,

좀 더 높은 성능이 필요하면 울트라를 사용할 수 있다.

구글 딥마인의 gemini 공식 페이지

Gemini - Google DeepMind

Gemini is built from the ground up for multimodality — reasoning seamlessly across image, video, audio, and code.

deepmind.google

gimini 소개 블로그 포스트

Introducing Gemini: our largest and most capable AI model

Gemini is our most capable and general model, built to be multimodal and optimized for three different sizes: Ultra, Pro and Nano.

blog.google

참고 : 셀렉트스타 뉴스레터

DINO swin L 로 모델 성능 개선 (0)	2024.01.18
(MMDetection) DINO 모델 테스트 (1)	2024.01.16
(MMDetection) Cascade R-CNN 테스트 (1)	2024.01.15
NeRF Studio 테스트 (0)	2023.08.23
(복습) YOLO, Gradient descent (0)	2023.07.04

_heyna의 작업실_ _heyna의 작업실_