본문 바로가기
카테고리 없음

구글 제미나이 인공지능 공개, 바드-챗GPT4-Cue 최신성 비교

by 종이책 2023. 12. 7.
728x90
반응형

 

구글은 지난 12월 6일(현지시간)에 차세대 인공지능(AI) 거대언어모델(LLM) 제미나이를 발표했습니다. 구글은 발표 당일 영상을 공개하며 제미나이가 이미지 리딩을 통해 촬영된 사물의 특징까지 파악해 추론할 수 있다고 설명하고 있습니다. 그리고 제미나이가 구현된 바드 웹서비스까지 출시하여 테스트 중에 있습니다.

 

목차

  • 구글 제미나이 및 바드 출시
  • 제미나이의 사물 및 행동 묘사 능력
  • 제미나이는 멀티모달 특성을 갖춘 LLM
    ─ 멀티모달(Multi-Modal)이란?
    ─ 대형 언어모델 LLM이란?
  • 구글 제미나이 시연 영상 살펴보기 
  • 최신성 비교 : 챗GPT(OpenAI), 바드(구글), CUE(네이버)

 

구글 제미나이 출시 홈페이지 메인 화면
출처: 구글 제미나이 홈페이지 이미지

 

제미나이의 사물 및 행동 묘사 능력

 

시연 영상에서 손으로 쥐고 있는 오리 인형을 보여주자 제미나이는 

"What a Quack! i was just talking about a blue duck, and now you're holding one!"

"꽥꽥! 방금 파란 오리 얘기를 하고 있었는데, 지금 당신이 파란 오리를 잡고 있네요!"

라고 텍스트와 목소리로 동시에 이야기합니다. 

 

출처: 구글 제미나이 시연 유튜브 영상
출처: 구글 제미나이 시연 유튜브 영상

 

이어 사람이 매트릭스 행동을 패러디하자, 바로 매트릭스 영화 속 총알 장면을 연기하고 있다고 이야기합니다. 이밖에도 다양한 그림과 사물을 보여주자, 제미나이는 즉각적으로 묘사하여 설명해 줍니다.

 

물론 제미나이의 능력을 보여주기 위해, 인간이 의도한 연출된 상황과 행동에 대한 영상이기,  실제 생활에선 어떻게 적용될 수 있을지는 아직 다 파악할 순 없습니다.

 

출처: 구글 제미나이 매트릭스 유튜브 영상
출처: 구글 제미나이 시연 유튜브 영상

 

출처: 구글 제미나이 시연 유튜브 영상
출처: 구글 제미나이 시연 유튜브 영상
출처: 구글 제미나이 시연 유튜브 영상
출처: 구글 제미나이 시연 유튜브 영상
출처: 구글 제미나이 시연 유튜브 영상
출처: 구글 제미나이 시연 유튜브 영상

 

 

구글은 발표에서 세계의 정보를 설계하고 사용자들이 보편적으로 접근할 수 있게 유용하게 만드는 것을 목표한다고 설명합니다. 그러나 정보의 규모와 복잡성의 범위가 넓어지면서, 더 깊은 돌파구의 필요를 위해 인공지능 분야까지 확대되었음을 이야기하고 있습니다. 

 

그리고 보편적인 인공지능 모델을 구축하고자 했고, 제미나이는 텍스트, 비전, 오디오, 이미지, 비디오와 같은 다양한 사물과 콘텐츠의 속성을 이해하고 상호작용할 수 있도록 개발되었습니다. 

 

 

제미나이는 멀티모달 특성을 갖춘 LLM입니다. 

 

멀티모달이란 시각과 청각등을 활용하여 텍스트와 이미지, 음성, 영상 등으로 상호작용할 수 있는 기술을 뜻합니다. 챗GPT는 오픈 AI가 이미지 생성과 음성 인식 기술을 따로 개발하였는데, 구글은 개발 단계부터 이를 동시에 리딩할 수 있도록 다양한 데이터로 제미나이를 훈련시켰으며, 이로 인해 구글은 제미나이가 기존의 멀티모달보다 더 뛰어나다고 이야기합니다. 

 

그리고 시연에는 2024년 초 출시 예정인 '울트라' 버전이 사용되었으며, 해당 버전은 '바드 어드밴스트'라는 이름으로 출시될 예정입니다. 제미나이는 울트라, 프로, 나노 등 총 3개의 형태로 출시된다고 합니다. 가장 많이 쓰일 제미나이 프로는 12월 6일부터 구글의 AI 챗봇 서비스 바드에 탑재되었습니다.

 

제미나이 프로가 적용된 바드는 한국을 포함해 170여 개 국가에서 영어로만 먼저 출시됩니다. 향후에는 서비스 국가에 맞춰 새로운 언어도 지원될 계획입니다. 

 


 

│멀티모달(Multi-Modal)이란?

멀티모달 기술은 여러 가지 다른 종류의 입력이나 출력을 동시에 처리하는 기술을 의미합니다. 이는 주로 컴퓨터 비전, 음성 인식, 텍스트 처리 등 다양한 모드의 정보를 통합하여 더 풍부하고 효과적인 시스템을 구축하는 데 사용됩니다. 여러 가지 모달리티(modality,입력 또는 출력의 다양한 형태)를 종합적으로 이해하고 활용함으로써 인간과 컴퓨터 간의 상호작용을 더욱 향상할 수 있습니다.

멀티모달 시스템은 다양한 종류의 센서나 데이터 소스를 통해 수집된 정보를 통합하고 처리함으로써 풍부한 정보를 얻을 수 있습니다. 아래는 몇 가지 주요한 멀티모달 기술의 예시입니다:

음성 및 언어 처리: 음성 인식 기술과 자연어 처리 기술을 결합하여, 사용자의 음성 명령을 이해하고 자연스러운 언어로 응답하는 시스템을 구축할 수 있습니다.

이미지 및 비디오 처리: 컴퓨터 비전 기술을 사용하여 이미지나 비디오에서 정보를 추출하고 해석할 수 있습니다. 예를 들어, 객체 인식, 얼굴 인식, 동작 감지 등이 여기에 속합니다.

텍스트 분석: 텍스트 데이터를 분석하여 의미 있는 정보를 도출합니다. 이는 자연어 처리, 감성 분석, 텍스트 요약 등의 기술을 활용합니다.

터치 및 제스처 인식: 터치스크린이나 카메라를 통해 사용자의 터치나 제스처를 감지하고 이를 이해하여 상호작용을 지원합니다.

가상현실과 증강 현실: 멀티모달 기술은 가상현실(VR)과 증강 현실(AR)에서 특히 중요합니다. 여러 종류의 센서와 데이터를 결합하여 현실감 있고 상호작용이 풍부한 가상 환경을 만들 수 있습니다.

자율 주행 차량: 자율 주행 차량은 카메라, 레이더, 리다 및 다른 센서를 사용하여 주변 환경을 인식하고 이에 대응하여 운전을 수행합니다.

멀티모달 기술의 적용은 다양한 분야에서 확장되고 있으며, 이를 통해 더 풍부하고 효과적인 인간-컴퓨터 상호작용 및 시스템 개발이 가능해지고 있습니다.

 

 

│대형 언어모델 LLM이란?

LLM은 "Large Language Model"의 약자로, 큰 언어 모델을 가리킵니다. 이는 주로 인공 지능과 기계 학습 분야에서 텍스트와 언어를 처리하고 이해하는 데 사용되는 모델을 나타냅니다.

LLM은 일반적으로 많은 양의 텍스트 데이터를 사용하여 훈련되며, 대표적으로 GPT (Generative Pre-trained Transformer)와 같은 트랜스포머 아키텍처를 기반으로 합니다. GPT 시리즈는 OpenAI에서 개발한 대표적인 LLM 중 하나입니다.

LLM은 큰 규모의 언어 모델로, 수억 개 이상의 파라미터를 가질 수 있습니다. 이는 모델이 매우 많은 언어적 패턴과 문맥을 학습할 수 있도록 하며, 다양한 자연어 처리 작업에서 뛰어난 성능을 보일 수 있습니다.

일반적으로 LLM은 미리 훈련된(pre-trained) 상태에서 제공되며, 이후에 특정 작업을 위해 추가적인 파인튜닝(fine-tuning)을 수행할 수 있습니다. 이는 특정 도메인이나 작업에 대해 더욱 특화된 언어 모델을 만들 수 있도록 합니다.

LLM은 다양한 응용 분야에서 사용되고 있습니다. 예를 들어, 자연어 이해(NLU), 기계 번역, 텍스트 생성, 질문 응답 시스템, 요약, 감성 분석 등 다양한 자연어 처리 작업에 적용될 수 있습니다. 그리고 이러한 모델은 대규모 텍스트 데이터를 이해하고 생성할 뿐만 아니라, 다양한 언어적 특성과 추론 능력을 학습하여 문맥을 이해하고 응용할 수 있습니다.

 

 

─ 구글 제미나이 시연 영상 살펴보기

 


! 최신성 비교 : 챗GPT(OpenAI) - 바드(구글) - CUE(네이버)

 

그리고 제미나이가 적용된 바드 웹사이트가 오픈하였습니다. 최신성면에서 챗GPT보다 빠르며, 2023년 정보까지 담고 있다고 합니다. 

그리서 챗GPT와 바드, 네이버의 큐 의 최신성을 간단하게 비교해보기로 하였습니다. 

 

"2023년 한국에서는 무슨 일이 있었니?"로 질문을 한 결과입니다. 

 

챗GPT의 답변은 자신이 가진 정보가 2022년 1월까지인 관계로 답을 하지 못하였습니다. 하지만 바드와 QUE는 4월 1일 있었던 사건에 대하여 리스트업하여 보여주었습니다. 이제 사람이 꼭 기억하지 않더라도 검색으로 기간 내의 사건들을 추려서 볼 수 있다니. 검색의 제한이 한층 사라진 느낌입니다. 바드는 전세계의 정보를 수집하여 최신성에 맞춰 보여준다는 점에서 우수, 네이버는 한국인이 선호하는 데이터가 많아 리스트업한다는 점에서 각기 다른 장점이 있을 것 같습니다. 

 

 

(챗GPT, 바드, 큐)

 

챗GPT

 

구글 바드

 

CUE

 


 

★구글 제미나이 웹페이지

 

Gemini - Google DeepMind

Gemini is built from the ground up for multimodality — reasoning seamlessly across image, video, audio, and code.

deepmind.google

 

 

★구글 제미나이가 적용된 바드 웹사이트

 

Google Bard - 생성형 AI 챗봇 사이트

생성형 AI 기술이 적용된 챗봇 AI 사이트, Google Bard로 혁신적인 생산성을 경험하세요.

bard.google.com

 

 

이상으로 구글의 제미나이 출시에 대하여 간략하게 살펴보았습니다. 앞으로 여러 기업의 인공지능 서비스 출시로 인해 우리의 삶을 어떤 방향으로 이끌어갈지 매우 궁금해지네요. 웹 3.0 시대와 인공지능. 나이가 들수록 능력의 한계를 느끼는 인간으로써 실은 두려움이 느껴지긴 합니다. 하지만 이에 적응하여 새로운 세계를 살아가야겠지요. 

 

반응형