Gemini 2.0: 구글, 에이전틱 AI 시대를 열다

AI, 노벨 화학상까지 석권하며 시대를 바꾸다

10월 10, 2024

디자인 걱정 끝! PPT 목업부터 도식화까지 책임지는 AI 툴 베스트 3

12월 26, 2024

작성자 lastai at 12월 11, 2024

카테고리

AI 뉴스

태그

구글 CEO 순다 피차이(Sundar Pichai)는 자사의 차세대 AI 혁신을 이끌 새로운 모델인 Gemini 2.0을 공식 발표했다. 이는 구글이 AI 혁명을 향해 내딛는 또 한 걸음으로, 1년 전 선보였던 Gemini 1.0 이후 큰 도약을 의미한다. 이번 업그레이드는 멀티모달 기능 강화, 에이전틱(agentic) 기능 도입, 그리고 혁신적인 사용자 도구를 바탕으로 AI 기술의 새로운 지평을 열 것으로 기대된다.

변혁적 AI를 향한 도약
지난 26년간 세계의 정보를 조직하고 접근성을 높여온 구글의 사명을 되돌아보며, 피차이는 “Gemini 1.0이 정보 조직과 이해에 집중했다면, Gemini 2.0은 그 정보를 훨씬 더 유용하게 만드는 단계”라고 강조했다.

2022년 12월 공개된 Gemini 1.0은 구글 최초로 네이티브 멀티모달 AI 모델로, 텍스트, 비디오, 이미지, 오디오, 코드 등 다양한 형태의 데이터를 이해하고 처리하는 능력을 갖추었다. 이후 출시된 1.5 버전은 길고 복잡한 문맥을 이해하는 능력이 강화되어 NotebookLM과 같은 생산성 앱에도 널리 활용되었다.

이제 Gemini 2.0을 통해 구글은 AI를 ‘범용 어시스턴트’로 성장시키고자 한다. 이 모델은 네이티브 이미지 및 오디오 생성, 향상된 추론 및 계획 기능, 실세계 의사결정 능력을 갖추어 “에이전틱 시대의 새벽”을 연다는 것이 피차이의 설명이다.

피차이는 “우리는 더 에이전틱한 모델에 많은 투자를 해왔다. 이 모델은 주변 세계를 더욱 깊이 이해하고, 여러 단계를 앞서 내다보며 사용자의 감독 하에 실행할 수 있는 능력을 갖추고 있다”고 덧붙였다.

Gemini 2.0: 핵심 특징과 출시 계획
이번 발표의 중심은 Gemini 2.0의 대표 모델인 “Gemini 2.0 Flash”의 실험적 출시다. 이 모델은 전작의 기반 위에서 속도와 성능을 대폭 향상시켰다.

Gemini 2.0 Flash는 멀티모달 입력과 출력을 지원하며, 텍스트와 결합한 네이티브 이미지 생성 및 조정 가능한 다국어 음성 출력(text-to-speech)이 가능하다. 또한 구글 검색이나 사용자 정의 써드파티 기능 같은 네이티브 툴 연동을 제공한다.

개발자와 기업은 Google AI Studio와 Vertex AI의 Gemini API를 통해 Gemini 2.0 Flash에 접근할 수 있으며, 더 큰 규모의 모델은 2024년 1월에 추가적으로 공개될 예정이다.

글로벌 접근성을 위해 Gemini 앱은 이제 2.0 Flash 실험 모델을 대화 최적화된 버전으로 제공한다. 초기 사용자는 데스크톱과 모바일에서 이 새로운 어시스턴트를 경험할 수 있으며, 모바일 앱 출시도 곧 진행된다.

또한 구글 검색(Search)에도 Gemini 2.0의 기능이 반영되어 복잡한 수학 문제나 코딩 질의, 멀티모달 쿼리를 처리하는 능력이 개선된다.

종합적 AI 혁신 스위트
Gemini 2.0의 출시는 모델의 가능성을 보여주는 다양한 새로운 도구와 함께한다.

“Deep Research” 기능은 복잡한 주제를 조사하는 과정을 간소화하여 종합적인 보고서를 생성하는 연구 어시스턴트 역할을 수행한다. 또 다른 업그레이드로는 Gemini 기반 AI 개요(AI Overviews)가 검색에 도입되어 여러 단계에 걸친 복잡한 사용자 질의를 해결한다.

Gemini 2.0은 구글의 6세대 텐서 프로세싱 유닛(TPU)인 “Trillium” 위에서 학습되었으며, 피차이는 “Gemini 2.0의 학습과 추론 과정 100%가 Trillium으로 구동되었다”고 설명했다.

이제 Trillium은 외부 개발자에게도 개방되어, 구글이 사용한 동일한 인프라를 활용할 수 있게 되었다.

에이전틱 경험의 개척
Gemini 2.0과 함께 공개된 실험적 “에이전틱” 프로토타입들은 인간과 AI의 협업 미래를 가늠하게 한다.

Project Astra: 범용 AI 어시스턴트
올해 I/O에서 처음 소개된 Project Astra는 Gemini 2.0의 멀티모달 이해를 바탕으로 현실 세계에서의 AI 상호작용을 개선한다. 안드로이드 기기에서 신뢰할 수 있는 테스터들이 멀티랭귀지 대화, 메모리 유지, 구글 검색·렌즈·맵스 통합 등의 기능을 시험하고 있으며, 사람 수준에 가까운 대화 지연 시간(레이턴시)을 달성했다. 향후 웨어러블 기기, 예를 들어 AI 안경 프로토타입에도 적용하기 위한 연구가 진행 중이다.
Project Mariner: 웹 자동화의 재정의
Project Mariner는 Gemini 2.0의 능력을 활용해 텍스트, 이미지, 양식 등 웹상의 다양한 요소를 모두 이해하고 상호작용하는 실험적 웹 브라우징 어시스턴트다. 초기 테스트에서 WebVoyager 벤치마크 상 83.5%의 성공률을 기록했으며, Chrome 확장 프로그램 형태로 초기 테스터들에 의해 개선되고 있다. 구글은 사용자 친화적이고 안전한 기술을 보장하기 위해 안전성 검증에 노력하고 있다.
Jules: 개발자를 위한 코딩 에이전트
Jules는 GitHub 워크플로우에 직접 통합되어 개발자를 지원하는 AI 비서다. 이 에이전트는 인간 감독 하에 코드를 제안하고, 실행 플랜을 수립하며, 코드 기반 작업을 자율적으로 수행할 수 있다. 이는 구글이 장기적으로 다양한 분야에서 활용 가능한 에이전트 구축을 목표하는 노력의 일환이다.

게임 분야 및 그 너머
Gemini 2.0은 가상 환경에도 적용되고 있다. 구글 딥마인드(DeepMind)는 Supercell 같은 게임 파트너와 협력해 지능형 게임 에이전트를 개발하고 있다. 이들은 실시간으로 게임 액션을 해석하고 전략을 제안하며, 검색 기능을 통해 폭넓은 지식을 활용하는 등, 미래 게임 경험을 재정의한다. 또한 Gemini 2.0의 공간 추론 능력을 로보틱스에 적용하는 연구도 진행 중으로, 물리적 세계에서도 활용 가능한 가능성을 모색하고 있다.

책임 있는 AI 개발을 위한 노력
AI 역량이 확장됨에 따라 구글은 안전성·윤리적 측면의 중요성을 강조한다.

구글은 Gemini 2.0에 대해 광범위한 리스크 평가를 수행하고, 책임 및 안전 위원회의 감독 아래 잠재적 위험을 최소화했다고 밝혔다. 또한 모델 자체의 추론 능력을 활용해 “레드 팀(red-teaming)” 시험을 강화하고, 대규모로 안전성을 최적화하고 있다.

사용자 프라이버시 보호와 악용 방지를 위한 안전 장치도 모색 중이다. 예를 들어 Project Mariner는 악의적인 프롬프트 주입을 방어하고, 피싱이나 사기성 거래를 예방하도록 설계되었다. Project Astra에서는 사용자 세션 데이터 관리 및 삭제 기능을 쉽게 제공하여 프라이버시를 보호한다.

피차이는 “우리는 책임 있는 방식으로 AI를 개발하는 것만이 올바른 길이라고 굳게 믿는다”고 재차 강조했다.

이번 Gemini 2.0 Flash의 출시는 구글이 다양한 분야에서 상호작용을 혁신하는 ‘범용 어시스턴트’ 구축 비전에 한 발 더 다가섰음을 의미한다.

Post Views: 108

Gemini 2.0: 구글, 에이전틱 AI 시대를 열다

AI, 노벨 화학상까지 석권하며 시대를 바꾸다

디자인 걱정 끝! PPT 목업부터 도식화까지 책임지는 AI 툴 베스트 3

AI, 노벨 화학상까지 석권하며 시대를 바꾸다

디자인 걱정 끝! PPT 목업부터 도식화까지 책임지는 AI 툴 베스트 3

lastai

관련 게시물

맞춤형 광고의 진실, 스마트폰이 대화를 엿듣고 있을까?

오픈AI, ‘스트로베리(Strawberry)’로 AGI 2단계 도달 임박

앤트로픽 (Anthropic), 클로드 Claude 3.5 Sonnet 출시