Google выпустил Gemini 2.0: миллион токенов, агентный ИИ, игры

Начнем с самого главного - эта штука теперь может быть настоящим агентом. Что это значит? Представьте, что у вас есть не просто чат-бот, а реальный цифровой помощник, который может сам планировать и действовать. NotebookLM - отличный пример того, на что способны мультимодальность и длинный контекст, и неспроста его так полюбили пользователи.

“В течение последнего года мы инвестировали в разработку более агентных моделей, что означает, что они могут лучше понимать мир вокруг вас, думать на несколько шагов вперед и действовать от вашего имени под вашим контролем”, - объясняет Пичаи новое направление развития компании.

Самое крутое - это то, как они развили мультимодальность. Gemini 2.0 Flash (так называется первая модель из нового семейства) не просто понимает картинки, видео и звук - она теперь может их создавать. Причём делает это нативно, прямо в процессе общения. Хотите текст со встроенными изображениями? Пожалуйста. Нужен многоязычный синтез речи? Не вопрос.

Gemini 2.0 Flash уже доступен всем пользователям Gemini. Её можно выбрать в выпадающем меню на десктопе и в мобильном вебе, а скоро появится и в мобильном приложении.

Из отличных новостей - она научилась использовать внешние инструменты. Google Search? Есть. Запуск кода? Да без проблем. Более того, можно подключать свои собственные функции.

В своём обращении CEO Google также отметил значительный успех предыдущих версий: “Сейчас миллионы разработчиков создают проекты с помощью Gemini. И это помогает нам переосмыслить все наши продукты — включая все 7 из них с 2 миллиардами пользователей — и создавать новые”.

Интересный факт - при всей этой крутости 2.0 Flash работает быстрее своего предшественника. Если точнее, она обгоняет 1.5 Pro по ключевым показателям, при этом работая в два раза быстрее.

Особое внимание Пичаи уделил развитию поисковых технологий: “Ни один продукт не был трансформирован искусственным интеллектом больше, чем Поиск. Наши AI Overviews теперь достигают 1 миллиарда людей, позволяя им задавать совершенно новые типы вопросов — это быстро становится одной из наших самых популярных функций Поиска за всё время”.

Интересно выглядит и Project Astra - их экспериментальный универсальный ИИ-ассистент. Представьте себе: он может держать в памяти до 10 минут разговора, помнит прошлые беседы и реально адаптируется под вас. При этом работает со скоростью человеческой речи и понимает разные языки (даже когда вы их смешиваете). А ещё умеет пользоваться Google Search, Lens и Maps.

И это не просто эксперимент - Google уже начинает расширять программу тестирования. Более того, скоро небольшая группа людей начнёт тестировать Project Astra на прототипах умных очков.

Google не остановилась на этом и пошла дальше - в игровую индустрию. Буквально на прошлой неделе они представили Genie 2 - модель, которая может создавать бесконечное разнообразие играбельных 3D миров из одного изображения. А теперь они создали агентов на базе Gemini 2.0, которые могут не просто играть в игры, а реально понимать, что происходит на экране и давать советы в реальном времени.

Уже идёт сотрудничество с Supercell - разработчиками Clash of Clans и Hay Day. Представляете, ваш ИИ-помощник не только подскажет стратегию, но и может поискать в Google дополнительную информацию об игре.

Техническая начинка тоже впечатляет. Вся эта мощь работает на процессорах TPU шестого поколения под названием Trillium. Причём не частично - 100% тренировки и инференса Gemini 2.0 прошли на этих процессорах. И знаете что? Теперь эти процессоры доступны клиентам Google. То есть теоретически любой может построить что-то подобное (ну, если хватит денег и умения, конечно).

Отдельно стоит отметить новую фичу под названием Deep Research. Это как личный научный ассистент, который может копать глубоко в сложных темах и составлять отчёты. Уже доступно в Gemini Advanced, кстати.

А теперь немного о будущем. Google планирует расширить возможности AI Overviews для работы с более сложными темами. Представьте себе - многоступенчатые математические уравнения, мультимодальные запросы, программирование. Тестирование уже началось, а полноценный запуск планируется в начале следующего года.

Project Mariner и Jules (ИИ-агент для разработчиков) тоже выглядят многообещающе, хотя пока находятся на ранней стадии разработки. Google явно делает ставку на то, что будущее за агентным ИИ - системами, которые могут не просто отвечать на вопросы, а реально помогать решать задачи.

Ну и напоследок - контекстное окно в миллион токенов. Да-да, вы не ослышались. Это просто гигантский скачок вперёд. Представьте, сколько информации может обрабатывать такая модель одновременно.