Начнем с самого главного — эта штука теперь может быть настоящим агентом. Что это значит? Представьте, что у вас есть не просто чат-бот, а реальный цифровой помощник, который может сам планировать и действовать. NotebookLM — отличный пример того, на что способны мультимодальность и длинный контекст, и неспроста его так полюбили пользователи.
«В течение последнего года мы инвестировали в разработку более агентных моделей, что означает, что они могут лучше понимать мир вокруг вас, думать на несколько шагов вперед и действовать от вашего имени под вашим контролем», — объясняет Пичаи новое направление развития компании.
Самое крутое — это то, как они развили мультимодальность. Gemini 2.0 Flash (так называется первая модель из нового семейства) не просто понимает картинки, видео и звук — она теперь может их создавать. Причём делает это нативно, прямо в процессе общения. Хотите текст со встроенными изображениями? Пожалуйста. Нужен многоязычный синтез речи? Не вопрос.
Gemini 2.0 Flash уже доступен всем пользователям Gemini. Её можно выбрать в выпадающем меню на десктопе и в мобильном вебе, а скоро появится и в мобильном приложении.
Из отличных новостей — она научилась использовать внешние инструменты. Google Search? Есть. Запуск кода? Да без проблем. Более того, можно подключать свои собственные функции.
В своём обращении CEO Google также отметил значительный успех предыдущих версий: «Сейчас миллионы разработчиков создают проекты с помощью Gemini. И это помогает нам переосмыслить все наши продукты — включая все 7 из них с 2 миллиардами пользователей — и создавать новые».
Интересный факт — при всей этой крутости 2.0 Flash работает быстрее своего предшественника. Если точнее, она обгоняет 1.5 Pro по ключевым показателям, при этом работая в два раза быстрее.
Особое внимание Пичаи уделил развитию поисковых технологий: «Ни один продукт не был трансформирован искусственным интеллектом больше, чем Поиск. Наши AI Overviews теперь достигают 1 миллиарда людей, позволяя им задавать совершенно новые типы вопросов — это быстро становится одной из наших самых популярных функций Поиска за всё время».
Интересно выглядит и Project Astra — их экспериментальный универсальный ИИ-ассистент. Представьте себе: он может держать в памяти до 10 минут разговора, помнит прошлые беседы и реально адаптируется под вас. При этом работает со скоростью человеческой речи и понимает разные языки (даже когда вы их смешиваете). А ещё умеет пользоваться Google Search, Lens и Maps.
И это не просто эксперимент — Google уже начинает расширять программу тестирования. Более того, скоро небольшая группа людей начнёт тестировать Project Astra на прототипах умных очков.
Google не остановилась на этом и пошла дальше — в игровую индустрию. Буквально на прошлой неделе они представили Genie 2 — модель, которая может создавать бесконечное разнообразие играбельных 3D миров из одного изображения. А теперь они создали агентов на базе Gemini 2.0, которые могут не просто играть в игры, а реально понимать, что происходит на экране и давать советы в реальном времени.
Уже идёт сотрудничество с Supercell — разработчиками Clash of Clans и Hay Day. Представляете, ваш ИИ-помощник не только подскажет стратегию, но и может поискать в Google дополнительную информацию об игре.
Техническая начинка тоже впечатляет. Вся эта мощь работает на процессорах TPU шестого поколения под названием Trillium. Причём не частично — 100% тренировки и инференса Gemini 2.0 прошли на этих процессорах. И знаете что? Теперь эти процессоры доступны клиентам Google. То есть теоретически любой может построить что-то подобное (ну, если хватит денег и умения, конечно).
Отдельно стоит отметить новую фичу под названием Deep Research. Это как личный научный ассистент, который может копать глубоко в сложных темах и составлять отчёты. Уже доступно в Gemini Advanced, кстати.
А теперь немного о будущем. Google планирует расширить возможности AI Overviews для работы с более сложными темами. Представьте себе — многоступенчатые математические уравнения, мультимодальные запросы, программирование. Тестирование уже началось, а полноценный запуск планируется в начале следующего года.
Project Mariner и Jules (ИИ-агент для разработчиков) тоже выглядят многообещающе, хотя пока находятся на ранней стадии разработки. Google явно делает ставку на то, что будущее за агентным ИИ — системами, которые могут не просто отвечать на вопросы, а реально помогать решать задачи.
Ну и напоследок — контекстное окно в миллион токенов. Да-да, вы не ослышались. Это просто гигантский скачок вперёд. Представьте, сколько информации может обрабатывать такая модель одновременно.