Google объединил текст, картинки, видео и аудио в одном пространстве — новая модель Gemini Embedding 2

Google выпустил Gemini Embedding 2 — первую нативную мультимодальную эмбеддинг-модель, которая помещает текст, изображения, видео, аудио и PDF-документы в одно общее векторное пространство.

Эмбеддинги — это числовые представления данных, которые кодируют их смысл. На них держатся семантический поиск, RAG-системы, кластеризация и анализ тональности. Раньше для каждого типа данных нужна была отдельная модель — теперь одна справляется со всем.

Ключевая особенность — нативная обработка аудио. Модель не переводит речь в текст перед обработкой, а работает с ней напрямую. Все предыдущие подходы теряли часть информации на этапе транскрипции — Gemini Embedding 2 этот шаг убирает.

Технические характеристики: до 8 192 токенов для текста (в четыре раза больше, чем у предшественника), до шести изображений за запрос, видео до 120 секунд, PDF до шести страниц. Поддерживается «смешанный» ввод — можно одновременно передать картинку с текстовым описанием, и модель уловит связи между ними лучше, чем при раздельной обработке.

Модель использует технику Matryoshka Representation Learning: выходные векторы можно сжимать без переобучения — по умолчанию 3 072 измерения, рекомендованные варианты — 1 536 и 768. Это позволяет выбирать между качеством и экономией хранилища.

На бенчмарках Gemini Embedding 2 опережает Amazon Nova 2 Multimodal Embeddings и Voyage Multimodal 3.5 во всех протестированных категориях. Разрыв особенно заметен в задачах текст/видео: 68,8 против 60,3 у Amazon и 55,2 у Voyage.

Модель доступна через Gemini API и Vertex AI. Есть интеграции с LangChain, LlamaIndex, Haystack, Weaviate, Qdrant, ChromaDB и Vector Search. Google также выпустил демо для мультимодального семантического поиска.

Для сравнения: в конце февраля Perplexity открыла два текстовых эмбеддинг-модели под лицензией MIT — они бьют предыдущий gemini-embedding-001 на бенчмарке MTEB, используя значительно меньше памяти. Но работают только с текстом.