Исследователи из Китая и Гонконга представили новую архитектуру памяти для ИИ-агентов. Система создана, чтобы минимизировать потерю информации во время долгих диалогов.
Память остается одной из самых уязвимых сторон современных ИИ-систем. Когда беседы затягиваются или задачи становятся многошаговыми, модели упираются в пределы контекстного окна. Они теряют нить разговора. Это явление называют контекстным угасанием или context rot.
Узнать подробнее про клуб ShareAI
В новой работе ученые представляют систему general agentic memory или GAM. Она сочетает сжатие данных с механизмом глубокого исследования. Подход к памяти напоминает компиляцию just-in-time в программировании. Оптимизация выполняется ровно в тот момент, когда код нужен.
Прежние методы опирались на статические сводки, созданные заранее. По словам авторов, это неизбежно приводило к потере смысла. То, что казалось второстепенным при сохранении, позже может оказаться ключевым. Но к тому времени нужная деталь уже оказалась сплющена в аккуратном, но неполном резюме.
GAM построена как двухкомпонентная архитектура. Здесь есть Memorizer и Researcher. Memorizer работает фоном во время взаимодействия. Он создает краткие сводки, но параллельно сохраняет полную историю диалога в базе данных page store. Разговор разбивается на отдельные страницы. Они снабжены контекстными метками для удобства поиска.
Researcher включается только при появлении конкретного запроса. Вместо прямого поиска по памяти он проводит настоящее глубокое исследование. Система анализирует вопрос, строит стратегию, выбирает инструменты и тщательно просматривает page store.
Researcher использует три метода. Векторный поиск находит смысловые связи. BM25 ищет точные совпадения. Прямой доступ по идентификаторам страниц дает быстрый результат.
Систему сравнили с классическими подходами. Это retrieval-augmented generation или RAG и модели с огромными контекстами. Среди них ChatGPT 4o-mini и Qwen2.5 14B.
Согласно статье, GAM опередила конкурентов во всех тестах. Наибольший разрыв проявился в заданиях, где требовалось связать информацию, разнесенную по большому числу шагов.
В бенчмарке RULER, отслеживающем переменные в длинных последовательностях, GAM набрала свыше 90% точности. RAG-подходы и другие хранилища систематически проваливались в этих тестах.
Новая архитектура решает проблему, с которой сталкиваются все современные ИИ-ассистенты. Способность сохранять контекст в длинных диалогах критически важна для практического применения.

