КММ и память ИИ-систем

Под «общим» искусственным интеллектом (AGI) обычно понимают (будущие) модели, сопоставимые с человеком по интеллектуальному уровню или этот уровень превосходящие – такова «официальная» научная и научно-популярная позиция, транслируемая в массы (см. например статью от Google DeepMind). Мне это определение не слишком нравится, но останемся пока в его рамках – после мы вернемся к нему и его альтернативам. К ключевым свойствам AGI относят универсальность (умение справляться с проблемами из разных областей), когнитивную гибкость (способность переносить абстрагированные закономерности из хорошо знакомой ситуации в новую для себя), самообучение на собственном опыте и самостоятельность в планировании многошаговых стратегий для решения задач реального мира. До полноценного AGI мы еще далеки, однако движение к нему идет с впечатляющими скоростью, масштабом и инженерной изобретательностью. Ниже я попробую показать, как с этой гонкой коррелируют основные концепции Ergo Mentis, относящиеся к человеческому разуму и сознанию: квантовая модель мозга Умезавы–Витиелло (КММ) и моя гипотеза Объектов Б (внешних «образов» и «состояний-носителей» нашего разума).

Дисклеймер: все написанное не претендует на полноценный обзор современного состояния дел в ИИ. Моя цель – всего лишь привести «иллюстрирующие примеры», актуальные на январь 2026-го.

Будем говорить только о «цифровых» ИИ-системах (к ним относятся всем известные ChatGPT, Gemini, Grok и прочие), реализованных на базе традиционной кремниевой микроэлектроники – не затрагивая компьютерно-биологические гибриды – и проведем несколько начальных аналогий. С «инженерной» точки зрения как ИИ, так и человеческий мозг представляют собой огромные сети взаимосвязанных элементов, реализующие сложную динамику при обработке входных сигналов. Отметим, что внешний запрос пользователя (промпт) не используется ИИ-моделью в исходном «человеческом» виде. Сначала он переводится во внутренний язык системы – от токенов (мелких фрагментов текста) и векторов (числовых «отпечатков смысла») до внутренних состояний самой сети, обычно реализованной как многослойный Трансформер – специальный тип нейросетевой архитектуры. То есть, как нервная система живого организма превращает раздражение рецептора (внешний стимул) в последовательность нервных импульсов, доставляемых в мозг, так ИИ-модель преобразует промпт-контекст во внутренние структуры данных, которые запускают основную вычислительную работу. Запрос пользователя является аналогом внешнего стимула, а внутренняя динамика нейросети при генерации ответа функционально соответствует динамическому режиму «перестреливающихся» нейронов мозга. При этом, как в КММ, так и в современном ИИ, обработка входящего сигнала подразумевает взаимодействие с уже накопленным «когнитивным опытом». Оно может инициироваться как самим сигналом, так и спонтанно возникшим внутренним состоянием системы.

КММ и триггеры реактивации памяти

В функциональном смысле квантовая модель мозга описывает, каким образом в интеллектуальном «агенте» могут быть устроены запоминание, долговременное хранение и реактивация фактов о внешнем мире и собственных когнитивных состояний. Принципиально важно, что в рамках КММ макроскопические нейронные группы сами по себе не являются «ячейками памяти». Они играют роль триггеров, запускающих процессы из микромира, которые формируют устойчивые «записи» – квантовые конденсаты, «кодирующие» наши мысли и опыт. Доступ к таким «записям» – это не «извлечение файла», а резонанс специального типа. Если возникает триггер, похожий на тот, что создал «запись», квантовый «код» реактивируется и помогает мозгу мгновенно вернуться в нужный динамический режим – сложную корреляцию активности в распределенных областях неокортекса. Субъективно это переживается как воспоминание, узнавание или «всплывшая» мысль.

Триггеры можно разделить на два типа, различающиеся по причинно-следственному происхождению:

- Внешние (стимул-зависимые): сигнал приходит от рецепторов (вспышка света, знакомый голос, характерный запах). Внешняя среда инициирует перестройку состояния системы, «подталкивая» ее к сопоставлению с уже существующим «архивным» кодом .

- Внутренние (спонтанные): сигнал рождается из собственной динамики мозга. Это продукт «самовозбуждения»: текущий ход мысли, эмоциональный фон или внутренние флуктуации приводят систему в конфигурацию, которая резонирует с ранее сформированным конденсатом. Мозг генерирует запрос к самому себе, выступая инициатором воспоминания.

Также отметим: при активации памяти важна не только природа сигнала, но и плотность сопряжения («coupling density») – насколько мощно возникший триггер способен перенаправить текущее состояние мозга в сторону прошлого опыта. Например, внешний стимул может быть мимолетным и вызвать лишь слабый отклик, тогда как внутренний резонанс способен полностью «перехватить» когнитивный режим, обращаясь длительным размышлением, навязчивым воспоминанием или инсайтом.

Важно, что граница между внешними и внутренними триггерами не всегда ярко выражена: внешние стимулы могут запускать длинные цепочки внутренних «каскадов мысли», а собственные состояния мозга – провоцировать поиск внешних сигналов. Это очень явно проявляется и в ИИ, где механизмы активации памяти часто сочетают оба варианта триггирования – как мы увидим ниже.

ИИ: инженерный аналог триггер-резонанса

Актуальная для ИИ специфика КММ формулируется примерно так: в процессе развития ИИ-системы в дополнение к пересчету ее параметров можно хранить устойчивые «закодированные фрагменты памяти» и реактивировать нужный фрагмент, когда появляется сигнал (внешний или внутренний), похожий на исходный код. Это интуитивно подсказывает решение двух проблем на пути к AGI: катастрофического забывания (поскольку новые знания добавляются, не мешая старым) и необходимости частых глобальных переобучений. Такая логика не просто созвучна современной инженерии ИИ – именно она лежит в основе целой группы самых передовых подходов, использующих большие хранилища данных и «когнитивных опытов», из которых модель извлекает нужные фрагменты во время работы. При этом, аналогично КММ, можно выделить два разных типа сигналов, активирующих такое извлечение:

- Сигналы от внешнего входа/контекста: «ключи» к фрагментам памяти создаются на основе информации, пришедшей извне – в точности как во «внешнем» триггировании, спровоцированном импульсами от рецепторов.

- Сигналы от самой нейросети: «ключами» являются внутренние состояния самой ИИ-модели – а именно, ее основной «интеллектуальной» компоненты, которая ответственна за генерацию ответа на запрос. Это аналог «внутреннего» триггирования, обусловленного знакомой мыслью.

Подчеркну: здесь принципиально разнится не сам «носитель» памяти (в обоих случаях это может быть одна и та же векторная база данных), а, как и в случае квантовой модели мозга, именно источник сигнала, который активирует ее выборку – внешнее воздействие среды (запрос пользователя) или внутренняя динамика самой системы.

Тут же отметим, разделение сигналов в ИИ-системах на два типа является весьма условным. Современные архитектуры «внешнего» триггирования используют итеративный доступ к памяти: получают информацию – производят цикл логического вывода – оценивают полноту/непротиворечивость – переформулируют расширенный запрос – получают новую информацию – и т.д. В результате, взаимодействие с внешней памятью все больше и больше направляется «рассуждениями» модели: основная нейросеть постепенно «втягивается» в управление поиском, переходя от исходного внешнего промпта к сериям уточняющих запросов, уже внутренних как по происхождению, так и по «формулировкам». При этом, все же, «кодом» доступа является текущий контекст (упрощенно, начальный или расширенный промпт + частично сформированный ответ), а не динамика самой нейросети (например, набор скрытых представлений верхних слоев Трансформера).

С другой стороны, внутреннее триггирование может перетекать во внешнее, если в процессе «размышления» система обнаруживает «когнитивную проблему»: низкий уровень уверенности, конфликт данных, отсутствие прогресса в достижении цели и т.п. Если для успешного логического вывода модели не хватает конкретных фактов, она сама может инициировать поиск – формируя запрос к внешнему источнику не в терминах своих скрытых представлений (внутренних триггеров), а на языке источника, подобно запросам пользователя-человека к поисковику. Однако, само решение о поиске и изначальная «формулировка» проблемы были существенно внутренними, возникшими из динамики основной сети.

Помимо происхождения и формы (языка описания) запроса можно ввести еще несколько «координат», по которым в ИИ различаются внутренние и внешние триггеры. Например:

- Ассоциативность / Причинность: Внешнее триггирование часто бывает чисто ассоциативным (промпт похож на какой-то документ или просто является его частью), а внутреннее почти всегда отражает причинно-следственную связь: система ищет не просто «похожее», а то, что логически необходимо для завершения текущей мыслительной цепочки.

- Свойства / Состояния: Внешние триггеры обычно характеризуются статическими «признаками» запроса (например, ключевыми словами). Внутренние же представляют собой резонансы состояний: они определяются не только тем, о чем модель думает, но и тем, как она это делает в данный конкретный момент (на данной динамической траектории в пространстве внутренних представлений нейросети).

Ну и, как и в случае КММ, помимо природы триггирующего сигнала, важна плотность сопряжения – насколько глубоко извлеченный фрагмент памяти «встраивается» в работу над ответом. Новый факт, найденный в базе при обработке запроса пользователя (внешнее триггирование) может быть просто «справочным листком», прикрепленным к промпту – дополнительным набором начальных данных, почти не меняющих логику вывода. В то же время резонанс текущих состояний сети с ее прежними «рассуждениями», записанными во внешней базе, может радикально перенастроить всю стратегию когнитивной работы.

В целом, можно сказать: в современном ИИ различие между «внешней» и «внутренней» активацией фрагментов памяти (которая сама по себе всегда внешняя по отношению к основной нейросети) не является ярко выраженным. Это не бинарное противопоставление, а непрерывный спектр, в котором, в той или иной степени, могут быть представлены оба типа. Чем дальше ИИ продвигается к AGI, тем упорнее (и разнообразнее) он «учится» совершенствовать процесс мышления, чтобы 1) генерировать то, что от него хотят, 2) делать это наиболее эффективно и 3) обогащаться новыми когнитивными опытами.

Теперь рассмотрим несколько конкретных архитектур генеративного ИИ, хорошо иллюстрирующих описанное выше.

kNN-LM: активация по внутреннему состоянию

kNN-LM (k-Nearest Neighbors Language Model) [1] – это яркий пример «внутреннего триггирования», то есть активации памяти по внутренней конфигурации системы во время вычислительной («мыслительной») работы. В классическом варианте kNN-LM к уже обученной нейросети добавляется внешнее «хранилище опыта» – огромный набор пар вида «внутреннее состояние модели -> правильное продолжение». Под внутренним состоянием здесь (говоря упрощенно) понимается вектор скрытых представлений (hidden state) одного из верхних слоев трансформера в момент обработки текущего контекста. Для каждого такого состояния сохраняется «что было дальше» (например, следующий сгенерированный токен).

На каждом шаге генерации ответа модель формирует набор своих скрытых представлений – то есть некоторый паттерн внутренней активности. Затем в «хранилище опытов» ищутся наиболее похожие внутренние состояния из прошлого и извлекаются «подсказки» – какие продолжения обычно следовали в сходных ситуациях. В результате, итоговое распределение вероятностей следующего шага вычисляется как суперпозиция тех, что сгенерированы нейросетью сейчас, и тех, что извлечены из внешней памяти. На языке аналогий с КММ это выглядит как «внутренний динамический режим -> реактивация когнитивного «кода» –> возвращение к похожему продолжению мысли».

Сильная сторона kNN-LM очевидна: на каждом шаге делается попытка восстановить динамику вывода, которая в прошлом уже приводила к успешному результату. В практическом смысле это похоже на «узнавание знакомой задачи»: система не начинает поиск решения с нуля, а быстрее выходит на проверенные шаблоны продолжения, не блуждая по ошибочным траекториям и экономя тем самым вычислительные усилия. Отметим, что точность ответов улучшается без изменения весовых коэффициентов сети: новые «внутренне-системные» знания добавляются – в том числе и при дообучении модели или ее адаптации к новым предметным областям – как новые записи во внешнее хранилище. При этом оно работает не как пассивный архив, а как активный навигатор «рассуждений».

Все это повышает устойчивость вывода, а также предотвращает «соскальзывание» к наиболее вероятным (по частоте встречаемости), но неуместным продолжениям – что, в частности, помогает бороться с проблемой «длинных хвостов»: если когда-то модель уже обрабатывала что-то похожее, внешняя память позволяет не потерять след этой обработки, даже если в статистической картине данный контекст находится далеко на обочине (на «хвосте» вероятностного распределения). Это касается редких фактов, очень специальных технических терминов и фраз (и вообще любых экзотических слов), необычно структурированных предложений (например, в художественной прозе или в поэзии), странных сочетаний разнородных концепций (например, в нетривиальной философии) и так далее. Стандартная генеративная модель, «ужимая» обучающие данные в своих весах, «привыкает» к тому, что она видит чаще – и потом, в процессе работы, ей трудно шагнуть в сторону от доминирующих вероятностей, то есть от наиболее распространенных (часто более примитивных и менее интересных) текстовых конструкций.

Ну и еще одно преимущество kNN-LM – это интерпретируемость. В отличие от «черного ящика» чисто параметрической модели, kNN-LM позволяет «подсмотреть», какие именно примеры из ее памяти повлияли на генерацию любой части ответа. В результате можно выстроить статистико-ассоциативный «путь рассуждения» – существенно повышающий доверие к результату.

Но у kNN-LM есть и серьезные ограничения. Главная проблема – масштабирование и стоимость: внешнее хранилище получается гигантским, а поиск нужных записей – вычислительно «дорогим» и долгим. Еще одним важным негативным моментом являются ложные совпадения: близость векторных состояний не гарантирует смысловую релевантность; иногда система извлекает «похожее, но не то», что выводит ее на неправильные логические пути. Ну и наконец, при неизбежных обновлениях модели старые «ключи»-векторы могут стать несовместимы с новыми – так называемый «дрейф представлений» – а без периодических обновлений «жизнь» развитой нейросети представить трудно, даже при внутренней генерации новых смысловых зависимостей.

Все это объясняет, почему подход kNN-LM, будучи концептуально очень сильным, пока не стал универсальным «двигателем AGI». Однако, интерес к нему не увядает – он продолжает активно обсуждаться как в инженерных, так и в научных кругах [2,3]. Появляются и его улучшенные, более эффективные варианты – вместо «извлекать все всегда» они используют логику «извлекать только самое лучшее и/или когда системе трудно»:

Адаптивное извлечение: «только если я не уверен». Самый прямой способ ускориться – не лезть в память тогда, когда основная нейросеть и так хорошо справляется [4]. Для этого добавляется системная компонента, оценивающая степень уверенности на каждом шаге. Если модель «уверена в своих силах», внешнее хранилище не используется.

Прореживание и сжатие сохраняемой информации. Вместо хранения всех векторов в [5] предлагается убирать те, которые почти не меняют распределение вероятностей при выводе или дублируют соседей.

Кластеризация: «картотека вместо океана данных». Еще один способ ускорить выборку из памяти – сузить область поиска. В [6] векторы группируются в кластеры; модель сначала выбирает релевантный кластер, а затем ищет нужные фрагменты внутри него.

Все эти методики помогают радикально снизить стоимость вычислений практически без потери качества – по крайней мере, в большинстве случаев.

[1] Urvashi Khandelwal, Omer Levy, Dan Jurafsky, Luke Zettlemoyer, Mike Lewis (2020). "Generalization through Memorization: Nearest Neighbor Language Models". ICLR 2020; arXiv:1911.00172

[2] Shangyi Geng, Wenting Zhao, Alexander M. Rush (2025). "Great Memory, Shallow Reasoning: Limits of kNN-LMs". NAACL 2025; also on arXiv:2408.11815.

[3] Yuto Nishida et al (2025). "Long-Tail Crisis in Nearest Neighbor Language Models". Findings of NAACL 2025; arXiv:2503.22426

[4] Junxian He, Graham Neubig, Taylor Berg-Kirkpatrick (2021). "Efficient Nearest Neighbor Language Models". EMNLP 2021.

[5] Xin Zheng, Zhirui Zhang, Junliang Guo, Shujian Huang, Boxing Chen, Weihua Luo, Jiajun Chen (2021). "Adaptive Nearest Neighbor Machine Translation". ACL-IJCNLP 2021, Short Papers.

[6] Dexin Wang, Kai Fan, Boxing Chen, Deyi Xiong. (2022) "Efficient Cluster-Based k-Nearest-Neighbor Machine Translation." ACL 2022, Long Papers.

RAG и RETRO: извлечение знаний по внешнему запросу

Теперь рассмотрим подход, который ближе к «внешним триггерам», соответствующим, по аналогии с КММ, сигналам от рецепторов. RAG (Retrieval-Augmented Generation) [7] – это общий класс архитектур, объединенных простой идеей: расширить запрос пользователя за счет релевантных фрагментов из внешнего источника (корпус документов, база знаний, веб-архив, корпоративные инструкции) и сгенерировать ответ на базе всего расширенного контекста.

Как уже отмечалось выше, в ИИ-моделях, включая RAG-системы, поиск по внешней базе обычно осуществляется не по словам запроса, а по его внутренним представлениям (embeddings), которые формируются отдельной сетью-ретривером (иногда тесно связанной с основной нейросетью, но обычно не совпадающей с ней). То есть извлечение дополнительной информации происходит не по «запросу как его понимает пользователь», а по «запросу как его понимает система»: внешний «стимул» переводится во внутренний язык – в специфическое векторное представление ретривера. Но триггер здесь все равно имеет внешнюю, а не внутреннюю природу: именно запрос пользователя, пусть и перефразированный в системные представления, определяет, что будет извлечено из памяти.

Сильные стороны RAG очень важны для «прикладного AGI». Во-первых, это прямая (в отличие от «системно-опосредованной», как в случае kNN-LM) обновляемость знаний: чтобы система владела новой информацией, достаточно «освежить» внешнюю базу (например, просто добавить новые документы). Во-вторых, это привязка к источникам: можно показывать выдержки и ссылки, повышая доверие и проверяемость. В-третьих, это частичный ответ на проблему «катастрофического забывания»: знания живут отдельно; основная нейросеть становится инструментом навигации по памяти, а не единственным (порой даже и не принципиальным) ее носителем. Поэтому RAG стал стандартом там, где принципиальны актуальность и доказательность – от корпоративных помощников до технических справочных систем.

Однако у RAG есть характерные слабости. Часть из них относится к извлечению информации: как и в kNN-LM, если система нашла не те фрагменты, генерация будет базироваться на неправильно расширенном запросе. К тому же, найденный материал нужно «втиснуть» в ограниченное окно контекста-промпта; значит, информация фильтруется и сжимается – и здесь возможны потери. Другая часть недостатков касается собственно генерации. Добавляя информацию из внешнего источника, RAG не гарантирует глубокого ее понимания – то есть, решения сложной задачи отбора, согласования и смысловой «сборки» фрагментов, которых много и которые неполны, а порой и противоречат друг другу. Спасаясь от избыточной «когнитивной нагрузки», модель нередко ищет легкие пути – например, формирует поверхностную, убедительно звучащую «склейку», приглаженную компиляцию текста, вместо причинно-следственной реконструкции.

Также существует проблема «слабых внутренних ассоциаций» – смысловых связей между генерацией ответа и извлечением внешних знаний. Она возникает, когда к внешней базе нужно обратиться в процессе собственных рассуждений системы, а не по запросу пользователя, и причина ее в том, что ретривер и генератор – это разные нейросети. Ретриверы «заточены» под текстовые запросы, а скрытые состояния генератора живут в другом векторном пространстве и оптимизированы под предсказание токенов, а не под поиск документов. В базовой идеологии RAG извлечение дополнительной информации происходит один раз, в начале генерации ответа. Если модель обнаружила противоречия или незаполненные «белые пятна» на последующих стадиях и хочет получить помощь от своей внешней базы, она (как правило) не может обратиться к ретриверу напрямую: ее скрытые состояния, описывающие внутреннюю когнитивную динамику (параметры Трансформера-генератора), не являются понятными «ключами» для ретривера – в отличие от kNN-LM. Чтобы инициировать поиск, нужно сделать «перевод» с одного внутреннего языка на другой, при котором возможны существенные потери качества.

С потерями пытаются бороться, сближая векторные представления ретривера и генератора или даже объединяя их в одну сеть. Это не всегда удается сделать эффективно – тем не менее, как уже отмечалось, современные RAG-модели уходят от концепции «извлечь информацию один раз в самом начале» и обращаются к внешнему источнику многократно, на каждом шаге вывода, все сильнее вовлекая основную нейросеть в генерацию запросов-триггеров. В результате триггирование памяти постепенно становится «внутренним» – по всем признакам, описанным ранее.

В этой связи нужно сказать об архитектуре RETRO (Retrieval-Enhanced Transformer) [8] – в ней реализуется более радикальная по сравнению с RAG идея: использование внешних данных становится неотъемлемой частью механизма рассуждений ИИ-системы. В моделях RETRO тоже есть внешний информационный корпус, но логика обращения к нему другая. Контекст, с которым работает модель (текущая версия ответа на запрос пользователя), периодически разбивается на части, для каждой из которых подбираются «ближайшие соседи» из внешней памяти – статистически похожие на нее фрагменты. Затем эти извлеченные «соседи» подаются в основную нейросеть не просто как добавленный текст, а как отдельный канал информации. Система видит их независимо от текущего контекста и на каждом шаге решает, куда ей в данный момент нужнее посмотреть – в основной контекст или в найденный вспомогательный фрагмент. Это важно, поскольку, когда дополнительный фрагмент просто вставлен в запрос, он конкурирует за внимание attention-механизма системы со всем остальным текстом, и нейросеть может его частично игнорировать или «перепутать» с шумом. Когда же он фигурирует как отдельный attention-путь, его влияние становится более регулярным: модель как будто имеет встроенную привычку обращаться к внешней памяти, а не делает это «только если заметит».

Сильная сторона RETRO в том, что он реализует принцип «не все должно храниться в весовых коэффициентах основной нейросети» более последовательно, чем RAG. В RAG-системах нейросеть-генератор по сути остается «самодостаточной»: фрагменты из внешней базы – это подсказка, которую можно дать или не дать. В RETRO модель конструктивно рассчитывает на присутствие памяти: извлечение внешних данных становится частью ее нормального «кровообращения». Как очень важное следствие, нейросеть может иметь намного меньше «нейронов», но компенсировать это постоянным доступом к большому внешнему информационному корпусу. Очевидно, это экономически привлекательный путь: сделать системное ядро умнее в навигации вместо бесконечного увеличения числа его параметров.

Однако RETRO имеет и свои специфические ограничения [9]. Во-первых, инфраструктурная сложность выше: нужен индекс по гигантским массивам данных, очень быстрый поиск, контроль релевантности «соседей»... К тому же зависимость от внешних фрагментов, которые модель теперь рассматривает как часть своей нормальной вычислительной цепочки, становится сильнее и ошибки при их извлечении могут «просачиваться» глубже в процесс генерации. Качество результатов зависит не только от самой нейросети, но и от того, какие именно фрагменты попадают в ее поле внимания – например, найденные «соседи» могут быть статистически похожими, но неверными в причинно-следственном смысле. Ну и наконец, RETRO, как и RAG, по своей природе остается механизмом преимущественно внешнего триггирования: выбор дополнительной информации определяется текущим контекстом, а не внутренним «когнитивным состоянием» системы, и выполняется «по расписанию» (каждые N токенов), а не по внутреннему сигналу типа «мне нужна помощь в процессе вывода». И RAG, и RETRO, при всех их преимуществах, остаются моделями, которые извлекают фрагменты знаний, но, в отличие от kNN-LM, не восстанавливают динамический режим рассуждений – то есть не пытаются вернуть систему в тот же «модус мышления», который когда-то привел и сейчас может привести снова к правильному выводу, инсайту, открытию.

[7] Lewis et al (2020). "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks". NeurIPS 2020; arXiv:2005.11401

[8] Borgeaud et al (2021/2022). "Improving Language Models by Retrieving from Trillions of Tokens". arXiv:2112.04426; ICML 2022 PMLR.

[9] Li et al (2025). "A Survey of RAG-Reasoning Systems in LLMs". Findings of EMNLP 2025.

Мультимодальность и модели мира

Примеры, представленные выше, касаются ИИ-систем, работающих исключительно с текстами. Теперь расширим ракурс и рассмотрим два наиболее важных тренда в современной практике ИИ – мультимодальность и «модели мира». Они не просто добавляют новые функции в чатботы, а меняют парадигму того, как ИИ «воспринимает» реальность и манипулирует знаниями о ней. Сейчас эти два направления являются самыми значимыми шагами в сторону AGI – и они же делают разделение между динамическим «нейронным» мышлением и стабильной памятью не просто полезным, а практически неизбежным. Почему? Потому что «размышляющая» нейросеть принципиально не может вместить в себя весь (становящийся огромным) мир, с которым ей приходится иметь дело.

Мультимодальность [10,11,12] подразумевает использование информации разных типов, получаемой, в дополнение к тексту, через множественные каналы восприятия – зрение, слух, тактильные ощущения, ориентацию в пространстве и т.д. – и затем создание на ее основе цельной картины окружающего. В результате текстуально-абстрагированная, «символьная» логика ИИ как бы «заземляется» на реальность как ее понимаем мы. В чисто текстовых системах память похожа на библиотеку заметок. Мультимодальность превращает ее в многослойный архив впечатлений. Например, ИИ-модель начинает понимать, что слово «тяжелый» – это не просто статистический сосед слова «вес», а специфическое физическое свойство, которое, в том числе, ограничивает возможности перемещения. Словосочетание «католический собор» превращается в сложный концепт, включающий в себя форму здания, специфическое эхо органных аккордов, игру света в витражах и т.д. Все это вынуждает систему распознавать «одну и ту же вещь» по самым разным признакам. Память перестает быть текстовым архивом и становится организованным хранилищем многомерного опыта, а поиск «по тексту» превращается в поиск по ассоциациям.

Говоря о чисто текстовых моделях, до сих пор можно себе представить, что все знания закодированы в весах самой нейросети – как распределенные лингвистически-семантические паттерны – и для многих задач этого достаточно. Мультимодальность же сразу, одним махом, разрушает эту комфортабельную концепцию: информации слишком много, она слишком сложно структурирована, в ней появляется координата времени, и, к тому же, она чрезвычайно избыточна (например, соседние кадры видео почти не отличаются друг от друга). С инженерно-практической точки зрения хранить мультимодальные данные в весовых коэффициентах невозможно – наличие отдельной внешней памяти становится необходимостью. А основная нейросеть из «контейнера зашифрованных знаний» превращается в «генератор кодов доступа» к этой памяти.

Более того, аналогия с функциональностью КММ еще усиливается, потому что «коды» становятся гораздо богаче, чем просто текстовые фрагменты. Как и в человеческом мозге, память активируется по сигналам разного типа (картинкам, звукам и т.д.), по их сочетаниям (высокий мужчина, грубо сказавший «нет»), по их темпоральным характеристикам (длинный, пронзительный гудок, услышанный час назад)… Триггеры превращаются в «ситуационные состояния» со своими внутренними связями, а извлекаемые фрагменты памяти описывают активирующую их ситуацию с разных сторон. В отличие от текстовых моделей, типа RAG, вспоминается не параграф текста, а полноценное «событие» во всей своей полноте – в результате «резонанса» с какими-то его аспектами. Работа мультимодальной системы намного больше напоминает реальную деятельность мозга, оперирующего пережитыми опытами.

В современной практике под мультимодальностью все чаще понимают не только «видеть и слышать», но и «связывать восприятие с действием» – т.е. принимать решения о поступках в соответствии с окружающей реальностью, а не просто описывать ее. Это, в частности, относится к «моделям мира» - они представляют собой системные компоненты, позволяющие прогнозировать, что случится дальше в зависимости от происходящего сейчас [13,14]. На основании прошлых опытов система создает внутренние представления «состояний реальности» и формулирует для себя «динамику перемен»: как те или иные события и факторы влияют на переход одних состояний в другие. Получается компактная, причинно-следственная «карта окружающего мира», которая включает не только «что где находится», но и «что на что влияет», «что возможно», «что запрещено», «что типично», «что рискованно». В результате, ИИ может «ментально моделировать» свои действия, оценивать их последствия и проверять гипотезы до того, как что-то будет сделано. Отмечу, что «реальность» здесь понимается широко: это может быть физическая среда робота (комната, улица, предметы), социальная среда (люди и их реакции), информационная среда (документы, правила, интерфейсы), и даже «внутренний мир» самой системы (цели, планы, ограничения, уровни уверенности).

Модели мира как правило мультимодальны. Соответственно, они требуют внешней памяти – и, к тому же, дополнительно ее диверсифицируют. Нужно хранить много новых типов информации: от описаний эпизодов и опытов (конкретные события, сцены, наблюдения) до структуры и функциональности как внешнего мира (устойчивые зависимости, паттерны действий и их последствий), так и самой модели (типичные ошибки, методы проверок). Основная нейросеть еще больше выглядит как генератор обращений к многоуровневым знаниям, а внешняя память становится частью замкнутого контура управления мышлением. Обработка внешних сигналов неизбежно приводит к новым собственным запросам модели, которые могут относиться как к окружающей действительности, так и к своим способностям и ограничениям – включая опробованные ранее «методы размышлений» и их результаты.

[10] Deng, Z. et al (2025). "A Survey of Multimodal Models on Language and Vision: A Unified Modeling Perspective". Data Mining and Machine Learning 2025, 1 (1), 100001.

[11] Jin, Y. et al (2025). "Efficient multimodal large language models: a survey". Vis. Intell. 3: 27.

[12] Junlin, X. et al (2025). "Large multimodal agents: a survey". Vis. Intell., 3: 24.

[13] Ding, J. et al (2024). "Understanding World or Predicting Future? A Comprehensive Survey of World Models". arXiv:2411.14499.

[14] Li, X. et al (2025). "A Comprehensive Survey on World Models for Embodied AI". arXiv:2510.16732

Адаптивный интеллект роботов

Говоря о мультимодальности и моделях мира, нельзя не упомянуть недавние достижения робототехники. Воплощенный (embodied ) ИИ не просто интерпретирует текст или картинки; он обязан совершать поступки, анализируя при этом их последствия и сохраняя стабильность в окружающем его хаосе. К тому же, робот, в отличие от чат-бота, не получает легкие для понимания текстовые запросы, над которыми можно долго думать. Он оперирует в жестких временных рамках и в условиях брутальной мультимодальности: на него обрушиваются потоки разнородных, неполных и часто противоречивых сенсорных сигналов. Его «память» не может быть простым архивом данных – в ней хранятся структурированные фрагменты ситуаций, распознаваемые через множество факторов. Все это делает робототехнику своего рода стресс-тестом для идей и концепций, описанных в предыдущих разделах.

Главный сегодняшний тренд в разработке роботов всех типов – это адаптивность «робото-мозга». Смысл адаптивности – сделать так, чтобы робот, имея в качестве интеллектуальной основы какую-то базовую ИИ-модель, обучался новым навыкам и приобретал новые знания о мире без постоянного пересчета ее параметров. Это в точности соответствует главной идее архитектурных решений, рассмотренных выше: основная нейросеть, чем дальше, тем больше, превращается в «умелого распорядителя» информацией, хранимой вне ее.

Яркий пример – проект «Skild Brain» от Skild AI [15]. Его амбициозная цель – создать единый «мозг» (мультимодальную ИИ-модель) для всех робото-видов: от промышленных манипуляторов и мобильных платформ до квадрупедов и гуманоидов. Идея в том, чтобы описать умения и знания – распознавание ситуаций и сопоставление с правильными паттернами действий – на таком уровне абстракции, который позволяет переносить их от одного аппаратного «воплощения» к другому. Таким образом создается единое «интеллектуальное поле», находясь в котором разные роботы разных типов учатся на опыте друг друга. Базовая ИИ-модель при этом не требует полного переобучения под каждую новую задачу, а манипулирует постоянно обновляемым и расширяемым информационным корпусом, который формируется как с помощью обучающих видео-симуляторов, так и за счет обратной связи с роботами-участниками, функционирующими в реальном мире.

Судя по публичным заявлениям Skild AI (январь 2026-го), проект находится на стадии раннего внедрения: в нем уже задействовано некоторое количество роботов, которые совместно развивают централизованный «мозг». Теперь дело за масштабированием и расширением круга участников.

Еще один пример, явно использующий концепцию «модели мира» – это технология «от видео к действию» компании 1X [16]. Она предназначена главным образом для «домашних» роботов, взаимодействующих с реальными семьями в бытовых условиях. Чтобы быть полезными и безопасными, они должны обладать развитым «здравым поведенческим смыслом», для формирования которого им необходимо огромное количество обучающих примеров-демонстраций. «Натаскивание» таких роботов на ситуациях из реальной жизни – очень долгий и дорогой процесс. В качестве альтернативы 1X предлагает использовать видеоролики – обучать на их основе ИИ-модель, способную предсказывать правдоподобное развитие видео-сюжетов, а затем, с помощью этой модели, подсказывать роботу, что именно нужно делать в конкретных ситуациях, с которыми он сталкивается. Адаптация здесь – это не «постоянное переписывание индивидуального робото-мозга заново», а его сонастройка с симулятором – своего рода «общим интеллектом домашнего робота» – который «знает», что произойдет в следующий момент. Важно, что обучение происходит преимущественно через наблюдение видео (это быстро и относительно дешево), и лишь малая часть времени уходит на тонкую настройку под конкретное «физическое воплощение» робота.

В октябре 2025 1X открыла предзаказы на домашнего гуманоида NEO, а в январе 2026 публично представила «1X World Model» как ключевое обновление, позволяющее NEO приобретать новые навыки почти автономно. «Почти» – потому что пока еще человеческое участие в обучении частично сохраняется. В 1X утверждают, что его доля будет быстро снижаться по мере того как робот будет «умнеть» – накапливать больше и больше знаний о мире.

Есть и другие проекты (смотрите, например, [17]) нацеленные на адаптивность робото-мозга. С архитектурной точки зрения все они предлагают привычную по прошлым разделам картину: интеллект трактуется не как «одна гигантская модель, знающая все на свете», а как связка из двух компонент – динамичной и не очень большой «думающей» нейросети, которая принимает решения, и массивного пространства памяти, которая стабилизирует ее работу и постоянно подпитывает ее актуальным контекстом. Для воплощенного ИИ такая структура – жесткое требование реальности. Робот действует в среде, которая слишком разнообразна, динамична и необъятна, чтобы полагаться только на параметры основной сети и регулярно переучиваться с нуля. Это типичная ситуация для мультимодальности в целом, но в робототехнике она проявляется в экстремальной форме.

Аналогии и отличия

В целом, структурно-функциональная корреляция между квантовой моделью мозга и архитектурой современного ИИ очевидна – причем со временем она становится все сильнее. Потребности новых ИИ-технологий прямо-таки заставляют перейти от одной большой нейросети, «хранящей» все знания в своих параметрах, к разделению на не столь большую, но «умную» сеть и огромную устойчивую многоуровневую память. Как и в КММ, ИИ-нейроны становятся ответственны в основном за формирование сигналов-триггеров, активирующих «знания» из внешней базы. На каждом цикле «рассуждений» такой ИИ-модели можно проследить схожую с КММ логику:

- запрос пользователя (плюс текущий контекст) и/или собственная потребность модели (например, конфликт данных или отсутствие прогресса) становятся аналогом граничных условий;

- в результате нейросеть переходит в некоторое определенное внутреннее состояние (распределение активаций нейронов), как бы «нарушая свою симметрию» (в функциональном, не физическом смысле), при которой все состояния равноправно возможны;

- это состояние приводит к формированию векторов-ключей (аналог дипольных волн) для доступа к хранилищу устойчивых знаний (аналог всей совокупности квантовых конденсатов в мозге);

- ключи-триггеры «резонируют» (по какой-то метрике сходства) с уже накопленной информацией, помогая извлечь нужный фрагмент знаний (аналог активации квантового конденсата), благодаря которому нейросеть перестраивает свою динамику вывода.

- в более развитых «агентных» ИИ-системах внутренний «сигнал потребности» может триггировать не только доступ к собственной памяти, но и внешний Интернет-поиск, симуляцию в модели мира или запуск дополнительных инструментов (например, программного кода)...

Конечно, эта схожесть не является ни прямым подтверждением КММ (которая до сих пор остается вне научного мейнстрима), ни доказательством, что нынешний ИИ движется прямиком к AGI. Однако, концептуальная близость подходов, формализующих видение «естественного» и «искусственного», помогает, пусть косвенно, уменьшить спекулятивность и повысить убедительность этого видения. Физики-теоретики и инженеры-разработчики подходят к проблеме «разумности» с совершенно разных сторон, но их результаты утверждают примерно одно и тоже. Это свидетельствует, что наш разум и продвинутый ИИ формируются под влиянием схожих необходимостей-вопросов, определяющих схожие решения-ответы – что может служить источником взаимного уточнения и обогащения гипотез/практик.

Добавлю, что в предыдущих разделах при описаниях технологий и архитектур я пытался сохранить аналогию между типами активации памяти в ИИ-системах и внешними/внутренними сигналами-триггерами в КММ. В целом, она прослеживается вполне четко, хотя, как уже не раз отмечалось, в ИИ такое разделение становится все более условным. Тем не менее можно считать, что оно имеет место: «внешний» триггер – это изначальный запрос (промпт пользователя, либо сигнал от окружающей среды) + текущий контекст (промежуточный результат вывода, спровоцированной этим запросом), а «внутренний» – это какое-то подмножество скрытых состояний основной «думающей» сети (в отличие от вспомогательных ретриверов и трансляторов, работающих с запросом и контекстом), описывающее процесс работы системы. Понятно, что они не подменяют, а дополняют друг друга. По мере приближения к AGI понадобятся оба этих механизма – развитый интеллект должен уметь «вспоминать» и потому, что ему напомнили извне, и потому, что к этому привела его внутренняя динамика. Недостаточно просто получить актуальные факты – нужно также уметь входить в оптимальный когнитивный режим, соответствующий текущей ситуации – особенно когда система сталкивается с неопределенностью, распознает типичные для себя ошибки и т.п.

Сочетание «напоминаний от мира» и «ассоциаций изнутри» очень внятно перекликается с пластичностью человеческого мозга, благодаря которой он способен не только адаптироваться под новую информацию, но и перенастраивать свой стиль мышления под наиболее актуальные задачи. Система AGI должна, в похожем ключе, постоянно соотносить себя и с окружающим миром, и со своими нуждами/планами. Понятно, что для этого не получится постоянно пересчитывать триллионы весовых коэффициентов: частые глобальные обновления дороги, плохо контролируются и могут свести на нет ранее приобретенные способности. КММ-подобное разделение на собственно нейросеть и внешнее хранилище (как новых фактов о мире, так и эффективных паттернов мышления) выглядит куда более реалистично: система может развиваться через накопление фрагментов памяти, которое позволяет ей и больше «знать», и лучше «соображать».

Тут же отмечу: если говорить о «пластичности» ИИ (то есть о способности системы все время адаптироваться и «умнеть»), то разделение на память и нейросеть-ядро в духе КММ – это, конечно, не единственный практический путь, а один из нескольких. В современных моделях уже разработаны и используются многомодульная маршрутизация (система решает, какой внутренний модуль задействовать в конкретной ситуации), механизмы локальных обновлений («донастройки» фрагментов основной нейросети, чтобы закрепить новый навык или исправить типичную ошибку, не разрушая все остальное), уже упоминавшееся использование внешних инструментов и так далее. «Пластичность» ИИ не сводится лишь к использованию внешнего хранилища чего бы то ни было; необходимо умение правильно распоряжаться всем набором средств и функций, которым располагает модель. Такой «мета-контроль» естественным образом требует дополнительной архитектурной компоненты, использующей «знание» модели о своих функциональных возможностях и особенностях. Сейчас в научной литературе фигурирует много разных терминов для подобных мета-модулей – оркестраторы, контроллеры и т.д.

Все эти инженерные решения делают ИИ-модели лучше – «умнее», гибче, универсальнее. Но насколько они приближают нас к AGI? Попробую высказать свое мнение в следующих разделах.