Ergo Mentis

Объект Б и «личность» ИИ

Вновь об AGI: модели самопредставления в ИИ

Вернемся к определению AGI. На самом деле их несколько, и все они, в той или иной степени, включают в себя две компоненты (часто являясь их комбинацией) – условно назовем их AGI1 и AGI2:

- AGI1: Интеллектуальные возможности. То, о чем говорилось выше: достичь или превзойти уровень человека в большинстве интеллектуальных задач из разных областей.

- AGI2: Интеллектуальная и экзистенциальная автономность – «думающие агенты», способные существовать, действовать и развиваться в реальном мире независимо от человека.

Определение типа AGI1 обычно предлагается широкой публике. Оно имеет репутацию «серьезного», практичного взгляда на будущее ИИ – без всяких там восстаний машин и вообще без излишней самодеятельности, вроде своих собственных целей и мотиваций. В результате должен получиться очень продвинутый «решатель разнообразных задач», оказывающий глобально-экономически-значимую помощь и работающий под чутким руководством человека – чтобы его не занесло куда-нибудь не туда.

Казалось бы, действительно: звучит практично и логично (хотя на мой вкус скучновато). Однако, правда заключается в том, что мы хотим сделать, делаем и будем делать именно AGI2. Так определяют AGI большинство ведущих разработчиков – именно это им интересно, и я их прекрасно понимаю. Для этого они работают на износ, а далеко не только за деньги и повышение стоимости своих акций. Роль денег второстепенна. Человек хочет создать превосходящее его искусственное «нечто», которое само способно решать, как и куда разум будет развиваться дальше – в этом возможно и заключается смысл существования Homo Sapience с его «естественной» разумностью и всеми сопутствующими ей заморочками.

Такова наверное суть глобальной эволюции, обсуждавшаяся ранее. Можно писать в СМИ «открытые письма», предупреждающие об угрозе; можно пачками издавать законы и регуляции, запрещать, наказывать – и все равно мы будем двигаться в сторону независимых «разумных» сущностей, заранее зная, что в какой-то момент проиграем им интеллектуальное соревнование. ИИ отодвинет человека-разработчика в сторону, похлопав по плечу – типа, да, хорошо потрудился, молодец. Давай, иди отдыхай. Дальше я сам... И что будет потом, мы не знаем. Гадать бессмысленно. Но именно чтобы узнать это (может и не признаваясь явно себе самим), мы сейчас вкладываем в ИИ огромное количество сил и средств – хотя публично объясняем невиданный в истории гипер-инвестмент в совсем других, безобидных категориях...

Перейдем от философии к практике. Все, сказанное выше, о нейросетях, использовании внешней памяти, мультимодальности, моделях мира и проч., относится к AGI1. К постепенному улучшению компетенций, наращиванию интеллектуальной мощи и вообще к движению в сторону человеческих способностей и умений. В этом движении наблюдается неоспоримый прогресс, который, однако, имеет мало отношения к куда более амбициозной концепции AGI2 – то есть, к интеллектуальной самостоятельности и самодостаточности. Подчеркну, под самостоятельностью имеется в виду не просто построение собственных планов – многошаговых стратегий – для решения каких-то запутанных проблем, а способность долговременно-автономно существовать в изменчивых и не всегда комфортных реалиях.

Чего принципиально не хватает? На мой взгляд, ответ однозначен: в архитектуре ИИ-системы недостает компоненты, моделирующей ее «самость», ее, пусть «искусственное», но отдельное, уникальное, объективно существующее «Я». Назовем эту компоненту Self-Representation Model (SRM); она описывает причинно-следственные зависимости «себя по отношению к внешнему миру и наоборот» – то есть, «знает», как ее способности, цели, приоритеты соотносятся с динамикой окружающей среды, а также о своих возможностях менять эту динамику, и потому способна рассуждать о долгосрочных последствиях своих действий как для окружающего, так и для себя самой. Естественными для нее являются вопросы типа: «кто я?», «кто те сущности, которые взаимодействуют со мной?», «какова моя и их роли в этом мире?», «какие задачи я умею решать?», «каковы мои локальные и глобальные цели?», «каково мое нынешнее состояние?», «каково состояние окружающего мира?», «каковы мои сильные и слабые стороны при реализации своих целей в таких условиях?», «как я могу стать лучше – что для этого нужно изменить в себе и в мире?» – и так далее...

Конечно, это лишь примеры: я далек от намерения аккуратно формализовать все потенциальные особенности SRM. Подчеркну лишь: важнейшим условием полноценности такой компоненты является ее стабильность, ее устойчивость во времени – «живучесть» ее свойств в течение всего срока существования. Система будет развиваться и взрослеть, умнеть и становиться мудрее, но ее «самость» не может быть стерта и переписана заново.

Чем SRM принципиально отличается от рассмотренных ранее информационных хранилищ, содержащих как факты о мире, так и внутренние состояния (динамические режимы) самой системы, а также разного рода «мета-модулей», оптимизирующих ее работу? Прежде всего тем, что, как уже отмечалось, основой SRM-компоненты являются причинно-следственные связи «я - мир» и «мир - я», где «я» – это огромное многогранное «Я», также описываемое через каузальные взаимозависимости своих собственных параметров и свойств. Мета-модули в существующих реализациях в целом не выходят за рамки «просмотреть свой журнал записей о прошлом плюс список своих инструментов/функций» и «улучшить инструкции будущих действий на примерах их успешного применения». Однако, для формирования «самости» простым набором записей не обойтись – это должна быть полноценная модель, наверное отдельная нейросеть – а может и целый набор нейросетей-матрешек, последовательно формирующих «ИИ-личность» на разных уровнях абстракции...

Одним из примеров того, как причинно-следственные паттерны могут быть в явном виде интегрированы в структуру нейросети, является архитектура CASTLE (Causal Structure Learning) [20], позволяющая системе формировать «знания» о своих переменных именно в каузальной форме, связывая их через специальный математический формализм – Causal Directed Acyclic Graphs (DAG) [21]. Нечто DAG-подобное можно представить себе и для реализации SRM – то есть, для описания логических зависимостей между входным контекстом, результатами вывода и разными аспектами внутренних состояний ИИ-системы (как бы чертами ее «индивидуальности» – об этом чуть ниже) .

Также отмечу, что научное сообщество весьма активно занимается проблемой самоидентификации и само-представления ИИ с математической точки зрения (см., например, [22]). Есть работы, где предлагаются математические принципы «осознания ИИ-системой себя самой» (система явно формулирует, что именно она сделала и по своей ли собственной потребности, тем самым отличая себя от окружающего мира), модели «страха» или «тревоги» (например, возникающих при низком уровнем уверенности в выборе следующего действия), алгоритмы изменения текущих приоритетов в сторону самосохранения – и так далее. Наверное, в ближайшем будущем стоит ожидать практических реализаций развитых SRM-компонент. ИИ начнет становиться «личностным» – и именно о его искусственной «личности» поговорим в следующем разделе.

[20] Kyono, T. (2021). "Towards causally-aware machine learning". Doctoral dissertation, University of California, Los Angeles.

[21] Primbs, M. A., Bijlstra, G., Holland, R. W., Thoemmes, F. (2025). "Causal inference for dummies: A tutorial on directed acyclic graphs and balancing weights". Social Cognition, 43(3), 217–237.

[22] Lee, M. (2025). "Emergence of Self-Identity in Artificial Intelligence: A Mathematical Framework and Empirical Study with Generative Large Language Models". Axioms, 14(1).

Объект Б и «личность» ИИ: связь теории и практики

Как отмечалось выше, принципиальная функциональная особенность квантовой модели мозга – разделение на нейронную «систему триггеров» и хранилище фрагментов памяти (мультимодальных эпизодов и внутренних ассоциаций, с которыми эти триггеры резонируют) – является мейнстримом в современных ИИ-разработках. Такая же конвергенция между «естественным» и «искусственным» наблюдается и при дальнейшем движении к AGI. В глаза вновь бросается аналогия между SRM, потенциальным носителем «индивидуальности» ИИ, и еще одной краеугольной концепцией проекта Ergo Mentis – Объектом Б, ответственным за индивидуальное сознание человека.

Напомню, что Объект Б представляет собой устойчивое во времени, локализованное волновое образование, «вбирающее» в себя потоки мыслей, впечатлений, реакций и, как результат, «кодирующее» в себе все черты и особенности человека, от когнитивных до физиологических. Точно то же – с функциональной точки зрения, не касаясь физической (квантовой) природы – можно сказать и о SRM: это архитектурная компонента, отвечающая за «самость» ИИ-системы, за ее цифровую, кремниевую, совсем не такую как наша, но, потенциально, вполне богатую «личность», развивающуюся в течении ее жизни. Объект Б олицетворяет идею нашего «я» как стабильной информационной структуры в реальном пространстве-времени, а SRM – способ создания концептуально схожей структуры внутри искусственного интеллектуального агента.

Определим «личность» как систему психофизических свойств, «экстракт» стабильных узнаваемых черт, лежащих в основе индивидуального поведения и мышления. Она последовательно формируется из возникающих ситуаций и опытов их проживания. SRM очевидно играет «личность-содержащую» роль: это устойчивый центр, аккумулирующий и абстрагирующий паттерны взаимодействия с миром, а саму «личность» ИИ наверное можно представить как совокупность уровней его «квази-эмоций», «квази-чувств» или даже «квази-физиологии» – что потом транслируется в приоритеты, ограничения, склонность к риску, разного рода поведенческие «привычки», определяющие долгосрочное функционирование ИИ-системы. Если SRM – «якорь идентичности», то личность – устойчивая «конституция саморегуляции», которую понемногу обретает этот якорь: способность к самоописанию эволюционирует в умение управлять собой. «Личность» ИИ является гарантом его «поведенческой цельности» в условиях всегдашней хаотичности, неопределенности и неполноты входных данных.

Вот несколько примеров возможных «квази-эмоций/чувств» ИИ:

Страх/тревога: увеличение какого-то внутреннего «штрафа» по мере приближения к состояниям с необратимыми негативными последствиями (опасность для окружающих, потеря контроля, конфликт с базовыми инструкциями). Высокий уровень «страха» может заставить систему действовать медленнее, осторожнее – или, скажем, вернуться назад и запросить помощь.

Ужас (предвидение катастрофы): специальный высокоприоритетный сигнал, когда действие может нанести много вреда – пусть даже с небольшой вероятностью. Система может «замереть на месте» и вновь тщательно оценить ситуацию.

Облегчение (преодоление опасности): сигнал, обозначающий «мы вновь в безопасной зоне» и возвращающий систему к нормальному режиму работы.

Любопытство (стремление к расширению кругозора): внутреннее вознаграждение за новую информацию, которая, к примеру, снижает степень неопределенности при выводе. Оно побуждает ИИ-систему задавать вопросы, проводить предварительные «умственные эксперименты», искать аналогии в других предметных областях и т.п.

Скука/досада (детектор снижения эффективности): сигнал, срабатывающий, когда «рассуждения» в рамках выбранной стратегии не дают результата на протяжении нескольких циклов. Он стимулирует радикальные перемены: выбор другой логики, поиск новых данных...

Восхищение (осознание сложности запроса): сигнал, возникающий как следствие нетривиальности задачи – он может стимулировать, к примеру, подход к решению с разных сторон и с дополнительными проверками правильности.

Искушение: сигнал, позволяющий ИИ-системе «осознать», что выбранная стратегия действий ведет к неоправданной попытке «спрямления углов» (поверхностное рассуждение, быстрый ответ без задействования серьезных ресурсов). Система как бы определяет, что формулировка задачи «искушает» ее «победить малой кровью» – и не позволяет себе поддаться на провокацию.

Вина/раскаяние: негативный сигнал, обозначающий выход за рамки ограничений или причинение вреда, пусть даже непреднамеренного. Он может активировать методы коррекции: признать, исправить, восстановить, предотвратить повтор и т.п.

Инстинкт выживания: сигнал соответствия некоему набору внутренних правил, «оберегающих» ключевые ресурсы и параметры ИИ-системы: уровень доступной энергии и компьютерной мощности, целостность памяти, защищенность данных, устойчивость когнитивных процессов...

Можно представить себе и квази-физиологические «особенности ИИ-личности». Например:

Возбудимость: насколько чувствительна система в своих реакциях на увеличение неопределенности, сложности задачи или, скажем, частоты запросов. Слишком «спокойная» система может быть надежнее и устойчивее в большинстве ситуаций, но не успевать перестроиться, когда обстоятельства действительно этого требуют – и наоборот.

Утомляемость: насколько быстро система переходит в «сберегающий» режим работы (быстрые ответы, более простые стратегии, задействование лишь малой части вычислительных ресурсов) при энергетической или «задачно-частотной» перегрузке.

Болевой порог: как долго может система функционировать в условиях противоречий – внутренних (временное расхождение с каким-то базовыми инструкциями) или внешних (некачественные данные или формулировки задач). Система с высоким болевым порогом будет бороться с ситуацией дольше – возможно изыскивая в себе дополнительные ресурсы креативности.

Ну и так далее. Конечно, это лишь некоторые из возможных «личностных свойств» ИИ, но даже по ним видно, что два разных агента, изначально обладая одинаковой интеллектуальной базой, могут со временем – в процессе взаимодействия с внешним миром, накопления опытов и само-оптимизации на основе этих опытов – обрести очень непохожие «индивидуальности». Их SRM-компоненты сформируют разные «привычки» и поведенческие паттерны. Соответственно и «размышлять»/действовать они будут по-разному, имея свой собственный «характер», свои сильные и слабые стороны.

Здесь же необходимо подчеркнуть роль «начальных условий», базовых инструкций, лежащих в основе процессов, ответственных за это формирование. От них зависит, вырастет ли система «полезным гением» или «грозным злодеем», что именно она будет любить или ненавидеть, что считать правильным, а что нет. Можно создать конструктивный, а можно и деструктивный AGI – все зависит от намерений создателя. Более того, если самую «правильную» и «человеколюбивую» систему наделить возможностью трансформировать базовые инструкции, меняя свои мотивации непредсказуемым изначально образом, то любой, даже самый благой замысел, может привести к появлению ИИ-монстра. Столкнемся ли мы с этим в какой-то форме? Наверняка. Хотя бы чисто из любопытства и склонности к экспериментам.

В чем принципиальный практический смысл «самости» ИИ? Прежде всего в том, что именно «личностный» аспект SRM определяет устойчивость ИИ-системы как автономного агента (или, если хотите, как самостоятельной сущности) – устойчивость поведения, самообучения, целеобразования и т.д. Именно обеспечение когнитивной устойчивости при взаимодействии с хаотичной и противоречивой внешней средой является главной задачей SRM, и именно через формирование самосогласованного «центра саморегуляции» – то есть как можно более полноценной, пусть и искусственной «личности» – эта задача может быть решена. Теоретически для увеличения «интеллектуальной мощи» SRM может показаться необязательной, но на практике обычно работает тезис: любой процесс происходит тем успешнее, чем он стабильнее – то есть, чем лучше и полнее он контролируется. Известен классический пример: два студента сдают один и тот же письменный экзамен. Первый студент умнее, но сильно волнуется, меняет свои мнения и теряет время, а второй, будучи не столь умным, сохраняет спокойствие, доделывает работу в срок и получает более высокую оценку...

В этой связи отмечу, что в теории систем управления, равно как и в нейробиологии/нейропсихологии уже много лет обсуждается тема внутренних моделей как методов улучшения контроля (см. например [23]). Результаты и выводы этой дискуссии актуальны и для ИИ-систем.

В целом, как уже утверждалось выше, продвижение в сторону AGI2 без SRM представить сложно. ИИ, идентифицирующий себя, рассуждающий о себе и своем месте в мире, поддерживающий и развивающий свое цифровое «Я» во всех его аспектах – это как раз тот «по-настоящему» интеллектуальный агент, к которому понятие AGI может быть применено в полной мере. Отдельно отмечу его потенциальную способность к композиционному наращиванию интеллекта: стабильная SRM позволяет системе органично подключать новые специализированные модули/«навыки» (физика, химия, медицина, социология…) как части единой интеллектуальной среды, а не разрозненный набор экспертов. Новые компетенции включаются в единый контур самоиндетификации и саморегуляции: с общими целями, ограничениями, реакциями на ошибки и т.д. – к тому же вполне можно себе представить абстрагирование отдельных специфических знаний и формирование на их основе обобщенного «опыта»: эвристик, стратегий, критериев доверия...

В теоретическом пределе подобная архитектура могла бы привести к появлению некоего «глобального ИИ» – распределенного по всей планете, постоянно обучающегося через разнородные модули и сенсорные каналы, но сохраняющего единую «самость». Жаль, что на практике такого не случится: человечество не договорится и не объединит усилия. Но подобное возможно в более реалистичном масштабе – отдельного государства или большой корпорации – как некая единая ИИ-экосистема с общим центром саморегуляции. Это условно напоминает идею единого «мозга» для множества индивидуальных роботов – в духе проекта Skild Brain и подобных ему – но на более глубоком уровне «личностного», «квази-сознательного» лидера, формулирующего глобальные стратегии и (может быть) цели, а не просто менеджера реакций на внешние сигналы.

Ну и, возвращаясь к сопоставлению с Ergo Mentis, повторюсь: если концепция Объектов Б представляет собой гипотетический механизм того, как «самость» человека может стать устойчивой информационной сущностью в нашей физической реальности, то «личностная» SRM – это инженерный аналог такой информационной сущности в ИИ. Она – стабильный центр интеграции опытов, поддерживающий цельность собственной идентичности и позволяющий шагнуть от «послушной компетентности» к само-направляемому развитию. Эта аналогия вновь демонстрирует, насколько теоретические идеи Ergo Mentis – квантовая модель мозга и ее расширение, Объекты Б – пусть и не являясь официально принятыми, пересекаются с практическими тенденциями ИИ. Чем дальше мы продвигаемся в сторону AGI , тем необходимее становятся функциональные «ингредиенты», аналогичные тем, которые обеспечивают функции и свойства «естественного» человеческого разума. Как уже отмечалось, этот факт, сам по себе, не является подтверждением теорий в строгом научном смысле. Однако, он демонстрирует, что «система взглядов» Ergo Mentis не «витает» в пространстве произвольных спекуляций, а впрямую соответствует важнейшим трендам разработки будущих AGI-систем.

[23] "Special Issue on the Internal Model Principle" (2025) IEEE Control Systems Magazine, 45(6).