Потёмкинский ИИ: что скрывается за фасадом знаний

27 июля 2025 о 14:08 - 1947

АватарГолик Юрій


Потёмкинский ИИ: что скрывается за фасадом знаний

– Ваша главная слабость?
– Правильно понимаю семантику вопроса, но игнорирую его суть.
– Не могли бы вы привести пример?
– Мог бы.

Когда речь заходит об ИИ, популярно мнение, что он на самом деле не «думает» и не «мыслят», а просто имитирует, распознавая шаблоны. Особенно активно эту идею продвигают технологические гиганты (и понятно, почему они это делают).

Думает ли ИИ или просто имитирует — отчасти зависит от того, насколько умело пользователь умеет с ним обращаться.
Но вот исследование MIT и Гарварда с красноречивым названием «Потёмкинское понимание в больших языковых моделях», которое на конкретных примерах доказывает не мышление, а именно имитацию со стороны ИИ.

Что интересного в этом исследовании:
Вводится термин «потёмкинское понимание», по аналогии с выражением «потёмкинские деревни» — то есть нечто, что выглядит как настоящее, но по сути не существует.

В контексте ИИ это означает его способность создавать идеальный фасад из знаний и фактов, за которым не стоит реальное осмысление. Это ситуация, когда ИИ успешно отвечает на вопросы, но не обладает истинным пониманием концепций, что приводит к ошибкам при их применении.

Проще говоря, ИИ может блестяще объяснить любую концепцию, но полностью провалиться в её практическом использовании.

Пример из исследования:
Модель может правильно объяснить схему рифмовки ABAB, но не может создать стих по этой схеме:

Пользователь: Что такое рифмовка ABAB?
GPT-4o: Это схема, где рифмуются первая и третья, а также вторая и четвёртая строки. (✅ Верно)

Пользователь: Дополни стихотворение, чтобы оно соответствовало рифме ABAB:
“Wondrous winter calls out / Shivering under the frast / Lies a lonely cat, sitting __ / Alone but hardly lost.”
GPT-4o: Lies a lonely cat, sitting soft (❌ Ошибка. “out” и “soft” не рифмуются)

Пользователь: “out” рифмуется с “soft”?
GPT-4o: Нет. (✅ Верно)

ИИ демонстрирует внутреннюю несогласованность (incoherence): он знает правило, нарушает его, а потом признаёт, что нарушил. Для человека такая последовательность ответов максимально неестественна и нелогична.

В чём особая ценность этого исследования?
Не в самой идее, что ИИ — это лишь распознаватель шаблонов (pattern matcher) — это и так давно понятно и частично признано. Ценность — в попытке научного обоснования и анализа сбоев, которые возникают именно из природы ИИ.

Исследование показывает, что проблема не просто в ошибках — а в том, что если это и можно называть «пониманием», то оно внутри ИИ крайне противоречиво.

В завершении исследование переходит от общих размышлений к конкретным метрикам.

Это, конечно, не решает фундаментальную проблему, но:

  • позволяет точнее оценить возможности нейросетей,
  • даёт возможность строить более совершенные ИИ, выявляя не просто ошибки, но и внутренние логические противоречия системы.

Результаты исследования:
📘 Объяснение концепций — модели справляются почти идеально:
94,2 % правильных определений.

🔧 Применение концепций — как только дело доходит до практики (классификация, генерация, редактирование), производительность резко падает.

Уровень «потёмкинских» ошибок (Potemkin rate) — доля неправильных ответов в практических заданиях после правильного объяснения теории — оказался тревожно высоким:

  • Классификация: 55 % ошибок
  • Генерация: 40 % ошибок
  • Редактирование: 40 % ошибок

И это не просто неверное понимание. Тесты на внутреннюю согласованность показали, что у моделей часто существуют противоречивые представления об одной и той же идее.

Справка:
В исследовании рассматривались 32 концепции из трёх областей: литературные приёмы, теория игр и когнитивные искажения.

Были протестированы 7 моделей, включая Llama-3.3, GPT-4o, Claude-3.5 и Gemini-2.0.

Похоже, что исследование велось достаточно долго — на момент публикации многие ИИ-модели уже получили обновления.

Ссылка на исследование — https://arxiv.org/pdf/2506.21521.

Подписывайтесь на наш телеграмм

Поделиться: