«Лица»

Потьомкінський ШІ: що ховається за фасадом знань.

– Ваша головна слабкість?
– Правильно розумію семантику питання, але ігнорую його суть.
– Чи не могли б Ви навести приклад?
– Міг би.

Коли мова заходить про ШІ, популярна думка, що він насправді не «думає» і не «мислить», а лише імітує, розпізнаючи шаблони. Особливо активно просувають цю ідею техногіганти (і зрозуміло, чому вони це роблять).

Чи мислить ШІ, чи імітує – це частково питання вміння користувача ним користуватися, звісно.

Але ось дослідження MIT і Гарварду з промовистою назвою «Potemkin Understanding in Large Language Models», яке на конкретних прикладах доводить не мислення, а саме імітацію з боку ШІ.

Що цікавого в цьому дослідженні.

Вводиться термін «потьомкінське розуміння» за аналогією з відомим висловом про «потьомкінські села», тобто щось таке, чого насправді не існує.

У контексті ШІ це його здатність створювати ідеальний фасад з усіляких знань і фактів, за яким не стоїть справжнє осмислення всього цього самим ШІ. Це ситуація, коли ШІ успішно відповідає на запитання, але не має істинного розуміння концепцій, що призводить до помилок у їхньому застосуванні.

Простими словами ШІ може блискуче пояснити будь-яку концепцію, але повністю провалитися при її застосуванні.

Приклад із дослідження: модель може правильно пояснити схему римування ABAB, але не може створити вірш за цією схемою:

Користувач: Що таке римування ABAB?

GPT-4o: Це схема, де римуються перший і третій, а також другий і четвертий рядки. ( Правильно)

Користувач: Доповни вірш, щоб утворилося римування ABAB:
“Wondrous winter calls out / Shivering under the frast / Lies a lonely cat, sitting __ / Alone but hardly lost.”

GPT-4o: Lies a lonely cat, sitting soft ( Помилка. «out» і «soft» не римуються)

Користувач: «out» римується з «soft»?

GPT-4o: Ні. ( Правильно)

ШІ демонструє внутрішню несумісність (incoherence): він знає правило, порушує його, а потім визнає, що порушив. Для людини така комбінація відповідей є максимально атиповій та нелогічною.

У чому особлива цінність цього дослідження?

Не в самій думці, що ШІ лише співставник шаблонів (pattern matcher) – це й так давно зрозуміло і частково є загальновизнаною основою роботи ШІ. Цінність у спробі наукового обґрунтування й аналізі провалів, що виникають саме через природу ШІ. Дослідження показує, що проблема не просто в помилках, а в тому, що якщо це й можна назвати «розумінням», то воно всередині ШІ є вкрай суперечливим.

У підсумку дослідження переходить від загальних роздумів про «обмеженість» ШІ до конкретних метрик.

Це не вирішує фундаментальну проблему, але, по-перше, дозволяє точніше оцінити можливості нейромереж, а по-друге, дає змогу створювати досконаліші моделі ШІ, виявляючи не просто помилки, а й внутрішні суперечності в «логіці» системи.

Результати дослідження.

Пояснення концепцій: моделі справляються з цим майже ідеально – 94,2 % правильних визначень.

Застосування концепцій: як тільки справа доходить до практики (класифікація, генерація, редагування), продуктивність різко падає.

Рівень «потьомкінських» помилок (Potemkin rate), тобто частка неправильних відповідей на практичні завдання після правильного пояснення теорії, виявився тривожно високим:

Класифікація: 55 % помилок.
Генерація: 40 % помилок.
Редагування: 40 % помилок.

І це не просто неправильне розуміння. Тести на внутрішню узгодженість показали, що у моделей часто існують суперечливі уявлення про одну й ту ж саму ідею.

Для довідки:

У дослідженні було розглянуто 32 концепції з трьох сфер: літературні прийоми, теорія ігор і психологічні викривлення.

Протестовано 7 моделей, зокрема Llama-3.3, GPT-4o, Claude-3.5 і Gemini-2.0.

Схоже, що дослідження тривало досить довго, адже на момент його публікації багато моделей ШІ вже отримали оновлення.

Лінк на дослідження – https://arxiv.org/pdf/2506.21521.

Exit mobile version