Завершение эпохи ChatGPT

06 июля 2025 о 17:50 - 2162

АватарГолик Юрій


Завершение эпохи ChatGPT

Выдающиеся умы в области ИИ — Дэвид Силвер, создатель AlphaGo, и Ричард Саттон, «отец» обучения с подкреплением — опубликовали работу, которая фактически подводит черту под текущим этапом развития искусственного интеллекта.

Суть проста: архитектура, на которой построен ChatGPT и другие современные языковые модели, приближается к пределу своих возможностей.

Конец эпохи “человеческих данных”

Системы ИИ вроде Gemini и Claude достигли впечатляющих результатов, обучаясь на масштабных массивах информации, созданной людьми. Они мастерски имитируют человеческую речь и поведение. Но именно в этом и заключается их главный недостаток.

Интернет почти исчерпан как источник качественных обучающих данных. Всё, что можно было использовать — уже использовано. Дальнейший прогресс, основанный исключительно на загрузке новых текстов, начинает замедляться.

Имитация — это не изобретение. Модели, обученные на уже существующих знаниях, не способны выйти за их пределы. Они не создадут революционных идей или технологий, просто потому что таких идей нет в их обучающем материале.

Вперёд — в эпоху “опыта”

Следующий шаг на пути к сверхчеловеческому интеллекту требует другого типа данных — не человеческого контента, а собственного опыта ИИ, накопленного в процессе взаимодействия с цифровыми и реальными средами. Это возвращает в центр внимания обучение с подкреплением, но уже в новом, более масштабном виде.

Яркий пример — AlphaProof от DeepMind, недавно получивший «серебро» на Международной математической олимпиаде. Сначала он изучил 100 тысяч человеческих доказательств, а затем самостоятельно сгенерировал ещё 100 миллионов, экспериментируя с логическими системами. То есть учился уже не у людей, а на собственном опыте.

Три основы новой эры ИИ

Силвер и Саттон выделяют ключевые черты будущих систем ИИ:

  1. Потоки опыта (Streams).
    Вместо разрозненных сессий «вопрос-ответ» агенты будут обучаться непрерывно, в течение длительного времени. Представьте себе ИИ-наставника по здоровью, который месяцами анализирует данные с ваших гаджетов и адаптирует советы по мере изменений в вашем организме. Впрочем, с Whoop это уже почти реальность.
  2. Приземлённые действия и вознаграждения (Grounded Actions & Rewards).
    ИИ начнёт напрямую взаимодействовать с окружающим миром: управлять интерфейсами, использовать API, управлять роботами. Его успех будет измеряться объективными метриками (grounded rewards), а не человеческими оценками. Например, полезность научного ИИ будет определяться снижением уровня CO₂, а не аплодисментами экспертов.
  3. Нечеловеческое мышление (Non-human Reasoning).
    Новые системы смогут развивать собственные логические подходы, не копируя привычные человеческие рассуждения. Как AlphaProof, который находит математические доказательства, недоступные человеческому разуму.

Это, пожалуй, самый революционный аспект будущей эпохи — отказ от человеческой логики как единственного эталона.

Что это меняет для всех нас?

Мы вступаем в фазу ИИ, который не просто «знает», а учится. Вместо гонки за новыми текстовыми датасетами начинается гонка за созданием сложных и насыщенных цифровых миров, в которых агенты могут получать опыт.

Фокус смещается от дата-сайентистов к проектировщикам сред и мотивационных систем.

Новые ИИ будут не просто чат-ботами — они станут полноценными исследователями, инженерами и научными ассистентами. Но вместе с их автономностью и непредсказуемостью появляются новые вызовы: как управлять ИИ, который учится сам, действует без инструкций и мыслит по-своему?

Эпоха текстовых моделей была лишь прологом.

Главное ещё впереди.

Подписывайтесь на наш телеграмм

Поделиться: