Выдающиеся умы в области ИИ — Дэвид Силвер, создатель AlphaGo, и Ричард Саттон, «отец» обучения с подкреплением — опубликовали работу, которая фактически подводит черту под текущим этапом развития искусственного интеллекта.
Суть проста: архитектура, на которой построен ChatGPT и другие современные языковые модели, приближается к пределу своих возможностей.
Конец эпохи “человеческих данных”
Системы ИИ вроде Gemini и Claude достигли впечатляющих результатов, обучаясь на масштабных массивах информации, созданной людьми. Они мастерски имитируют человеческую речь и поведение. Но именно в этом и заключается их главный недостаток.
Интернет почти исчерпан как источник качественных обучающих данных. Всё, что можно было использовать — уже использовано. Дальнейший прогресс, основанный исключительно на загрузке новых текстов, начинает замедляться.
Имитация — это не изобретение. Модели, обученные на уже существующих знаниях, не способны выйти за их пределы. Они не создадут революционных идей или технологий, просто потому что таких идей нет в их обучающем материале.
Вперёд — в эпоху “опыта”
Следующий шаг на пути к сверхчеловеческому интеллекту требует другого типа данных — не человеческого контента, а собственного опыта ИИ, накопленного в процессе взаимодействия с цифровыми и реальными средами. Это возвращает в центр внимания обучение с подкреплением, но уже в новом, более масштабном виде.
Яркий пример — AlphaProof от DeepMind, недавно получивший «серебро» на Международной математической олимпиаде. Сначала он изучил 100 тысяч человеческих доказательств, а затем самостоятельно сгенерировал ещё 100 миллионов, экспериментируя с логическими системами. То есть учился уже не у людей, а на собственном опыте.
Три основы новой эры ИИ
Силвер и Саттон выделяют ключевые черты будущих систем ИИ:
- Потоки опыта (Streams).
Вместо разрозненных сессий «вопрос-ответ» агенты будут обучаться непрерывно, в течение длительного времени. Представьте себе ИИ-наставника по здоровью, который месяцами анализирует данные с ваших гаджетов и адаптирует советы по мере изменений в вашем организме. Впрочем, с Whoop это уже почти реальность. - Приземлённые действия и вознаграждения (Grounded Actions & Rewards).
ИИ начнёт напрямую взаимодействовать с окружающим миром: управлять интерфейсами, использовать API, управлять роботами. Его успех будет измеряться объективными метриками (grounded rewards), а не человеческими оценками. Например, полезность научного ИИ будет определяться снижением уровня CO₂, а не аплодисментами экспертов. - Нечеловеческое мышление (Non-human Reasoning).
Новые системы смогут развивать собственные логические подходы, не копируя привычные человеческие рассуждения. Как AlphaProof, который находит математические доказательства, недоступные человеческому разуму.
Это, пожалуй, самый революционный аспект будущей эпохи — отказ от человеческой логики как единственного эталона.
Что это меняет для всех нас?
Мы вступаем в фазу ИИ, который не просто «знает», а учится. Вместо гонки за новыми текстовыми датасетами начинается гонка за созданием сложных и насыщенных цифровых миров, в которых агенты могут получать опыт.
Фокус смещается от дата-сайентистов к проектировщикам сред и мотивационных систем.
Новые ИИ будут не просто чат-ботами — они станут полноценными исследователями, инженерами и научными ассистентами. Но вместе с их автономностью и непредсказуемостью появляются новые вызовы: как управлять ИИ, который учится сам, действует без инструкций и мыслит по-своему?
Эпоха текстовых моделей была лишь прологом.
Главное ещё впереди.