Для оценки использовалась оригинальная задача: пять персонажей перемещаются между шестью комнатами, совершая десятки и сотни переходов. Нейросети должны были запоминать эти перемещения и отвечать на вопросы, требующие анализа длинных цепочек событий.
Результаты оказались неутешительными: по мере увеличения длины контекста все модели демонстрировали резкое падение качества рассуждений. На самых сложных задачах даже лидеры отрасли давали ответы на уровне случайного угадывания.
«Мы наблюдаем не просто ухудшение, а настоящий коллапс способности к рассуждению. Это не проблема одной архитектуры, а системная особенность всех крупных языковых моделей», – отметил научный сотрудник AIRI Максим Куркин.
Исследование подтвердило выводы, сделанные учеными института в 2024 году: современные ИИ способны эффективно использовать лишь 10–20% длинного контекста, что критически снижает их производительность. По мнению специалистов, для преодоления этого барьера потребуются фундаментальные изменения в архитектуре нейросетей.






















