Коллапс рассуждения ИИ: почему даже самые умные нейросети начинают «гадать» при сложных задачах?

Ученые из Института искусственного интеллекта AIRI разработали новый метод для проверки способности ИИ к анализу сложных, многоступенчатых ситуаций. В ходе эксперимента были протестированы 12 современных больших языковых моделей, включая GPT-4o, Qwen2.5, Deepseek-R1, VideoLLaMA и LLaVA-Video.

Для оценки использовалась оригинальная задача: пять персонажей перемещаются между шестью комнатами, совершая десятки и сотни переходов. Нейросети должны были запоминать эти перемещения и отвечать на вопросы, требующие анализа длинных цепочек событий.

Результаты оказались неутешительными: по мере увеличения длины контекста все модели демонстрировали резкое падение качества рассуждений. На самых сложных задачах даже лидеры отрасли давали ответы на уровне случайного угадывания.

«Мы наблюдаем не просто ухудшение, а настоящий коллапс способности к рассуждению. Это не проблема одной архитектуры, а системная особенность всех крупных языковых моделей», – отметил научный сотрудник AIRI Максим Куркин.

Исследование подтвердило выводы, сделанные учеными института в 2024 году: современные ИИ способны эффективно использовать лишь 10–20% длинного контекста, что критически снижает их производительность. По мнению специалистов, для преодоления этого барьера потребуются фундаментальные изменения в архитектуре нейросетей.