Компания ShengShu Technology представила Motubrain — мультимодальную модель искусственного интеллекта, которая объединяет восприятие, анализ и действия в одной архитектуре. В отличие от традиционных робототехнических систем, где эти функции разделены на отдельные модули, новая модель работает как единый «мозг», обрабатывая данные и принимая решения в непрерывном цикле.

Motubrain обучается сразу на видео, языке и действиях, что позволяет роботам лучше понимать окружающую среду и прогнозировать развитие ситуации. При этом модель активно использует неразмеченные данные, снижая зависимость от ручной подготовки обучающих наборов и упрощая масштабирование.

По данным компании, система показывает высокие результаты в тестах и способна выполнять сложные последовательности действий, включая многоэтапные задачи. В реальных сценариях роботы могут адаптироваться прямо в процессе работы: если действие завершается неудачей, модель распознаёт ошибку и повторяет попытку без дополнительного обучения.

Разработка основана на предыдущих наработках ShengShu в области генеративного видео и уже тестируется совместно с партнёрами, включая Alibaba Cloud. В компании считают Motubrain важным шагом к созданию универсальных роботизированных систем, способных работать в реальных условиях без сложной модульной логики.