Разработчик Microsoft запустил трансформерный ИИ на компьютере 1970-х

Трансформерный ИИ на PDP-11 показал, как работают современные модели без «магии». Эксперимент с ИИ на старом компьютере доказал: фундамент обучения нейросетей остаётся тем же, даже на железе с 6 МГц и 64 КБ памяти.

Бывший инженер Microsoft Dave Plummer продемонстрировал необычный эксперимент, который наглядно объясняет природу современных нейросетей. Он запустил трансформерную модель искусственного интеллекта на компьютере PDP-11 — машине, возраст которой превышает четыре десятилетия. В основе проекта лежит минималистичная модель Attention 11, реализованная на ассемблере и адаптированная под крайне ограниченные ресурсы системы. Устройство располагает всего 64 килобайтами оперативной памяти и процессором с частотой около 6 МГц, однако даже в таких условиях способно обучаться, пусть и на сильно упрощённой задаче.

Модель решает задачу разворота последовательности чисел, но важен не сам результат, а способ его достижения. Вместо запоминания примеров система постепенно выявляет закономерность, корректируя веса и снижая ошибки на каждом шаге. Именно этот процесс, по словам Пламмера, лежит в основе работы современных языковых моделей, включая ChatGPT. Из-за ограничений железа модель пришлось максимально упростить. Она содержит всего чуть больше тысячи параметров, использует фиксированную точку и низкую точность вычислений, а каждый шаг оптимизирован до предела. Тем не менее, система смогла достичь полной точности примерно за 350 итераций обучения, что заняло считанные минуты даже на столь старой машине.

Главный вывод эксперимента — отсутствие «магии» в искусственном интеллекте. Даже самые продвинутые системы опираются на те же базовые принципы: повторяющиеся вычисления, корректировку ошибок и постепенное формирование структуры знаний. Разница лишь в масштабе, на котором это происходит сегодня.

Таким образом, запуск трансформера на PDP-11 стал не столько техническим достижением, сколько наглядной иллюстрацией того, как устроен современный ИИ. Он показывает, что фундаментальные идеи нейросетей остаются неизменными, а их впечатляющие возможности — это, прежде всего, результат роста вычислительных мощностей.