Джон Кармак предложил нестандартную идею для ускорения инференса: хранить веса нейросети не в DRAM, а в оптоволоконном кольце, где данные «крутятся» световыми импульсами. Объясняем, почему идея вообще звучит разумно и какие ограничения у неё есть.
Создатель Doom и основатель Keen Technologies Джон Кармак описал необычную альтернативу традиционной оперативной памяти для инференса нейросетей: хранить веса модели в оптоволоконной петле, где данные циркулируют как световые импульсы.
В чём суть идеи — простыми словами
Обычно ускоритель ИИ постоянно «ходит» за весами в DRAM/HBM. Чем крупнее модель, тем сильнее упираемся в память: пропускная способность, задержки и цена начинают диктовать архитектуру.
Кармак предлагает смотреть на это иначе: если данные можно гонять по оптоволокну с огромной скоростью, то в самом волокне появляется «объём данных в пути». По его расчётам, уже демонстрировались скорости передачи порядка 256 Тб/с на расстоянии 200 км по одномодовому волокну — это даёт примерно 32 ГБ данных, которые физически находятся «в полёте» в петле, с оценочной пропускной способностью 32 ТБ/с.
Почему инференс делает это интересным
Ключевой аргумент Кармака: во время инференса паттерн доступа к весам детерминирован. То есть известно заранее, какие веса понадобятся и в какой последовательности.
Если последовательность известна, можно не «запрашивать» данные из памяти каждый раз, а непрерывно подкачивать поток весов напрямую в кэш (например, L2), синхронизируя его с вычислениями. В идеальном сценарии DRAM как отдельный узел перестаёт быть обязательным элементом контура.
Историческая аналогия: память на линиях задержки
Сам Кармак сравнивает идею с «современным аналогом ртутных линий задержки» — ранней технологией памяти 1940-х, где информация хранилась как циркулирующие импульсы (тогда — акустические). Оптоволоконная петля — та же логика, только с фотоникой и на других скоростях.
Где упирается реальность
- Масштабирование: для моделей с триллионами параметров потребуется много петель и сложная система подачи данных.
- Инженерия интерфейса: чтобы «кормить» вычисления потоком весов, нужен высокоскоростной тракт и согласование с кэшем/конвейером.
- Не всё в модели идеально линейно: реальный пайплайн инференса содержит нюансы — батчи, разные слои, условные ветвления, оптимизации.
При этом Кармак отмечает, что пропускная способность оптоволокна исторически растёт быстрее, чем у DRAM, а значит «фантастика» со временем может стать инженерной задачей.
Более приземлённый вариант: дешёвый флеш вместо дорогой DRAM
В качестве практичной альтернативы Кармак упоминает другой путь: собрать массив из множества дешёвых чипов флеш-памяти и добиться нужной пропускной способности за счёт постраничного чтения и конвейеризации. Условие одно — индустрии нужен единый высокоскоростной интерфейс, о котором договорятся производители флеша и ускорителей.
Почему обсуждение всплыло именно сейчас
Интерес к таким идеям подогревают два фактора: дефицит и стоимость памяти для ИИ-ускорителей, а также то, что рост моделей часто упирается не в «ум» чипа, а в то, как быстро он получает данные. Поэтому даже мысленные эксперименты про архитектуру памяти становятся предметом внимания, а не просто техно-фантазией.
