NVIDIA выпустила открытое семейство Nemotron-Labs Diffusion и заявила ускорение генерации до 4× на флагманском GPU B200 — без компромиссов по качеству. Ключевая идея — self‑speculation: один и тот же LLM одновременно выступает «черновиком» и «проверяющим».
Ускорение генерации текста обычно выглядит как торг: либо жертвуем качеством, либо усложняем инфраструктуру (дополнительные модели, новые пайплайны, больше точек отказа). NVIDIA заявляет, что в Nemotron-Labs Diffusion получилось обойтись без этих компромиссов — и при этом заметно ускорить вывод.
Что именно выпустили
NVIDIA представила открытое семейство языковых моделей Nemotron-Labs Diffusion. В линейке есть варианты на 3B, 8B и 14B параметров, а также мультимодальная модель на 8B с поддержкой изображений. По данным NVIDIA, на GPU B200 скорость достигает 865 токенов/с — это примерно в 4 раза быстрее традиционной генерации «токен за токеном» на том же железе.
Идея ускорения: один LLM в двух ролях
Классический «спекулятивный декодинг» часто строится так:
- маленькая модель быстро набрасывает несколько токенов вперёд (черновик);
- большая модель проверяет черновик одним проходом и принимает удачные куски.
В Nemotron-Labs Diffusion, как описывает NVIDIA, черновик и проверяющий — это одна и та же модель, просто в разных режимах работы. NVIDIA называет подход self‑speculation.
Почему это вообще ускоряет вывод на GPU
При обычной авторегрессионной генерации каждый новый токен — это фактически новый полноценный проход через модель, а значит постоянные обращения к памяти за весами. В результате ускорение упирается не столько в «математику», сколько в то, что вычислители простаивают, пока ждут данные из памяти.
В self‑speculation модель сначала параллельно формирует черновик из нескольких токенов в «диффузионном» режиме, а затем сама же верифицирует результат в обычном авторегрессионном режиме. В среднем за один проход, по приведённым цифрам, обрабатывается 5–7 токенов.
«Без потери качества» — что имеется в виду
Важная деталь: для детерминированной генерации (указывают temperature = 0) NVIDIA заявляет побитовое совпадение результата с обычной авторегрессией. То есть ускорение описывается как изменение способа «доставки» тех же самых токенов, а не как приближённый ответ.
Сравнения и цифры из бенчмарков
NVIDIA приводит несколько ориентиров:
- Nemotron-Labs Diffusion 8B показывает на 1,2% более высокую среднюю точность, чем Qwen3 8B;
- на SPEED-Bench — в 2,4 раза быстрее, чем Qwen3 8B с Eagle3 (один из сильных подходов к спекулятивному декодингу);
- среднее число «принятых токенов» за проход: 5,46 (без дообучения) и 6,82 (после тонкой настройки через LoRA), тогда как у Eagle3 — 2,75;
- на задачах программирования, математики, рассуждений и мультиязычности разрыв, по их данным, ещё заметнее: 8,69 против 2,81.
Что это меняет для разработки продуктов
Если подход действительно устойчиво даёт ускорение без потери качества, выигрывают не только крупные лаборатории. Есть и вполне «приземлённые» сценарии:
- Чат‑боты и поддержка: меньше задержка ответа при той же стоимости железа — или больше диалогов на том же кластере.
- Код‑ассистенты: генерация и автодополнение становятся ощутимо «живее», что особенно заметно в IDE.
- On‑prem и приватные контуры: когда бюджет на GPU ограничен, ускорение вывода часто важнее «ещё одной» модели.
Можно ли так ускорить другие модели
NVIDIA отмечает, что метод в теории применим и к другим современным авторегрессионным LLM. Они упоминают свою предыдущую работу Efficient-DLM и подход к добавлению диффузионных возможностей через дообучение и изменения в механизме внимания без переписывания модели «с нуля».
Но есть практическое ограничение: для такого апгрейда обычно нужен доступ к весам и инфраструктура для продолжения обучения. Поэтому быстрее всего эффект может проявиться в экосистеме открытых семейств, тогда как для закрытых моделей всё зависит от того, станут ли их разработчики внедрять подобную схему.
