Google выпустила Multi‑Token Prediction (MTP) drafters для семейства Gemma 4 — небольшой «вспомогательный» модуль, который помогает основной модели выдавать ответы быстрее. Идея простая: пока большая модель ждёт данные из памяти, маленькая подсказывает несколько следующих токенов — и тем же текстом можно прийти за меньшее время.
Google выпустила Multi‑Token Prediction (MTP) drafters для открытых моделей Gemma 4. По заявлению компании, такая связка может ускорить генерацию текста до трёх раз — без ухудшения качества ответа.
Почему «ускорять» вообще есть куда
При обычной генерации языковая модель идёт шаг за шагом и добавляет текст по одному токену. На практике скорость часто упирается не в «умение считать», а в то, как быстро система подаёт параметры модели из памяти к вычислительным блокам. Из-за этого часть вычислительных ресурсов простаивает, а задержка ответа растёт.
Что именно добавили: маленькая модель, которая работает «пока большая ждёт»
MTP drafters — это небольшой вспомогательный компонент для Gemma 4, который работает в режиме спекулятивного декодирования:
- основная (целевая) модель продолжает отвечать «как обычно», но ей требуется время на подгрузку данных;
- лёгкий драфтер в этот промежуток предлагает сразу несколько следующих токенов;
- затем основная модель проверяет предложенную последовательность за один проход и, если всё совпадает, принимает её целиком.
Смысл в том, что пользователь получает тот же самый текст, но быстрее: драфтер использует вычисления, которые иначе просто «съедались» ожиданием памяти.
Кому это полезно — не только исследователям
Ускорение инференса — практичная вещь, потому что задержка ответа напрямую влияет на ощущение «живого» продукта. Подход пригодится в нескольких понятных сценариях:
- локальные ассистенты для разработчиков — меньше пауз в чате и автодополнении, особенно когда модель крутится на одной видеокарте или на ноутбуке;
- агентные сценарии (планирование в несколько шагов) — когда система делает много коротких запросов к модели, каждая сэкономленная доля секунды складывается в ощутимую разницу;
- мобильные и edge‑устройства — быстрее ответ означает меньше времени активной работы железа, а значит потенциально экономнее расход батареи.
Что важно учесть при внедрении
MTP — не «волшебная кнопка ускорить». Чтобы эффект был стабильным, обычно важно:
- держать совместимую пару «целевая модель + её драфтер» (они рассчитаны работать вместе);
- измерять скорость на своём железе: выигрыш зависит от того, где именно у вас узкое место — память, пропускная способность, настройки запуска;
- планировать ресурсы: спекулятивный режим добавляет ещё один компонент в пайплайн инференса, и это нужно учитывать при развёртывании.
Доступность и лицензия
По информации Google, MTP drafters для Gemma 4 распространяются под лицензией Apache 2.0 и опубликованы на популярных платформах распространения весов. Это упрощает тестирование в командах, которым важны локальные запуски и контроль над инфраструктурой.
