Google DeepMind выпустила Gemma 4 12B — открытую мультимодальную модель, рассчитанную на локальный запуск на ноутбуках с 16 ГБ памяти. Главное отличие — изображения и звук обрабатываются «внутри» языковой модели, без привычных тяжёлых энкодеров, что снижает задержки и требования к ресурсам.
Google DeepMind представила Gemma 4 12B — открытую ИИ‑модель, которую можно запускать локально на обычном ноутбуке с 16 ГБ памяти. По замерам, о которых сообщается в релизе, она почти догоняет более крупную модель той же линейки на 26B, при этом оставаясь заметно «легче» для повседневных задач.
Что в ней необычного: мультимодальность без «тяжёлых» энкодеров
Обычно, чтобы модель уверенно работала с картинками и аудио, к ней добавляют отдельные блоки‑«переводчики» (энкодеры): они преобразуют изображение или звук в представление, понятное языковой части. Это помогает качеству, но почти всегда увеличивает задержки и расход памяти.
В Gemma 4 12B Google пошла другим путём: изображения и звук подаются напрямую в языковую модель. В новости отмечается, что тяжёлый энкодер для зрения заменили облегчённым слоем, а отдельный аудиоэнкодер убрали вовсе.
- Изображения — без привычного «монстра»‑энкодера, который часто съедает ресурсы.
- Аудио — модель не «переводит» звук в текст на входе; вместо этого преобразует его в внутренние числовые представления и обрабатывает наравне со словами.
Где эта версия стоит в линейке
Gemma 4 12B позиционируется как «середина»: она находится между компактной E4B (ориентированной на мобильные устройства) и более мощной 26B. При этом подчёркивается важная деталь: 12B стала первой “средней” моделью Gemma, которая умеет работать со звуком из коробки — раньше эта возможность была характерна только для самых маленьких вариантов.
Почему это важно обычным пользователям и разработчикам
Локальный запуск модели на ноутбуке — это не про «поиграться с нейросетью», а про практичные сценарии, где облако неудобно или дорого:
- Приватность: часть задач (например, заметки, фрагменты переписки, документы) проще и спокойнее обрабатывать на своём устройстве.
- Скорость реакции: когда модель работает локально, меньше зависимость от интернета и очередей на сервере.
- Прототипирование: разработчикам проще быстро проверить идею — от анализа медиафайлов до ассистента для внутренних инструментов.
Лицензия и экосистема
Gemma 4 12B распространяется по Apache 2.0, то есть её можно использовать без ограничений, включая коммерческие продукты. Также в новости приводится общий масштаб: модели семейства Gemma 4 суммарно скачали более 150 млн раз, а на базе Gemma собирают самые разные решения — от носимых роботизированных устройств до корпоративных систем безопасности.
Итог: Gemma 4 12B выглядит как попытка сделать мультимодальный ИИ более «земным»: меньше требований к железу, меньше накладных расходов на обвязку, больше шансов реально использовать модель в повседневных продуктах — не только в больших компаниях, но и в небольших командах.
