Windsurf добавила Arena Mode — возможность запускать двух ИИ-агентов параллельно на одной задаче и выбирать лучший результат, не зная, какая модель за ним стоит. Идея простая: мерить качество не “по бенчмаркам”, а в вашем реальном проекте — с контекстом кода и инструментами разработки.
Когда в редакторе есть несколько ИИ-моделей, выбор обычно превращается в гадание: одна «пишет красиво», другая — «копает глубже», третья — быстрее. В Windsurf решили превратить это в понятную механику и добавили Arena Mode — режим сравнения моделей прямо во время работы над кодом.
Как работает Arena Mode
Идея похожа на «слепое тестирование»:
- по одному и тому же запросу IDE запускает двух Cascade-агентов параллельно;
- какая именно модель стоит за каждым агентом — скрыто до завершения сравнения;
- вы общаетесь с обоими агентами в привычном режиме: они видят контекст проекта, могут помогать с разбором кода, отладкой и задачами разработки;
- после просмотра результатов вы выбираете, чей ответ оказался полезнее, а голос идёт в рейтинг.
Почему это может быть полезнее «табличек с баллами»
Публичные бенчмарки часто проверяют модели на коротких задачах без контекста: «написать функцию», «объяснить ошибку», «сгенерировать код». Но в живой разработке важнее другое:
- понимает ли ассистент структуру вашего репозитория;
- не ломает ли он стиль и договорённости команды;
- умеет ли он отлаживать, а не только “дописывать”;
- как он ведёт себя в длинном диалоге, когда требований становится больше.
Arena Mode как раз пытается оценивать модели внутри реального рабочего процесса, а не в стерильной лаборатории.
Рейтинги: личные и общие
Результаты голосований попадают в два уровня:
- личный лидерборд — строится по вашим выборам (полезно, если у вас свои типы задач и свой стек);
- глобальный лидерборд — агрегируется по всей базе пользователей Windsurf.
Внутри режима можно сравнивать конкретные модели или выбирать готовые группы (например, «быстрые» против «более мощных»). А продолжение диалога можно держать синхронным для обоих агентов или развести ветки, чтобы углублять разные направления решения.
Практический сценарий: как это выглядит в обычной задаче
Допустим, вы чините баг в сервисе и не уверены, что лучше: быстрый «диагност» или модель, которая аккуратнее перепроверяет гипотезы. В Arena Mode можно:
- дать одинаковое описание проблемы и лог/трассировку;
- посмотреть, кто быстрее находит место в коде, где «пахнет» ошибкой;
- сравнить предложенные фиксы и их побочные эффекты;
- выбрать лучший вариант и зафиксировать победителя для рейтинга.
Скепсис тоже понятен
Параллельный запуск двух агентов означает дополнительные вычисления. В обсуждениях вокруг идеи звучит очевидный вопрос: не будет ли это слишком прожорливо по токенам? В Windsurf, судя по формулировке, делают ставку на то, что честная оценка в вашем коде окупится временем, которое обычно уходит на проверку «а этот ассистент вообще подходит под мой проект».
Что ещё добавили вместе с Arena Mode
Одновременно Windsurf анонсировала Plan Mode — режим, который сначала помогает сформулировать задачу: задаёт уточняющие вопросы, собирает ограничения и превращает всё это в структурированный план. После этого план можно отдавать агенту на выполнение. Такой подход снижает шанс, что ИИ “прыгнет” в генерацию кода, не поняв, что именно от него хотят.
Главная ценность Arena Mode — в смене фокуса: вместо абстрактного «какая модель лучше» появляется практичный вопрос «какая модель лучше решает мои задачи в моём репозитории».
