Выделенные инстансы

Примечание

Функциональность находится на стадии Preview.

AI Studio позволяет развернуть некоторые модели на выделенном инстансе. В отличие от самостоятельного развертывания моделей на ВМ в сервисе Yandex Compute Cloud, вам не нужно настраивать окружение и подбирать оптимальные параметры ВМ — AI Studio обеспечивает стабильный, надежный и эффективный инференс модели и следит за его работой в автоматическом режиме.

Выделенные инстансы имеют ряд преимуществ:

Гарантируемые параметры производительности, на которые не влияет трафик других пользователей.
Отсутствие дополнительных квот на отправление запросов и параллельные генерации, ограничения зависят только от выбранной конфигурации инстанса.
Оптимизированный инференс модели, чтобы обеспечить эффективное использование оборудования.

Выделенные инстансы будут полезны, если вам необходимо обрабатывать большие объемы запросов без задержек. Тарификация выделенного инстанса не зависит от объема входящих и исходящих токенов: оплачиваться будет только время его работы.

Модели выделенного инстанса

Все развернутые модели доступны через API, совместимый с OpenAI, AI SDK и в AI Playground. Чтобы развернуть выделенный инстанс, понадобится роль ai.models.editor или выше на каталог. Для обращения к модели достаточно роли ai.languageModels.user.

Модель	Контекст	Лицензия
Qwen 2.5 VL 32B Instruct Карточка модели	32 768	Лицензия Apache 2.0
Qwen 2.5 7B Instruct Карточка модели	32 768	Лицензия Apache 2.0
Gemma 3 4B it Карточка модели	131 072	Условия использования Gemma
Gemma 3 12B it Карточка модели	65 536	Условия использования Gemma
T-pro-it-2.0-FP8 Карточка модели	32 768	Лицензия Apache 2.0

Конфигурации выделенных инстансов

Каждая модель может быть доступна для развертывания на нескольких конфигурациях: S, M или L. Каждая конфигурация гарантирует определенные значения TTFT (Time to first token, время до первого токена), Latency (задержка — время, затраченное на генерацию ответа) и TPS (Tokens per second, количество токенов в секунду) для запросов с разной длиной контекста.

Рисунок ниже показывает зависимость задержек и количества токенов, обрабатываемых моделью, от количества параллельных генераций (Concurrency на рисунке): до определенного момента чем больше генераций модель будет обрабатывать параллельно, тем дольше будет длиться генерация и тем больше токенов будет сгенерировано за секунду.

instances