
AI Speech
Модуль платформы, который объединяет технологии распознавания и синтеза речи, инструменты для создания голосовых агентов и постобработки результатов распознавания на базе SpeechKit.
Всё необходимое для работы с голосом

Realtime API: голосовые агенты
Создавайте голосовых агентов, используя готовый пайплайн: распознавание речи + модель + вызов File Search + синтез речи, который занимает менее одной секунды. Поддерживаются MCP-интеграции, файловый и веб-поиск (AI Search) и кратковременная память агента.

Распознавание речи SpeechKit
Распознавайте речь за доли секунды во всём её многообразии и стилистике в реальном времени и из предварительно записанных аудиофайлов с автоматическим определением языка говорящего.

Синтез речи SpeechKit
Озвучивайте интерфейсы, сообщения и сценарии — от массовых коммуникаций до интерактивных ассистентов. Используйте в IVR, информировании клиентов, голосовых ассистентах, медиаконтенте.

LLM-обработка результатов распознавания
SpeechKit распознаёт аудио и обрабатывает результат языковой моделью: суммаризирует, извлекает факты, переводит, готовит структурированные данные (например, для CRM). Поддерживаются форматы: текст, произвольный JSON, строгая JSON schema.

Brand Voice — фирменный голос компании
Выбирайте версию Lite для быстрого и самостоятельного создания голоса (20–40 минут речи) без написания кода и сложных процессов, Premium — для кастомного голоса для задач маркетинга и PR с вариативностью характеристик и несколькими амплуа.

SpeechKit Hybrid
Решение для клиентов, которым необходимо контролировать процесс обработки и синтеза речи в собственном контуре. В основе — те же модели распознавания и синтеза речи, что и в облаке, а также модель Speech Realtime (в составе AI Studio).
У вас уже есть телефония?
Подключите ИИ-агента к существующей инфраструктуре через SIP — без замены оборудования и перестройки процессов.

Сценарии использования
Решайте бизнес-задачи с помощью технологий — от поддержки и продаж до автоматизации внутренних процессов и создания контента.
Протестируйте технологии прямо сейчас
В Yandex AI Studio доступен Playground для ваших экспериментов. Попробуйте синтезировать, распознать речь и обработать её, или создать уникальный голос в удобном интерфейсе.

Создавайте прототипы решений в графическом интерфейсе
Low-code-интерфейс Yandex AI Studio позволяет создать голосового агента за минуты вместо недель программирования.

Правила тарификации
Стоимость зависит от сценария: распознавание и синтез речи, версии используемого API, режима работы. Подробнее о расчёте стоимости — в документации.

On-premises — без компромиссов
Используйте в облаке или разворачивайте весь стек речевых технологий на собственной инфраструктуре.
Подойдёт для сценариев, где важны полный контроль над данными, изолированный контур и интеграция с закрытыми системами компании.

Доверие по умолчанию
Речевые технологии затрагивают данные, пользователей и репутацию бренда.
Мы учитываем это на уровне платформы, чтобы вы могли фокусироваться на продукте, а не на рисках.
Могут быть полезны

Сервис для получения ответов поисковой базы Яндекса в формате XML или HTML. Помогает организовать поиск по сайту, группе сайтов или интернету, отслеживать позиции сайтов по поисковым запросам.

Сервис компьютерного зрения для распознавания текста на изображениях и в файлах PDF. Поддерживает 45+ языков и определяет их автоматически.

Сервис для интеграции алгоритмов Яндекс Переводчика в приложения или веб-проекты для конечных пользователей. Поддерживает 100+ языков и умеет переводить отдельные слова и целые тексты.
Начните работать с AI Speech
Попробуйте создать своего первого голосового агента или уникальный голос для вашего бренда. Всё необходимое для старта уже есть в консоли.
