AI Speech

Модуль платформы, который объединяет технологии распознавания и синтеза речи, инструменты для создания голосовых агентов и постобработки результатов распознавания на базе SpeechKit.

Всё необходимое для работы с голосом

Realtime API: голосовые агенты

Создавайте голосовых агентов, используя готовый пайплайн: распознавание речи + модель + вызов File Search + синтез речи, который занимает менее одной секунды. Поддерживаются MCP-интеграции, файловый и веб-поиск (AI Search) и кратковременная память агента.

Распознавание речи SpeechKit

Распознавайте речь за доли секунды во всём её многообразии и стилистике в реальном времени и из предварительно записанных аудиофайлов с автоматическим определением языка говорящего.

Синтез речи SpeechKit

Озвучивайте интерфейсы, сообщения и сценарии — от массовых коммуникаций до интерактивных ассистентов. Используйте в IVR, информировании клиентов, голосовых ассистентах, медиаконтенте.

LLM-обработка результатов распознавания

SpeechKit распознаёт аудио и обрабатывает результат языковой моделью: суммаризирует, извлекает факты, переводит, готовит структурированные данные (например, для CRM). Поддерживаются форматы: текст, произвольный JSON, строгая JSON schema.

Brand Voice — фирменный голос компании

Выбирайте версию Lite для быстрого и самостоятельного создания голоса (20–40 минут речи) без написания кода и сложных процессов, Premium — для кастомного голоса для задач маркетинга и PR с вариативностью характеристик и несколькими амплуа.

SpeechKit Hybrid

Решение для клиентов, которым необходимо контролировать процесс обработки и синтеза речи в собственном контуре. В основе — те же модели распознавания и синтеза речи, что и в облаке, а также модель Speech Realtime (в составе AI Studio).

Сценарии использования

Решайте бизнес-задачи с помощью технологий — от поддержки и продаж до автоматизации внутренних процессов и создания контента.

Контакт-центр

Автоматизируйте работу контакт-центра с помощью Realtime API и контролируйте её качество аналитикой разговоров. Получайте подсказки оператору во время звонка и автоматически формируйте саммари с сохранением результатов в CRM и аналитических системах.

Голосовой агент поддержки

Создавайте голосовых агентов, которые понимают запросы пользователей, отвечают без задержек и интегрируются с системами поддержки и базами знаний компании. Используйте их для обработки типовых обращений, поддержки клиентов 24/7 и снижения нагрузки на операторов.

Телемаркетинг и оповещения

Запускайте массовые голосовые кампании и оповещения с единым фирменным голосом бренда. Персонализируйте сообщения, масштабируйте обзвон и сохраняйте стабильное качество коммуникации.

Внутренние ассистенты

Превращайте встречи и звонки в структурированные протоколы без ручной обработки. Извлекайте договорённости, автоматически создавайте задачи и формируйте отчёты для команд и руководства.

Медиа и контент

Озвучивайте тексты новостей, подкастов, аудиокниг естественными голосами из общедоступной библиотеки. Масштабируйте производство контента и ускоряйте выпуск без студийной записи.

Продажи и лидогенерация

Автоматизируйте первичный контакт с потенциальными клиентами с помощью речевых технологий. Квалифицируйте лиды, уточняйте потребности и направляйте обращения в нужные команды или CRM-сценарии.

Протестируйте технологии прямо сейчас

В Yandex AI Studio доступен Playground для ваших экспериментов. Попробуйте синтезировать, распознать речь и обработать её, или создать уникальный голос в удобном интерфейсе.

Правила тарификации

Стоимость зависит от сценария: распознавание и синтез речи, версии используемого API, режима работы. Подробнее о расчёте стоимости — в документации.

On-premises — без компромиссов

Используйте в облаке или разворачивайте весь стек речевых технологий на собственной инфраструктуре.
Подойдёт для сценариев, где важны полный контроль над данными, изолированный контур и интеграция с закрытыми системами компании.

Доверие по умолчанию

Речевые технологии затрагивают данные, пользователей и репутацию бренда.
Мы учитываем это на уровне платформы, чтобы вы могли фокусироваться на продукте, а не на рисках.

Безопасность

Компоненты Yandex AI Studio работают на инфраструктуре Yandex Cloud и обеспечивают контроль доступа, масштабирование и соответствие корпоративным требованиям.

Этические принципы

Принципы, которых придерживается Яндекс в работе с технологией синтеза речи, чтобы выстроить прозрачное и ответственное использование записей синтезированных голосов.

Могут быть полезны

Сервис для получения ответов поисковой базы Яндекса в формате XML или HTML. Помогает организовать поиск по сайту, группе сайтов или интернету, отслеживать позиции сайтов по поисковым запросам.

Сервис компьютерного зрения для распознавания текста на изображениях и в файлах PDF. Поддерживает 45+ языков и определяет их автоматически.

Сервис для интеграции алгоритмов Яндекс Переводчика в приложения или веб- проекты для конечных пользователей. Поддерживает 100+ языков и умеет переводить отдельные слова и целые тексты.

Начните работать с AI Speech

Попробуйте создать своего первого голосового агента или уникальный голос для вашего бренда. Всё необходимое для старта уже есть в консоли.